2. 中国原子能科学研究院 放射化学研究所, 北京 102413
2. Institute of Radiochemistry, China Institute of Atomic Energy, Beijing 102413, China
线性混合效应模型是处理纵向数据最主要的模型之一,Diggle等[1]首次基于线性混合模型详细地研究了针对纵向数据的统计分析方法。随着纵向数据研究的不断发展,线性混合模型在生物、医学、卫生、心理学、农学和经济学等各个领域都有了非常广泛的应用。
影响分析作为统计建模中非常重要的一部分,主要被应用于识别数据中的强影响点和异常值点。近年来,关于线性混合模型的影响分析问题已经成为了研究热点之一。例如,当总体误差服从正态分布时,Pan等[2]基于似然函数及其导出的Q函数研究了线性混合模型在不同的随机效应协方差结构下的影响诊断问题;当模型误差服从指数族分布时,Xu等[3]基于数据删除模型对广义线性混合效应模型进行影响分析,基于似然函数关于随机效应的条件期望构造了Q函数,进而建立了广义Cook距离和似然距离等;Pinho等[4]考虑了广义线性混合模型不同参数的影响分析问题,并且基于固定效应和随机效应估计的联合影响构建了广义Cook距离。此外,孙慧慧等[5]与Tang等[6]还分别研究了线性混合模型和部分线性混合模型的局部影响分析问题。然而,在很多情况下纵向数据模型的误差可能服从非正态分布或者非对称分布,此时一般的估计精度很容易受到影响[4]。分位数回归估计作为一种稳健的估计方法,不仅可以克服上述问题,并且能够获得数据的总体分布信息,尤其是当回归误差项服从重尾分布或其分布受到污染时,分位数回归估计具有更高的稳健性。
Koenker[7]最早对混合效应模型的分位数估计方法进行了研究,他利用加权分位数和对随机效应进行L1惩罚的方式,给出了模型的损失函数,获得了模型系数和随机效应的分位数估计。Geraci等[8]利用Monte Carlo expectation maximization(MCEM)算法消除了随机效应的影响,并求解了线性混合模型系数的分位数估计。尽管分位数回归估计具有稳健性,但是Narula等[9]的研究表明,在分位数τ较大或者较小的情况下,估计结果也会受到极端异常点的影响,此外他们的数值模拟结果和实际数据分析也说明了针对最小绝对偏差(least absolute deviation,LAD)回归进行影响分析等的统计诊断技术对异常数据的检测是非常重要的。尽管目前已经有很多关于影响分析的研究,但由于计算及统计推断的复杂性,针对线性混合效应模型分位数估计的影响分析的文献还很少见到,因此基于线性混合效应模型分位数估计对强影响点的诊断度量和异常值的检测进行研究是十分必要的。
本文利用线性混合效应模型的分位数估计处理服从非对称、非正态,尤其是重尾或轻尾分布的纵向数据模型的影响分析问题。为了检验强影响点并减少计算量,通过对分位数回归的光滑逼近得到了数据删除模型参数的一步近似估计,并构造了检验强影响点的损失函数距离和Cook距离。在识别异常值时,首先证明了数据删除模型和均值漂移模型参数估计的等价性,然后基于参数等价性给出计算Wald统计量的方法,并利用Bootstrap方法得到异常值检验的拒绝域。
1 实验数据描述及线性混合模型 1.1 数据描述为了对氨基羟基脲(HSC)水溶液及硝酸水溶液在γ射线作用下的辐解产物进定量分析,考察不同辐解剂量、HSC初始浓度以及硝酸浓度条件下主要辐解产物的生成量,分别配制浓度为0.1、0.2、0.4、0.6、0.8、1.0 mol/L的HSC溶液和浓度为0.2、0.4、0.6、0.8、1.0、1.5 mol/L的硝酸溶液,两两组合得到36种不同浓度配比的溶液,委托中国原子能科学研究院辐照中心,采用实验型钴源装置(60Co源装置),分别置于辐解剂量为1×103、2×103、4×103、6×103、8×103、10×103 Gy的条件下,进行三因素下的无重复实验,总共得到216个样品。
为了考察不同条件下辐解剂量(103 Gy)、HSC初始浓度(mol/L)以及硝酸浓度(mol/L)对铵根离子浓度(mmol/L)变化情况的影响,首先对数据进行初步的相关分析和散点图对比,结果表明辐解剂量与铵根离子浓度大体呈线性关系,而单独的HSC初始浓度和硝酸浓度对铵根离子浓度的影响则无明显的趋势变化规律。因此,本文将辐解剂量作为重要的解释变量,而将硝酸浓度和HSC浓度的联合影响作为铵根离子浓度的随机影响因素,建立线性混合效应模型,分别考察两个因素的影响大小。
1.2 线性混合模型及其分位数估计设yij为第i组实验第j次观测记录的铵根离子浓度,i=1, 2,…, n代表HSC初始浓度和硝酸浓度的不同取值的组合,j=1, 2,…, ni代表在这些不同取值组合下的观测数,总样本数
$ y_{i j}=\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}+b_{i}+{\varepsilon}_{i j} $ | (1) |
式中,xij=(xij1, xij2, …, xijp)T是p×1维的与固定效应相关的重要回归变量,β是p×1维的固定效应向量,bi~N(0, σb2I)是不可观测的随机效应,εij~N(0, σε2I)是相互独立的均值为零的随机误差,σb2I和σε2I分别是协方差,并且εij与bi相互独立。混合效应模型假定模型扰动项由两部分组成,一部分随观测时间同时也随个体而变化,另一部分只随个体而不随观测时间变化。引入随机效应可以使个体观测数据之间具有一定的相关性。由于随机效应bi是彼此相互独立的,因此当将随机效应和模型误差合在一起看作是模型的扰动时,二者共同刻画了纵向数据的组间独立性和组内相关性。
由于很多化学实验数据通常服从非对称、非正态的概率分布,为了克服误差分布的影响,采用稳健的分位数估计方法。根据Koenker[7]的定义,在τ分位数下的线性混合模型具有如下形式
$ \begin{array}{l} \ \ \ \ \ \ \ \ Q_{y_{i j}}\left(\tau \mid \boldsymbol{x}_{i j}\right)=\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}(\boldsymbol{\tau})+b_{i}, i=1,2, \cdots, n, j=1,2, \\ \cdots, n_{i} \end{array} $ | (2) |
式中,Qyij(·)=F-1yij(·)是yij的条件累积分布函数的逆,分位数τ∈(0,1),β(τ)是τ分位数下模型的固定效应,bi是不依赖分位数τ的随机效应。
为了解决估计随机效应时可能会面临的维数较高的问题,Koenker[7]提出一种基于随机效应的L1惩罚方法,通过加权多个分位数下的信息来获取参数与随机效应的联合估计,其损失函数定义如下
$ \begin{array}{l} \ \ \ \ \ \ \ \ L(\boldsymbol{\beta}, \boldsymbol{b})=\sum\limits_{k=1}^{q} \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n_{i}} w_{h} \rho_{\tau_{k}}\left(y_{i j}-b_{i}-\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}\left(\tau_{k}\right)\right)+ \\ \lambda \sum\limits_{i=1}^{n}\left|b_{i}\right| \end{array} $ | (3) |
式中,ρτ(r)=rτI(r>0)+r(τ-1)I(r < 0),q是分位数个数,wk是第k个分位数的权重,λ是惩罚因子。Koenker[7]建议将惩罚因子λ设置为λ=σε/σb,其中σε和σb可通过计算软件进行求解,具体选取过程详见第3节。
由文献[7]可知,由于随机效应服从零均值的正态分布,为了保证固定效应的估计量具有较好的统计性质,要求固定效应中必须包含截距项。通过极小化损失函数(式(3))获得的参数估计记为
实际数据中常常会存在一些异常数据,通常将对回归估计影响过大的数据点称为强影响点,而将偏离回归直线较远的点称为异常值点。有时强影响点也很有可能同时是异常值点。影响分析正是为了识别出这些数据点而发展起来的一个统计分支,影响分析中常用的诊断模型包括数据删除模型(case deletion model,CDM)和均值漂移模型(mean shift outlier model,MSOM)。
2.1 数据删除模型的影响分析 2.1.1 数据删除模型数据删除模型主要通过依次删除每个数据点来求解参数,之后再对比各个参数估计,若数据中存在较强的影响点,那么当删除该点时,模型的参数估计相对于原估计就会有较大的变化。
假定删去第(i1, j1)个观测值时得到的模型为
$ \begin{array}{l} \ \ \ \ \ \ \ \ y_{i j}=\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}+b_{i}+\varepsilon_{i j}, i=1,2 \cdots n, j=1,2, \cdots, n_{i}, ( i ,\\ j) \neq\left(i_{1}, j_{1}\right) \end{array} $ | (4) |
则模型(4)的参数估计记为
模型(4)相较原模型(1)只是减少了1个数据,所以参数估计的方法及计算复杂度与原模型基本相同,但是当数据量很大时,由于需要逐一检验每个数据点,将会产生很大的计算负担。针对线性模型,Cook等[10]提出了利用似然函数的Taylor展开式构造参数近似估计的思想。
为了能够对不可导的损失函数(3)进行光滑逼近,以建立数据删除模型参数的一步近似估计,本文结合一般分位数参数估计的minorize-maximization(MM)算法[11]和绝对值函数的光滑方法[12],构造如下目标函数
$ \begin{array}{l} \ \ \ \ \ \ \ \ M(\boldsymbol{r}, \boldsymbol{b} \mid \hat{\boldsymbol{r}})=\sum\limits_{k=1}^{q} \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n_{i}} w_{k} \frac{1}{4}\left(\frac{r_{k i j}^{2}}{\delta+\left|\hat{r}_{k i j}\right|}+\left(4 \tau_{k}-\right.\right. \\ \left.2) r_{k i j}+C_{k}\right)+\lambda \sum\limits_{i=1}^{n} \mu \ln \left(\mathrm{e}^{\frac{b_{i}}{\mu}}+\mathrm{e}^{\frac{-b_{i}}{\mu}}\right) \end{array} $ | (5) |
式中,rkij=yij-xijTβ(τk)-bi,δ>0、μ>0是接近零的正常数,Ck是常数。对数据删除模型目标函数在
$ \begin{array}{l} \ \ \ \ \ \ \ \ M_{\left[i_{1} j_{1}\right]}\left(\boldsymbol{\eta}_{\left[i_{1}j_{1}\right]} \mid \hat{\boldsymbol{r}}_{\left[i_{1}j_{1}\right]}\right)=M_{\left[i_{1} j_{1}\right]}\left(\hat{\boldsymbol{\eta}} \mid \hat{\boldsymbol{r}}_{\left[i_{1} j_{1}\right]}\right)+ \\ \left(\boldsymbol{\eta}_{\left[i_{1}j_{1}\right]}-\hat{\boldsymbol{\eta}}\right)^{\mathrm{T}} M_{\left[i_{1} j_{1}\right]}^{\prime}\left(\hat{\boldsymbol{\eta}} \mid \hat{\boldsymbol{r}}_{\left[i_{1} j_{1}\right]}\right)+\left(\boldsymbol{\eta}_{\left[i_{1} j_{1}\right]}-\hat{\boldsymbol{\eta}}\right)^{\mathrm{T}} \\ \frac{M_{\left[i_{1} j_{1}\right]}^{\prime \prime}\left(\hat{\boldsymbol{\eta}} \mid \hat{\boldsymbol{r}}_{\left[i_{1} j_{1}\right]}\right)}{2}\left(\boldsymbol{\eta}_{\left[i_{1} j_{1}\right]}-\hat{\boldsymbol{\eta}}\right)+o(1) \end{array} $ | (6) |
对式(6)两端关于
$ \begin{array}{l} \ \ \ \ \ \ \ \ \hat{\boldsymbol{\eta}}_{\left[i_{1} j_{1}\right]} \approx \hat{\boldsymbol{\eta}}-\left[M_{\left[i_{1} j_{1}\right]}^{\prime \prime}\left(\hat{\boldsymbol{\eta}} \mid \hat{r}_{\left[i_{1} j_{1}\right]}\right)\right]^{-1} M_{\left[i_{1}{1}_{1}\right]}^{\prime}(\hat{\boldsymbol{\eta}} \mid \\ \left.\hat{r}_{\left[i_{1} j_{1}\right]}\right) \end{array} $ | (7) |
通常情况下,参数估计都是多维向量,不便于直接比较,所以需要通过构建诊断度量来衡量参数变化的大小。在普通的回归模型中,常用的诊断度量有似然距离和Cook距离等,本文将似然距离推广到基于损失函数的距离。
1) 根据损失函数(3),构建基于损失函数的距离
$ L_{\mathrm{D}}=2\left[L(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{b}})-L_{\left[i_{1} j_{1}\right]}\left(\hat{\boldsymbol{\beta}}_{\left[i_{1}j_{1}\right]}, \hat{\boldsymbol{b}}_{\left[i_{1} j_{1}\right]}\right)\right] $ | (8) |
式中,L[i1j1]
2) Cook距离定义为[10]
$ L_{\mathrm{CD}}=\left(\hat{\boldsymbol{\eta}}_{\left[i_{1}j_{1}\right]}-\hat{\boldsymbol{\eta}}\right)^{\mathrm{T}}[\operatorname{Var}(\hat{\boldsymbol{\eta}})]^{-1}\left(\hat{\boldsymbol{\eta}}_{\left[i_{1}{j}_{1}\right]}-\hat{\boldsymbol{\eta}}\right) / p $ | (9) |
式中p为参数η的维数。由于没有对模型(2)的误差项作任何的分布假定,所以在中小样本的情况下很难求得Cook距离中的Var(
1) 利用容量为N的原始样本求解分位数参数估计
2) 从残差集合{
3)利用
4) 利用Bootstrap样本(x, y*)ij求解多个分位数下的参数估计
5) 重复步骤2)至步骤4)共M次,记τk分位数下的参数估计
6) 计算τk分位数下参数的样本协方差阵
$ \operatorname{Var}\left(\hat{\boldsymbol{\eta}}_{\tau_{k}}\right) \approx \frac{\sum\limits_{m=1}^{M}\left(\hat{\boldsymbol{\eta}}_{\tau_{k^{m}}}^{*}-\overline{\boldsymbol{\eta}}_{\tau_{k}}\right)\left(\hat{\boldsymbol{\eta}}_{\tau_{k^{m}}}^{*}-\overline{\boldsymbol{\eta}}_{\tau_{k}}\right)^{\mathrm{T}}}{M-1} $ |
式中,
对(i1, j1)个观测值添加漂移项
$ \left\{\begin{array}{l} y_{i j}=\boldsymbol{x}_{ij}^{\mathrm{T}} \boldsymbol{\beta}+b_{i}+\varepsilon_{i j}, \text { 且 }(i, j) \neq\left(i_{1}, j_{1}\right) \\ y_{i_{1} j_{1}}=\boldsymbol{x}_{i_{1}j_{1}}^{\mathrm{T}} \boldsymbol{\beta}+b_{i_{1}}+\gamma_{i_{1}j_{1}}+\varepsilon_{i_{1}j_{1}}, \text { 当 }(i, j)=\left(i_{1}, j_{1}\right) \text { 时 } \end{array}\right. $ | (10) |
式中γi1j1是一个漂移项。记模型(10)的参数估计为
$ \begin{array}{l} \ \ \ \ \ \ L_{\left\{i_{1} j_{1}\right\}}=\sum\limits_{k=1}^{q} \sum\limits_{i \neq i_{1}}^{n} \sum\limits_{j=1}^{n_{i}} w_{k} \rho_{\tau_{k}}\left(y_{i j}-b_{i}-\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}\left({\tau}_{k}\right)\right)+ \\ \sum\limits_{k=1}^{q} \sum\limits_{i=i_{1}} \sum\limits_{j \neq j_{1}}^{n_{i}} w_{k} \rho_{\tau_{k}}\left(y_{i_{1} j}-b_{i_{1}}-\boldsymbol{x}_{i_{1}j}^{\mathrm{T}} \boldsymbol{\beta}\left(\boldsymbol{\tau}_{k}\right)\right)+\lambda \sum\limits_{i=1}^{n}\left|b_{i}\right|+ \\ \sum\limits_{k=1}^{q} w_{h} \boldsymbol{\rho}_{\tau_{k}}\left(y_{i_{1} j_{1}}-b_{i_{1}}-\boldsymbol{x}_{i_{1} j_{1}}^{\mathrm{T}} \boldsymbol{\beta}\left({\tau}_{k}\right)-\gamma_{i_{1} j_{1} k}\right) \end{array} $ | (11) |
式中γi1j1k是分位数τk下的漂移项。均值漂移模型主要用来对每个数据点下的漂移项逐一进行假设检验:H0k ∶γi1j1k=0或H1k ∶γi1j1k≠0,其中k=1, 2,…, q。若拒绝H0k,则说明在τk分位点下该数据点为异常值点。
2.2.2 γi1j1k的估计及数据删除模型和均值漂移模型系数估计的等价性在分位数τk下,对式(11)关于γi1j1k进行极小化,可得
$ \rho_{\tau_{k}}\left(y_{i_{1} j_{1}}-\boldsymbol{x}_{i_{1} j_{1}}^{\mathrm{T}} \hat{\boldsymbol{\beta}}_{\left\{i_{1} j_{1}\right\}}\left(\tau_{k}\right)-\hat{b}_{\left\{i_{1} j_{1}\right\} i_{1} j_{1}}-\hat{\gamma}_{i_{1} j_{1} k}\right)=0 $ | (12) |
其中
$ \hat{\gamma}_{i_{1} j_{1} k}=y_{i_{1} j_{1}}-\boldsymbol{x}_{i_{1} j_{1}}^{\mathrm{T}} \hat{\boldsymbol{\beta}}_{\left\{i_{1} j_{1}\right\}}\left(\tau_{k}\right)-\hat{b}_{\left\{i_{1} j_{1}\right\} i_{1} j_{1}} $ | (13) |
根据式(3)和式(11)可以看出数据删除模型和均值漂移模型的系数β的估计是等价的,由此可得
$ \hat{\gamma}_{i_{1} j_{1} k}=y_{i_{1} j_{1}}-\boldsymbol{x}_{i_{1} j_{1}}^{\mathrm{T}} \hat{\boldsymbol{\beta}}_{\left[i_{1} j_{1}\right]}\left(\tau_{k}\right)-\hat{b}_{\left[i_{1} j_{1}\right] i_{1} j_{1}} $ | (14) |
式中,
为了得到统计量的抽样分布,韦博成等[13]在小样本中针对线性回归模型的异常值检验问题,采用方差分析的方法构造出检验统计量;曾林蕊等[14]在误差的正态分布假设下,针对大样本的半参数广义线性模型,利用惩罚对数似然函数构建了Score检验统计量,给出了上述问题的拒绝域。本文在中小样本和非正态或非对称的模型误差假定下,构造了原假设H0k下的Wald统计量
$ W=\left.\frac{\gamma \cdot \gamma}{\operatorname{Var}(\gamma)}\right|_{\gamma=\hat{\gamma}_{i_{1}j_{1} k}} $ | (15) |
式中,Var(γ)是漂移项的方差。统计量(15)在大样本下近似服从卡方分布,但是在中小样本下其分布难以确定。因此,本文采取Bootstrap法来构造上述统计量的拒绝域,过程可以分为两步:首先对统计量中的Var(
1) 计算Var(
2)利用初始样本(x, y)求得
3) 对初始样本在τ=0.5分位数下的误差项{εij}进行M次有放回地抽样,生成Bootstrap误差项{εij*},利用
4) 将分位数τk下的M个统计量从小到大重新排序,设定检验水平α,则T*τkm上的α分位点为第[M(1-α)]+1个,记为T*τkα,其中[A]表示对实数A向下取整。由此可以构造H0k下的拒绝域为{T0>T*τkα}。
3 数值模拟在模拟中yij代表第i个个体的第j个观测值,根据如下模型生成数据。
$ y_{i j}=\boldsymbol{x}_{i j}^{\mathrm{T}} \boldsymbol{\beta}+b_{i}+\boldsymbol{\varepsilon}_{i j} $ | (16) |
假设
图 1是0.5分位数下模型的系数估计随惩罚因子λ的变化曲线,在λ大于7时系数不再发生变化,说明此时惩罚因子过大,导致随机效应不再起作用。针对线性混合模型(16),利用R语言lme4包对其随机效应方差和误差方差进行估计,然后根据Koenker[7]建议的方法,并结合图 1,在模拟中经过多次实验,最终选取λ=2。
为了验证本文提出的数据删除模型参数的一步近似估计的准确性,表 1给出了不同分位数下参数近似估计和直接计算的参数估计的对比情况,其中实验1~5分别为删去不同数据点所做的5次验证,评价指标设定为参数估计的相对偏差:bias(η)=
首先对单个数据中是否是强影响点或异常值点进行验证,实验可以分为两部分:针对单个数据是否为强影响点的诊断,和是否为异常值点的诊断。针对由模型(16)所生成的模拟数据,对第30个点和第50个点增加扰动,分别为y30=y30+6和y50=y50-6,然后采用本文提出的基于损失函数的距离和Cook距离来检测强影响点。强影响点检验结果如图 2所示。图 2(a)从上到下分别为分位数等于0.1、0.3、0.5、0.7、0.9时的损失函数距离。可以看出损失函数距离可以很好地检验出第30个和第50个点为强影响点,并且在不同分位数下不同位置的强影响点的表现不同:低分位数利于检验位于数据下方的强影响点,高分位数则对位于数据上方的强影响点敏感。图 2(b)是Cook距离的诊断结果,尽管结果的波动幅度与图 2(a)不同,但是结论相同,可以相互验证,避免出现方法不准确的问题。
基于相同的模拟数据,对其进行异常值点检验,结果展示在图 3中。图 3中虚线上方是Wald统计量的拒绝域,可以明显看出,图 3(a)中第30个和第50个点位于拒绝域,图 3(b)中第50个点是异常值点,同时结合图 2结果可知,异常值点与强影响点的检验结果相同,但是对比图 3(a)和(b)可以看出,低分位数下的结果对位于数据上方的异常值点更敏感。
对属于同一个体的一组数据是否为强影响点或异常值点的情形进行检验,类似于3.1节实验,分为针对强影响点的诊断和针对异常值点的诊断。对初始模拟数据的第3组数据和第14组数据进行扰动:y3·=y3·+6和y14·=y14·-6。篇幅所限,图 4仅展示一组强影响点的损失函数距离的检验结果。从图 4可以看出第3组和第14组数据的损失函数距离明显大于其他组,因此为强影响点,说明即使是在同一个体的一组数据都是强影响点的情况下,本文所提方法也具有良好的检验能力。
实验数据共包含216个观测值,其中辐解剂量有1、2、4、6、8、10(103 Gy)共6个水平,硝酸浓度也有0.2、0.4、0.6、0.8、1.0、1.5 mol/L共6个水平,HSC浓度为0.1、0.2、0.4、0.6、0.8、1.0 mol/L共6个水平。根据1.1节数据描述的结果,以辐解剂量作为解释变量Xij,硝酸浓度和HSC浓度的联合影响作为随机效应μi,共有36个取值。响应变量cij表示为不同实验条件下生成的铵根离子浓度(mmol/L)。为了对响应变量进行影响因素分析,可建立如下线性混合效应模型
$ c_{i j}=\beta_{0}+\beta_{1} \boldsymbol{X}_{i j}+\mu_{i}+\varepsilon_{i j} $ | (17) |
式中,i=1, …, 36,j=1, …, 6。基于模型(17)在0.5分位数下的参数估计作误差散点图,如图 5所示,可以看出误差在零点上下波动,但是在上侧波动小而密集,在下侧波动大而疏松,可以明显得出数据总体上既不是对称分布,也不是正态分布,因此选择采用本文方法对其进行影响分析。
由于在低分位数下检验结果不存在明显的强影响点,所以图 6仅展示了τ=0.9时的检验结果。从图 6可以看出,在0.9的分位数下,第125个数据点和第35组数据相较于其他数据明显突出,结合图 5可知二者均是位于数据上方的强影响点。
本文针对服从非对称、非正态,尤其是重尾或轻尾分布的纵向数据的影响分析问题,在中等样本下利用线性混合模型的分位数估计,分别构建检测强影响点的基于损失函数的距离和Cook距离,以及识别异常值点的Wald统计量。此外,为了减少计算量,给出数据删除模型参数的一步近似估计,并且利用Bootstrap方法求得统计量的拒绝域。模拟结果表明,本文所提的诊断度量和诊断统计量都可以很好地检验出数据中的强影响点和异常值点,实证分析结果也进一步证明了本文方法的实用性。
[1] |
DIGGLE P J, HEAGERTY P, LIANG K Y, et al. Analysis of longitudinal data[M]. 2nd ed. Oxford: Oxford University Press, 2002.
|
[2] |
PAN J X, FEI Y, FOSTER P J. Case-deletion diagnostics for linear mixed models[J]. Technometrics, 2014, 56(3): 269-281. DOI:10.1080/00401706.2013.810173 |
[3] |
XU L, LEE S Y, POON W Y. Deletion measures for generalized linear mixed effects models[J]. Computational Statistics & Data Analysis, 2006, 51: 1131-1146. |
[4] |
PINHO L G B, NOBRE J S, SINGER J M. Cook's distance for generalized linear mixed models[J]. Computational Statistics & Data Analysis, 2015, 82: 126-136. |
[5] |
孙慧慧, 林金官. 基于M估计的线性混合模型的局部影响分析[J]. 应用概率统计, 2012, 28(2): 217-219, 221-223. SUN H H, LIN J G. Local influence analysis of mixed effect linear models based on M-estimation[J]. Chinese Journal of Applied Probability, 2012, 28(2): 217-219, 221-223. (in Chinese) DOI:10.3969/j.issn.1001-4268.2012.02.011 |
[6] |
TANG N S, DUAN X D. Bayesian influence analysis of generalized partial linear mixed models for longitudinal data[J]. Journal of Multivariate Analysis, 2014, 126: 86-99. DOI:10.1016/j.jmva.2013.12.005 |
[7] |
KOENKER R. Quantile regression[M]. Cambridge: Cambridge University Press, 2005.
|
[8] |
GERACI M, BOTTAI M. Quantile regression for longitudinal data using the asymmetric Laplace distribution[J]. Biostatistics, 2007, 8(1): 140-154. DOI:10.1093/biostatistics/kxj039 |
[9] |
NARULA S C, WELLINGTON J F. Sensitivity analysis for predictor variables in the MSAE regression[J]. Computational Statistics & Data Analysis, 2002, 40: 355-373. |
[10] |
COOK R D, WEISBERG S. Residuals and influence in regression[M]//COX D R, HINKLEY D V. Monographs on statistics and applied probability. New York: Chapman and Hall, 1982.
|
[11] |
HUNTER D R, LANGE K. Quantile regression via an MM algorithm[J]. Journal of Computational and Graphical Statistics, 2000, 9(1): 60-77. |
[12] |
雍龙泉. 绝对值函数的一致光滑逼近函数[J]. 数学的实践与认识, 2015, 45(20): 250-255. YONG L Q. Uniform smooth approximating functions for absolute value function[J]. Mathematics in Practice and Theory, 2015, 45(20): 250-255. (in Chinese) |
[13] |
韦博成, 鲁国斌, 史建清. 统计诊断引论[M]. 南京: 东南大学出版社, 1991. WEI B C, LU G B, SHI J Q. Introduction to statistical diagnosis[M]. Nanjing: Southeast University Press, 1991. (in Chinese) |
[14] |
曾林蕊, 朱仲义, 茆诗松. 半参数广义线性模型的影响分析与异常点检验[J]. 高校应用数学学报A辑, 2004, 19(3): 323-332. ZENG L R, ZHU Z Y, MAO S S. Influence analysis and outlier tests for semiparametric generalized linear model[J]. Applied Mathematics—A Journal of Chinese Universities, Series A, 2004, 19(3): 323-332. (in Chinese) DOI:10.3969/j.issn.1000-4424.2004.03.011 |
[15] |
魏艳华, 王丙参, 邢永忠. 基于Bootstrap方法的回归分析的比较[J]. 统计与决策, 2016(3): 77-79. WEI Y H, WANG B C, XING Y Z. Comparison of regression analysis based on Bootstrap method[J]. Statistics & Decision, 2016(3): 77-79. (in Chinese) |