• 微信公众号:美女很有趣。 工作之余,放松一下,关注即送10G+美女照片!

【抽样调查】等概率整群抽样

开发技术 开发技术 2周前 (04-29) 6次浏览

第3部分:等概率整群抽样

目录
  • 第3部分:等概率整群抽样
    • 概述与符号说明
    • 群规模相等时的估计
      • 均值估计
      • 总值估计
      • 效率分析
    • 群规模不等时的估计
      • 估计方法
      • 无偏估计
      • 比率估计

概述与符号说明

整群抽样:将总体划分为若干群(cluster),然后以群为抽样单元,从总体中随机抽取一部分群,对入选群内的所有单元进行调查的一种抽样方式。

  • 实际应用上的优点:抽样框编制得以简化,实施调查便利、节省费用。
  • 主要不足:通常情况下抽样误差较大,常常大于简单随机抽样。
  • 如果各个群的结构相似,则整群抽样的估计精度会高于简单随机抽样。

以下记总体群(PSU)数为(N),第(i)个群中的单元(SSU)数为(M_i),SSU总数记作(M_0=displaystyle{sum_{i=1}^{N}M_i})。如果各群规模相等,则记

[M_1=M_2=cdots=M_Nxlongequal{del} M.
]

对第(i)个拥有(M_i)个SSU的群,第(j)个SSU的取值为(Y_{ij}),该群的总值记作(Y_i),群均值记作(bar {Y_i}=dfrac{Y_i}{M_i}),群内方差为(S_i^2=displaystyle{frac{1}{M_i-1}sum_{j=1}^{M_j}(Y_{ij}-bar{Y_i})^2})。总体总值、总体均值(注意双横线)与总体方差为

[Y=sum_{i=1}^{N}Y_i=sum_{i=1}^{N}sum_{j=1}^{M_i}Y_{ij},\
bar{bar Y} =frac{Y}{M_0}=sum_{i=1}^{N}sum_{j=1}^{M_i}frac{Y_{ij}}{M_0},\
S^2=frac{1}{M_0-1}sum_{i=1}^{N}sum_{j=1}^{M_i}(Y_{ij}-bar{bar Y})^2.
]

对不同的群,记群总值的均值为(bar Y=dfrac{Y}{N}=displaystyle{sum_{i=1}^{N}frac{Y_i}{N}}),总体群间方差、群内方差记作

[S_b^2=frac{1}{N-1}sum_{i=1}^{N}M_i(bar Y_{i}-bar{bar Y})^2=frac{1}{N-1}sum_{i=1}^{N}sum_{j=1}^{M_i}(bar Y_i-bar{bar Y})^2,\
S_w^2=frac{1}{N(M-1)}sum_{i=1}^{N}sum_{j=1}^{M_j}(Y_{ij}-bar{Y}_i)^2.
]

对于等概率整群抽样,在(N)个PSD组成的总体中第(i)个PSU包含(M_i)个SSU,此时被选中的群中所有SSU全部入样,所以(m_i=M_i)

定义抽样比为在全部整群中,抽取的种群数量所占的比例,即(f=dfrac{n}{N})

群规模相等时的估计

均值估计

此时每一个单元所包含的单元数(M)相等,即(M_i=m_i=M)。这时总体均值与总体总值就将群均值和群总值作为观测值,抽样比(f=dfrac{n}{N})(n)为抽取的群数,应用简单随机抽样的性质即可。

对总体均值(bar{bar Y})的估计为

[bar{bar y}=sum_{i=1}^{n}sum_{j=1}^{M}frac{y_{ij}}{nM}=frac{1}{n}sum_{i=1}^{n}bar y_{i}.
]

定理:

  1. (mathbb{E}(bar{bar y})=bar {bar Y}),即(bar{bar y})(bar {bar{Y}})的无偏估计。

  2. (bar{bar y})的方差为

    [mathbb{D}(bar {bar y})=frac{1-f}{n}frac{1}{N-1}sum_{i=1}^{N}(bar Y_i-bar{bar Y})^2=frac{1-f}{nM}S_b^2.
    ]

先证明在群规模相等时,群均值的均值即总体均值。此时(M_0=NM),所以

[frac{1}{N}sum_{i=1}^{N}bar Y_i=frac{1}{N}sum_{i=1}^{N}frac{1}{M}sum_{j=1}^{M}Y_{ij}=frac{1}{M_0}sum_{i=1}^{N}sum_{j=1}^{M}Y_{ij}.
]

此时,我们将每一个群作为样本,其观测值分别是(bar Y_i),根据简单随机抽样样本均值无偏,有

[mathbb{E}(bar{bar y})=mathbb{E}left(frac{1}{n}sum_{i=1}^{n}bar y_i right)=frac{1}{N}sum_{i=1}^{N}bar{Y_i}=bar{bar Y}.
]

另外,根据简单随机抽样的方差性质,容易得到

[mathbb{D}(bar{bar y})=frac{1-f}{n}left[frac{1}{N-1}sum_{i=1}^{N}(bar Y_i-bar{bar Y})^2 right],
]

中括号内的部分,就是将(bar Y_i)视为观测值时的总体方差。后一个等号为

[begin{aligned}
mathbb{D}(bar{bar y})&=frac{1-f}{n}left[frac{1}{N-1}sum_{i=1}^{N}(bar Y_i-bar{bar Y})^2 right]\
&=frac{1-f}{nM}frac{1}{N-1}sum_{i=1}^{N}M(bar Y_i-bar{bar Y})^2\
&=frac{1-f}{nM}S_b^2.
end{aligned}
]

定理:对(mathbb{D}(bar{bar y}))的估计为

[v(bar {bar y})=frac{1-f}{nM}s_b^2.
]

它是无偏的。

即证(s_b^2)(S_b^2)的无偏估计,这里

[s_b^2=frac{1}{n-1}sum_{i=1}^{n}m_i(bar y_i-bar{bar y})^2=frac{1}{n-1}sum_{i=1}^{n}M(bar{y_i}-{bar{bar y}})^2.
]

注意到此时(dfrac{s_b^2}{M})正是将(bar Y_i)作为样本时的样本方差,所以它是总体方差(displaystyle{frac{1}{N-1}sum_{i=1}^{N}(bar Y_i-{bar {bar Y}})^2})的无偏估计,而总体方差即(dfrac{S_b^2}{M}),所以(mathbb{E}(s_b^2)=S_b^2)

有了(v(bar{bar y}))后,就可以用以代替(mathbb{D}(bar{bar y}))构造(bar{bar Y})的置信区间。

总值估计

总体总值为(Y=NM{bar {bar Y}}),从而其估计为(hat Y=Ncdot dfrac{1}{n}displaystylesum_{i=1}^{n}y_i=NMbar{bar y})

推论:

  1. (hat Y)(Y)的无偏估计。

  2. (hat Y)的方差为

    [mathbb{D}(hat Y)=mathbb{D}(NMbar{bar y})=N^2M^2mathbb{D}(bar{bar y})=N^2Mleft(frac{1-f}{n} right)S_b^2.
    ]

  3. (mathbb{D}(hat Y))的无偏估计为

    [v(hat Y)=N^2Mleft(frac{1-f}{n} right)s_b^2.
    ]

效率分析

ANOVA表:

[begin{array}{c|c|c|c}
hline
& mathrm{df} & mathrm{SS} & mathrm{MS} \
hline
text{between} & N-1 & mathrm{SSB}=displaystyle{sum_{i=1}^{N}sum_{j=1}^{M}(bar Y_{i}-bar{bar Y})^2} & S_b^2=dfrac{mathrm{SSB}}{N-1} \
hline
text{within} & N(M-1) & mathrm{SSW}=displaystyle{sum_{i=1}^{N}sum_{j=1}^{M}(Y_{ij}-bar{Y}_i)^2} & S_w^2=dfrac{mathrm{SSW}}{N(M-1)} \
hline
text{total} & NM-1 & mathrm{SST}=displaystyle{sum_{i=1}^{N}sum_{j=1}^{M}(Y_{ij}^2-bar{bar Y})^2} & S^2=dfrac{mathrm{SST}}{NM-1} \
hline
end{array}
]

由于(mathbb{D}(bar{bar y})=dfrac{1-f}{nM}S_b^2),所以群间方差越大,即(dfrac{S_b^2}{S_w^2})越大,估计量的方差就越大,精度就越容易损失。

下计算设计效应,从总体中直接抽取一个样本容量为(nM)的简单随机样本,则

[mathbb{D}_{srs}(bar{bar y})=left(1-frac{nM}{NM} right)frac{S^2}{nM}=frac{1-f}{nM}S^2,
]

下用群内相关系数表示设计效应。记群内相关系数为

[rho_c=frac{mathrm{E}(Y_{ij}-bar{bar Y})(Y_{ik}-bar{bar Y})}{mathrm{E}(Y_{ij}-bar{bar Y})^2}, \
mathrm{E}(Y_{ij}-bar{bar Y})(Y_{ik}-bar{bar Y})=frac{1}{N}sum_{i=1}^{N}frac{2}{M(M-1)}sum_{j<k}^{M}(Y_{ij}-bar{bar Y})(Y_{ik}-bar{bar Y}),\
mathrm{E}(Y_{ij}-bar{bar Y})^2=frac{1}{N}sum_{i=1}^{N}frac{1}{M}sum_{j=1}^{M}(Y_{ij}-bar{bar Y})^2=frac{NM-1}{NM}S^2.
]

同时也有

[rho_c=frac{2sumlimits_{i=1}^{N}sumlimits_{j<k}^{M}(Y_{ij}-bar{bar Y})(Y_{ik}-bar{bar Y})}{(M-1)(NM-1)S^2}.\
]

于是

[begin{aligned}
mathbb{D}(bar{bar y})&=frac{1}{M^2}mathbb{D}(bar y) \
&=frac{1-f}{nM^2}frac{1}{N-1}sum_{i=1}^{N}(Y_i-bar{Y})^2\
&=frac{1-f}{n}frac{1}{M^2(N-1)}sum_{i=1}^{N}left[sum_{j=1}^{M}(Y_{ij}-bar{bar Y}) right]^2 \
&=frac{1-f}{n}frac{1}{M^2(N-1)}sum_{i=1}^{N}left[sum_{j=1}^{M}(Y_{ij}-bar{bar Y})^2+2sum_{j<k}^{M}(Y_{ij}-bar{bar Y})(Y_{ik}-bar{bar Y}) right]\
&=frac{1-f}{nM^2(N-1)}left[mathrm{SST}+rho_cS^2(M-1)(NM-1) right]\
&=frac{1-f}{nM^2(N-1)}cdot (NM-1)S^2[1+(M-1)rho_c]\
&approx frac{1-f}{nM}S^2[1+(M-1)rho_c]\
&=mathbb{D}_{srs}(bar{bar y})[1+(M-1)rho_c].
end{aligned}
]

所以

[mathrm{deff}= frac{mathbb{D}(bar{bar y})}{mathbb{D}_{srs}(bar{bar y})}approx 1+(M-1)rho_c.
]

要提高整群抽样估计的效率,就要通过分群尽可能降低(rho_c)的值。(rho_c)的最大值是(1),此时(S_w^2=0),即各组内样本完全相同;(rho_c)的最小值是(-dfrac{1}{M-1}),此时(S_b^2=0),即各群均值(bar{Y_i})都相等。

(rho_c)的估计:使用

[hat rho_c=frac{s_b^2-s_w^2}{s_b^2+(M-1)s_w^2},\
s_b^2=frac{1}{n-1}sum_{i=1}^{n}M(bar{y}_i-bar{bar y})^2,quad s_w^2=frac{1}{n(M-1)}sum_{i=1}^{n}sum_{j=1}^{M}(y_{ij}-bar{y}_i).
]

群规模不等时的估计

估计方法

如果各个群不等,则群均值的均值不是总体均值,即

[frac{1}{N}sum_{i=1}^{N}bar{Y_i}=frac{1}{N}sum_{i=1}^{N}frac{1}{M_i}sum_{j=1}^{M_i}Y_{ij}nefrac{1}{M_0}sum_{i=1}^{N}sum_{j=1}^{M_i}Y_{ij}= bar{bar Y},
]

从而直接使用(dfrac{1}{n}displaystylesum_{i=1}^{n}bar{y_i})估计(bar{bar Y})不是无偏的。此时一般不用群均值的均值来估计总体均值,有两种方法:无偏估计、比率估计。

无偏估计

等概率抽样无偏估计的基本思路是,用群规模(M_i)作为权数乘以各群均值(bar y_i),得到群观察值总值(y_i),再将样本中(n)各群的群总和平均,得到群总和均值(bar y),再除以群平均规模(bar M)得到均值估计。即

[bar M=frac{M_0}{N}=frac{sum_{i=1}^{N}M_i}{N},\
bar{bar y}=frac{1}{bar M}left(frac{1}{n}sum_{i=1}^{n}M_ibar y_i right)=frac{1}{nbar M}sum_{i=1}^{n}y_i=frac{bar y}{bar M}=frac{bar yN}{bar MN}=frac{hat Y}{M_0},\
hat Y=M_0bar{bar y}=Nbar y=frac{N}{n}sum_{i=1}^{n}y_i.
]

在实际应用中,(M_0)有时未知,所以一般先计算(bar{y}),从而由(hat Y=Nbar{y}),再利用(bar{bar y}=dfrac{hat Y}{bar MN})来估计总体均值。

定理:

  1. (mathbb{E}(hat Y)=Y)

  2. 无偏估计的方差为

    [mathbb{D}(hat Y)=frac{N^2(1-f)}{n}frac{1}{N-1}sum_{i=1}^{N}(Y_i-bar{Y})^2.
    ]

  3. 对无偏估计方差的估计为

    [v(hat Y)=frac{N^2(1-f)}{n}frac{1}{n-1}sum_{i=1}^{n}(y_i-bar{y})^2.
    ]

此时将每一个群的群总值(Y_i)视为简单随机抽样的抽样单元,则有

[mathbb{E}(bar{y})=mathbb{E}left(frac{1}{n}sum_{i=1}^{n}y_i right)=frac{1}{N}sum_{i=1}^{N}Y_i=bar{Y}.
]

结合(hat Y=Nbar y),则显然(mathbb{E}(hat Y)=Nbar Y=displaystylesum_{i=1}^{N}Y_i=Y)。另外,

[mathbb{D}(bar y)=frac{1-f}{n}frac{1}{N-1}sum_{i=1}^{N}(Y_i-bar Y)^2,\
v(bar y)=frac{1-f}{n}frac{1}{n-1}sum_{i=1}^{n}(y_i-bar y)^2.
]

从而自然得到后面的两条。

推论:对于总体均值的无偏估计,有

[mathbb{D}(bar{bar {y}})=frac{1}{M_0^2}mathbb{D}(hat Y)=frac{N^2(1-f)}{M_0^2n}frac{1}{N-1}sum_{i=1}^{N}(Y_i-bar {Y})^2,\
v(bar{bar y})=frac{N^2(1-f)}{M_0^2n}frac{1}{n-1}sum_{i=1}^{n}(y_i-bar{y})^2.
]

其缺点是:如果群规模(M_i)差别很大,通常会造成(Y_i)差异很大,导致(bar{bar y})(hat Y)的方差增大。

比率估计

等概率抽样比率估计的思想是,将(M_i)作为(y_i)的辅助变量,同时将(y_i)作为简单随机抽样的抽样单元,从而获得总体均值的比率估计量为

[bar{bar y}_{R}=frac{sumlimits_{i=1}^{n} y_i}{sumlimits_{i=1}^{n}M_i}.
]

总体总值的比率估计量为

[hat Y_{R}=M_0bar{bar y}_{R}=M_0cdot frac{sumlimits_{i=1}^{n}y_i}{sumlimits_{i=1}^{n}M_i}.
]

由比率估计量的性质,它们都是有偏估计,且

[mathbb{D}(bar{bar y}_{R})approx frac{1-f}{nbar M^2}frac{1}{N-1}sum_{i=1}^{N}(Y_i-bar{bar {Y}}M_i)^2=frac{1-f}{nbar M^2}frac{1}{N-1}sum_{i=1}^{N}M_i^2(bar {Y}_i-bar{bar Y})^2,\
v(bar{bar y}_{R})=frac{1-f}{nbar M^2}frac{1}{n-1}left(sum_{i=1}^{n}y_i^2+bar{bar y}^2sum_{i=1}^{n}M_i^2-2bar{bar y}sum_{i=1}^{n}M_iy_i right).
]

如果(bar M)未知,可以用(bar m=dfrac{sumlimits_{i=1}^{n}M_i}{n})代替。


程序员灯塔
转载请注明原文链接:【抽样调查】等概率整群抽样
喜欢 (0)