(1)图中各个值的意思: Min、Max分别表示样本的最大值和最小值,M表示样本中位数(又称第二四分位点,对应0.5分位数x),Q1表示第一个四分位点(即0.25分位数,x),Q3表示第三四分位点(对应0.75分位数x)。
样本是进行统计推断的依据。在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的适当函数,利用这些样本的函数进行统计推断。
定义:设X1,X2,...,Xn是来自总体X的一个样本,g(X1,X2,...,Xn) 是 X1,X2,...,Xn的函数,g中不含未知参数,则称 g(X1,X2,...,Xn) 是一统计量。
因为X1,X2,...,Xn是随机变量,而g(X1,X2,...,Xn)是随机变量的函数,因此统计量是一个随机变量。相应的设 x1,x2,...,xn 为样本值,那么g(x1,x2,...,xn)为g(X1,X2,...,Xn)的观察值。
将样本值x1,x2,...,xn带入上面的统计量表达式则可以得到对应的观察值。
总体分布函数F(X)的统计量称为经验分布函数。
构造方法如下:设X1,X2,...,Xn是总体F的一个样本,用S(x),-inf < x < inf 表示 X1,X2,...,Xn 中不大于 x 的随机变量的个数,则经验分布函数定义如下: \[ F_{n}(x) = \frac{1}{n}S(x), -\infty < x < \infty \]
一般,设x1,x2,...,xn是总体F的一个容量为n的样本值,先将x1,x2,...,xn 按自小到大的次序排列,并重新编号。设为 x(1) <= x(2)<=...<=x(n),则经验分布函数的观察值为: \[ F_{n}(x)= \left\{\begin{matrix} 0, & if x < x_{1}\\ \frac{k}{n} & if x_{k} \leqslant x < x_{k+1} , k=1,2,...,n-1 \\ 1, & if x\geq x_{n} \end{matrix}\right. \]
对于经验分布函数,格里汶科(Glivenko)在1933年已经证明,当n趋于无穷时,经验分布函数一致收敛于分布函数F(x)。因此当n充分大时,经验分布函数的任一观察值与总体分布函数F(x)只有微小的差别,实际上可以当作总体分布F(x)来只用。
在使用统计量进行统计推断时常需要知道它的分布,然而这在实际中是困难的。因此我们经常使用统计量的分布来研究总体分布,而统计量的分布称为抽样分布。
下面给出三个来自正态分布的抽样分布,即统计学中的三大分布,重点给出定义、概率密度函数图、分位点
定义: 设X1,X2,...,Xn是来自标准正态总体N(0,1)的样本,则称统计量 \[ \chi ^{2} = X_{1}^{2} + X_{2}^{2} + ... + X_{n}^{2} \] 服从自由度为n的\(\chi ^{2}\)分布,记为$ \chi ^{2} \sim \chi ^{2}(n) $ (自由度是指独立变量的个数)
性质:
概率密度在n不同取值下的图形;上分为点示意图。
定义:设 $ X\sim N(0,1), Y \sim \chi ^{2}(n) $ 且 X,Y相互独立,则称随机变量 \[ t = \frac{X}{\sqrt{Y/n}} \] 服从自由度为n的t分布,记为t~t(n)。
上分位点 \[ P(t>t_{\alpha (n)}) = \int_{t_{\alpha}(n)}^{\infty} h(t)dt = \alpha \] 对称性: \[ t_{1-\alpha }(n) = -t_{\alpha}(n) \] 当n>45时,可用正态近似:\[ t_{\alpha }(n) \approx z_{\alpha} \]
t分布的概率密度图;上分为点图示。
定义: 设 $ U \sim \chi ^{2}(n_{1}), V \sim \chi ^{2}(n_{2}) $ 且U,V相互独立,则称随机变量 \[ F = \frac{U/n_{1}}{V/n_{2}} \] 服从自由度为(n1, n2)的F分布,记为 F~F(n1, n2)。
由定义可知:1/F ~ F(n2, n1)
上分位点 \[ P( F > F_{\alpha} (n_{1}, n_{2}) ) = \int_{F_{\alpha} (n_{1}, n_{2})}^{\infty} \varphi (y) dy = \alpha \] \[ F_{1- \alpha} (n_{1}, n_{2}) = \frac{1}{F_{\alpha} (n_{1}, n_{2})} \]
F分布的概率密度图;上分位点示意图
注意:在分为点中 $ 0 < \alpha < 1 $
(1)设X1,X2,...,Xn是来自总体X(不管服从什么分布,只要它的均值和方差存在)的样本,并且有:\[ E(X) = \mu, D(X) = \sigma ^{2}\] 则有: \[ E(\bar{X}) = \mu, D(\bar{X}) = \sigma ^{2} / n \]
(2)设总体 \(X\sim N(\mu, \sigma ^{2})\) , X1,X2,...,Xn 是来自总体X的样本,则有:
参数估计问题可以分为:点估计和区间估计。点估计是适当的选择一个统计量作为未知参数的估计,若已取得一样本,将样本值带入估计量,得到估计量的值,以估计量的值作为未知参数的值。点估计不能反应估计的精度,因此引入了区间估计,置信区间是一个随机区间,其具有高的预先给定的概率覆盖未知参数。
定义:设总体X的分布函数的形式已知,但它的一个或多个参数未知,借助于总体X的一个样本来估计未知参数的值的问题称为参数的点估计问题。下面主要总结两种常用的点估计方法,即:矩估计法和最大似然估计法。
点估计的一般提法:设总体X的分布函数 \(F(x;\theta)\) 的形式为已知 \(\theta\) 是待估参数。X1,X2,...,Xn是X的一个样本,x1,x2,...,xn是相应的一个样本值。点估计问题就是要构造一个适当的统计量\(\hat{\theta}(X_{1},X_{2},...,X_{n})\),用它的观察值\(\hat{\theta}(x_{1},x_{2},...,x_{n})\)作为未知参数\(\theta\)的近似值。我们称\(\hat{\theta}(X_{1},X_{2},...,X_{n})\)为\(\theta\)的估计量, 称\(\hat{\theta}(x_{1},x_{2},...,x_{n})\)为\(\theta\)的估计值。
注意,对于连续型随机变量,似然函数可取(使用概率密度函数): \[ L(\theta) = L(x_{1},x_{2},...,x_{n};\theta) = \prod_{i=1}^{n}f(x_{i},\theta), \theta \in \Theta \]
区间估计是确定未知参数的一个取值范围,并给出未知参数落入这个范围的一个概率估计即可信程度。 定义: 假总体X的分布函数\(F(x;\theta)\)含有一个未知参数\(\theta, \theta \in \Theta\)(\(\Theta\)是可能取值的范围),对于给定值\(\alpha (0<\alpha<1)\),若由来自X的样本X1,X2,...,Xn确定的两个统计量$\underline{\theta}=\underline{\theta}(X_{1},X_{2},...,X_{n}) $ 和 $\bar{\theta}=\bar{\theta}(X_{1},X_{2},...,X_{n}) $ (\(\underline{\theta} < \bar{\theta}\)),对于任意 \(\theta \in \Theta\)满足 \[ P(\underline{\theta}(X_{1},X_{2},...,X_{n}) < \theta < \bar{\theta}(X_{1},X_{2},...,X_{n})) \geqslant 1-\alpha \] 则称随机区间\((\underline{\theta} < \bar{\theta})\)是\(\theta\)置信水平为\(1-\alpha\) 的 置信区间,\(1-\alpha\)称为置信水平,\(\underline{\theta}\)为置信下限,\(\bar{\theta}\)为置信上限。
一般步骤:
注意:枢轴量\(W = W(X_{1},X_{2}, ... ,X_{n};\theta)\)的构造,通常可以从\(\theta\)的点估计着手考虑。常用的正态总体的参数的置信区间可以用上述步骤推得。
一个例子: 问题:设总体\(X\sim N(\mu, \sigma ^{2})\),\(\sigma ^{2}\)为已知,\(\mu\)为未知,设\(X_{1},X_{2},...,X_{n}\)是来自X的样本,求\(\mu\)的置信水平为\(1-\alpha\)的置信区间。 解答: 我们知道\(\bar{X}\)是\(\mu\)的无偏估计,且有: \[ \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1) \] \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\)服从标准正态分布不依赖于任何未知参数。按标准正太分布的上\(\alpha\)分为点的定义可得(如下图所示): \[P(|\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}| < z_{\alpha/2}) = 1-\alpha \] 概率表示图中无阴影,中间部分。由此解得: \[P(\bar{X}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2} < \mu < \bar{X}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}) = 1 - \alpha\] 由此可以得到\(\mu\)的一个置信水平为\(1-\alpha\)的置信区间:$(\bar{X}-\frac{\sigma}{\sqrt{n}}z_{\alpha/2} ,\bar{X}+\frac{\sigma}{\sqrt{n}}z_{\alpha/2}) $ 最后只需要带入变量并查表就可以得到确切的区间。
值得注意的是,满足要求的置信区间不止一个,两个端点的面积加起来为\(\alpha\)则满足要求,但其中\(\alpha/2\)分为点形成的置信区间最短,因此精度最好,所以被选为置信区间(具体可参考课本P163)。
标准正态分布的分为点:
下面给出常用的区间估计,其不同在于枢轴量的构建,因此只给出各种情况下数轴量的表示以及服从的分布
(1) 均值\(\mu\)的置信区间 1.1 \(\sigma^{2}\) 已知 \[ \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)\] 如上文的例子 1.2 \(\sigma^{2}\) 未知 \[ \frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1) \]
(2) 方差\(\sigma^{2}\)的置信区间 \[ \frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi ^{2}(n-1) \]
(1) 两个总体均值差\(\mu_{1} - \mu_{2}\)的置信区间 \[\bar{X} - \bar{Y} \sim N(\mu_{1}-\mu_{2}, \frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}})\]
(2) 两个总体方差比\(\sigma_{1}^{2} / \sigma_{2}^{2}\)的置信区间 \[ \frac{S_{1}^{2}/S_{2}^{2}}{\sigma_{1}^{2} / \sigma_{2}^{2}} \sim F(n_{1}-1, n_{2}-1) \]
有中心极限定理,当n充分大时有: \[\frac{\sum_{i=1}^{n}X_{i}-np}{\sqrt{np(1-p)}} = \frac{n\bar{X}-np}{\sqrt{np(1-p)}} \sim N(0,1)\]
单侧致信区间是确定参数的上限或则下限,只需要根据给定的置信度确定上分为点或下分为点即可,如下面两图所示,其求解过程与双侧区间类似。 \[P(\theta > \underline{\theta}) \geqslant 1-\alpha\] \[P(\theta < \bar{\theta}) \geqslant 1-\alpha\]
t分布的上\(\alpha\)分为点: 卡方分布的下\(\alpha\)分位点,可以根据性质求得(参考上一章):
用不同的估计方法求出的估计量可能不相同,原则上任何统计量都可以作为未知参数的估计。至于哪一个更好,有以下3个常用的评判标准,即无偏性、有效性和相合性。 1. 无偏性 若估计量\(\hat{\theta} = \hat{\theta}(X_{1},X_{2},...,X_{n})\)的数学期望存在,且对于任意\(\theta \in \Theta\)有\(E(\hat{\theta}) = \theta\),这称\(\hat{\theta}\) 为 \(\theta\) 的无偏估计。
估计量相对于真值来说总会存在一定的误差,偏大或者偏小,无偏性是要求反复对估计量使用多次,其均值可以逼近真值,即要求系统误差$E(\hat{\theta}) - \theta $为0.
2. 有效性 有效性是对估计量离散程度的一个考量,对于两个无偏估计量,方差小的要更优。
3. 相合性 \[\lim_{n\rightarrow \infty} P(|\hat{\theta}-\theta|<\varepsilon ) = 1\] 估计量要依概率收敛于真值,这是估计量的基本要求,如果估计量不能满足相合性,那么不论样本容量n取多么大,都不能得到参数的准确估计,是不可取的。
很多时候由于各方面因素,比如时间和经济的因素,我们不能获取到完全样本。因此就会存在截断抽样,可分为定时结尾样本和定数结尾样本。以研究灯泡的寿命为例:定时结尾样本是给定一个观察终止的时间点,观察在这个时间点内有多少灯泡失效;定数结尾样本是给定常数m,当失效的灯泡数量达到m时,实验结束,得到一个样本。 对于这类问题,关键在于确定似然函数。
有关总体分布的未知参数或未知分布形式的种种论断叫统计假设,人们根据样本所提供的信息对所考虑的假设作出接受或拒绝的决策。假设检验就是作出这一决策的过程。
处理参数的假设检验问题的步骤如下:
示例 在显著水平\(\alpha\)下,检验假设: \[H_{0}:\mu = \mu _{0}, H_{1}:\mu \neq \mu_{0}\] H0称为原假设或零假设 H1称为备择假设
假设检验的过程是:我们认为H0假设是正确的,并尝试根据样本统计量对均值的真值进行估计,这个时候均值的无偏估计\(\bar{X}\)应该与\(\mu_{0}\)非常接近,即\(|\bar{X}-\mu_{0}|\)不会过分的大,如果很不幸对于某一样本值\(|\bar{x}-\mu_{0}|\)过大,又基于小概率事件在一次实验中几乎不可能发生,然而现在发生了,那么我们就有理由怀疑H0假设的正确性。通常来说,我们会给定一个阈值k以控制是否接受H0假设的决策。 另一方面,\(|\bar{x}-\mu_{0}|\)的大小与\(\frac{|\bar{X}-\mu_{0}|}{\sigma/\sqrt{n}}\)的大小是正相关的,而后者作为统计量更容易计算,因此我们往往会从某一统计量入手去做决策。既然是决策,就就有可能发生错误,即当H0为真时,我们仍然有可能将其拒绝,这也被称为假设检验中的第一类错误,我们希望尽可能减小这类错误发生的概率, P{当H0为真拒绝H0} = \(P_{\mu_{0}}(|\frac{\bar{X}-\mu_{0}}{\sigma/\sqrt{n}}| \geq k) = \alpha\) 解释:H0为真,但其样本均值\(\bar{X}\)与给定值的偏离程度超出了阈值k,这个时候我们将会做出拒绝H0。然而!!!H0是真的,因此我们犯了第一类错误,而我们希望折中错误发生的概率很小,即\(\alpha\)很小,往往取0.1,0.05,0.01,0.005等值。
H0为真时,\(\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}} \sim N(0,1)\),由标准正态分布分为点的定义,可以得到\(|\frac{\bar{X}-\mu_{0}}{\sigma / \sqrt{n}}|\geq k = z_{\alpha/2}\),如下图:
对于任一样本值,计算\(|z|=|\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}|\),如果|z|大于\(z_{\alpha/2}\),小概率事件发生了,那么我们有理由怀疑原假设的正确性,因此拒绝原假设,否则我们没有足够的理由拒绝原假设。
标准正态分布的分为点,我们希望阴影部分的面积尽可能小(这是犯第一类错误的概率,也是拒绝域):
常用的正态总体均值、方差的假设检验 根据中心极限定理,当样本容量很大时,很多分布都可以近似到正态分布进行处理。假设检验有双边检验、单边检验(左边检验和右边检验)。 t检验是实践中最常用到的假设检验,因为实践中往往很难获知方差的情况。对于单个正态总体,可以使用t检验均值的是否产生显著变化。对于两个正态总体,分两种情况(1)输入的是两组不同环境下的观察值,那么使用一般的t检验(2)输入是两组相同条件下的成对的(对比实验的)观察值,可以使用成对数据的t检验。(参考下面的表格) 对于单一实验样本可以采用t检验,对于成对的观察值可以采用成对的t检验。
实际上置信区间是对某一参数的区间估计,这一区间对应着相应的假设检验中的接受域,\(1-\alpha\)置信水平的置信区间,对应着\(\alpha\)显著水平的假设检验的接受域。我们在进行假设检验(显著性检验)时更关注拒绝域。
第I类错误是假设检验中显式控制的错误,又称为“弃真”,第II类错误称为“存伪”。
在假设检验中,总是根据问题的要求,预先给出显著性水平以控制犯第I类错误的概率,而犯第II类错误的概率则依赖于样本容量的选择。一些实际问题中,我们除了希望控制犯第I类错误的概率外,往往还希望控制犯第II类错误的概率。这里可以通过OC曲线来进行研究。
定义:假设检验问题的p值(probability value)是由检验统计量的样本观察值得出的原假设可被拒绝的最小显著水平。
按p值的定义,对于任意显著性水平\(\alpha\),就有: (1)若p值<=\(\alpha\),则在显著性水平\(\alpha\)下拒绝H0 (2)若p值>\(\alpha\),则在显著性水平\(\alpha\)下接受H0
在现代计算机统计软件中,一般都给出检验问题的p值。
p值表示反对原假设H0的依据的强度,p值越小,反对H0的依据越强、越充分。 一般,p值的讨论可以分为以下几种情况:
0的依据很强或称检验是显著的;
0的理由是弱的,检验是不显著的;
t单边检验和双边检验的p value:
在进行显著性检验时,犯第I类错误的概率是由我们控制的。\(\alpha\)取得小,保证了当H0为真时错误地拒绝H0的可能性很小。这意味着H0是受到保护的,也表明H0、H1的地位是不对等的。于是,在一对对立假设中,选哪一个作为H0需要小心。 一般情况下,选择H0、H1使得两类错误中后果严重的错误成为第一类错误,这是选择H0、H1的一个原则。 比如考虑某种药品是否为真时,应该将‘药品为假’作为H0,第一类错误就是‘药是假的但被拒绝了’,也就是说‘药是真的’,这个存在很大的危险性,不过现在我们将其作为H0假设,我们可以控制减小犯这种严重错误的概率。 如果两类错误中,没有一类错误的后果严重更需要避免时,常常取H0为维持现状,即取H0为‘无效益’,‘无改进’,‘无价值’等,这样会比较保守一些。 在实际问题中,情况比较复杂,如何选取H0,H1,只能在实践中积累经验,根据实际情况去判断。
显著性检验的方法可以分为参数统计方法和非参数统计方法。 (1)参数统计方法:总体分布类型已知,用样本指标对总体参数进行推断或假设检验的方法。 (2)非参数统计方法:不用考虑总体分布是否已知,不比较总体参数,只比较总体分布的位置是否相同的统计的方法。
前面提及的统计检验方法,比如t检验,均属于参数统计方法,需要提前知道总体分布的形式。一般情况下,当样本容量足够大时,基于中心极限定理,可使用正态分布(高斯分布)作为近似。
而秩和检验是典型的非参数化统计方法,不需要知道总体分布的形式,不过值得注意的是检验需要满足‘独立性’是前提。
实际问题中,总体的分布往往不总是可以被获取到的,这时需要根据样本检验关于分布的假设。课本中主要介绍了\(\chi ^{2}\)拟合检验法,它可以用来检验总体是否具有某一个指定的分布或属于某一个分布族。此外还介绍了专门用于检验分布是否为正态的“偏度、峰度检验法”。
(1)单个分布的\(\chi ^{2}\)拟合检验法
(2)分布族的\(\chi ^{2}\)拟合检验法
(3)偏度、峰度检验 随机变量的偏度和峰度是指X的标准化变量\([X-E(X)]/\sqrt{D(X)}\)的三阶矩和四阶矩: \[\nu _{1} = E[(\frac{X-E(X)}{\sqrt{D(X)}})^3] = \frac{E[(X-E(X))^3])}{(D(X))^{3/2}}\] \[\nu _{2} = E[(\frac{X-E(X)}{\sqrt{D(X)}})^4] = \frac{E[(X-E(X))^4])}{(D(X))^{2}}\] 当随机变量X服从正太分布时\(\nu _{1}=0\)且\(\nu _{2}=3\)。
来源: http://www.cnblogs.com/fanling999/p/6708458.html