首页/文章/ 详情

细细解读置信度和置信区间

2年前浏览2359

    文 | 市场部

配图 | 来源互联网


首先我们要弄清楚两个概念,置信度和置信区间。


1置信度


置信度:以测量值为中心,在一定范围内,真值出现在该范围内的几率。一般设定在2σ,也就是95%,95%是通常情况下置信度(置信水平)的设定值。


置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。


例如.95置信区间是指总体参数落在该区间之内,估计正确的概率为95%,而出现错误的概率为5%(α=.05),由此可见:
.95置信间距=.05显著性水平的置信间距,或.05置信度的置信间距。
.99置信间距=.01显著性水平的置信间距,或.01置信度的置信间距。

显著性水平在假设检验中,还指拒绝虚无假设时可能出现的犯错误的概率水平。


当推论出总体参数μ按一定的概率落在某一置信区间时,实际的均值究竟落在分布的哪个位置上并不能确知,它也有可能落在分布的两侧尾部,这时若说μ在平均值±Zα/2标准误之间便是错误的了,不过出现这种错误的可能概率可以根据样本分布进行计算:其概率为α。例如估计μ在 平均数±1.96标准误之间正确的概率为95%,则错误的概率为5%,这5%来自样本分布的左右两尾端各2.5%的样本平均数,因为这些平均数±1.96标准误这一段距离中并不包含μ在内。


2置信区间


在某一置信度下,以测量值为中心,真值出现的范围。


我们在论文里经常看到CI,CI是置信区间,一定概率下真值得取值范围(可靠范围)称为置信区间。其概率称为置信概率或置信度(置信水平)。置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。


真实数据往往是实际上不能获知的,我们只能进行估计,估计的结果是给出一对数据,比如从1到1.5,真实的值落在1到1.5之间的可能性是95%(也有5%的可能性在这区间之外的)。区间是由抽样的数据根据大样定律结合查表得来的。区间越小精度越高,区间越大置信度越高。打个比方,我们猜张燕燕的年龄,你给出区间是25-35,这个区间很小置信度很低但精度就很高,你说在8岁到80岁之间,那是百分百的置信度了不过精度太低毫无意义。的确99%准确度高于95%,但是它的精度(精密度)就低于95%。95%的置信度是一般通用的。


3区间估计的原理与标准误


区间估计是根据样本分布的理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。


区间估计包括成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没作估计了。这就像在百分制的测验中你估计一个人的得分可能为0至100分之间一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。


统计分析中一般规定:正确估计的概率,也即置信水平为.95或.99,那么显著性水平则为.05或.01,这是依据.05或.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的原理规定的。


区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误(SE)。也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误及样本分布对于总体参数的区间估计是十分重要的。样本分布可提供概率解释,而标准误的大小决定区间估计的长度,如果标准误越小可使置信区间的长度变短,而估计成功的概率仍可保持较高水平。一般情况下,加大样本容量可使标准误变小。  


4平均数分布的概率


下面以平均数的区间估计为例,说明如何根据平均数的样本分布及平均数分布的标准误,计算置信区间和解释成功估计的概率。第五章已讲到,当总体方差已知时样本平均数的分布为正态分布或渐近正态分布。


样本平均数的平均数?,平均数的离散程度即平均数分布的标准差(简称标准误写作?或?), 根据正态分布,可以说:有68.26%的平均数落在μ±1标准误之间,有95%的平均数落在μ±1.96标准误之间,有99%的平均数落在μ±2.58标准误之间等等。

或者说:  μ±1标准误之间包含所有平均数的68.26%,
 
             μ±1.96标准误之间包含所有平均数的95%,
 
             μ±2.58标准误之间包含所有平均数的99%,等等。


只要符合正态分布,平均数的分布一定遵循按正态分布理论所计算出的概率。


5平均数的区间估计


可是在实际的研究中,只能得到一个样本的平均数,我们可将这个样本平均数看作无限多个样本平均数之中的一个。当只知样本平均数(  ),而不知总体平均数时,可根据平均数的样本分布进行推理。


如果有所有平均数的68.26%的平均数落在μ上下一个标准误之间,那么可以推理:所有平均数中有68.26%的平均数加上一个或减去一个标准误这一间距之内将包含总体参数μ,也就是说有68.26%的机会被包含在任何一个平均数±1标准误之间,或者说,估计μ在平均数±1标准误之间正确的概率为68.26%。同样的道理可以说:μ在平均数±1.96标准误之间的正确概率为95%,μ在平均数±2.58标准误之间的正确概率为99%,以及其他任何可能的概率。那为什么置信区间用平均数加、减一定数量的标准误来计算呢?这是因为样本平均数究竟μ落在的左侧还是右侧是不知道的,故用平均数±Zα/2标准误(Zα/2为样本分布的横坐标值),这一段距离表示置信区间。如果能知平均数落在μ的左侧,那么平均数至平均数+1.96标准误这一区间内包含μ的可能为97.5%,若能确知平均数在μ之右侧,那么平均数至平均数+1.96标准误这一区间包含μ的可能亦为97.5%,这样不仅可以缩短置信区间的长度,还可提高正确估计的概率,但事实上这是做不到的。





END -




相关文章,在仿真秀官网搜索:

1) 基于专家知识的铁路货车仿真分析模板

2) 用一个力学模型来分析”手机脖“产生的原因

3) 一份让科学家绝望的探索名单

来源:安怀信正向设计研发港
通用理论
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2022-11-17
最近编辑:2年前
获赞 65粉丝 52文章 361课程 6
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈