样本量，置信度和置信区间

最近有网友质疑我们在线调查的样本大小。于是我打算把做互联网调查的一些统计技术问题，写出来与大家分享一下，也让人更多知道TalkTone做的一些理念和技术细节。

首先是样本容量（sample size）。如何取样是一个很复杂的理论。我们的操作方法很简单。首先，明确sample（样本）和population（总体）是不同的，我们不可能调查总体，所以的统计都是通过样本来推测总体的情况。如果我们研究总体没什么特别的特征值得我们关注，这个总体一般是很大，可以是全中国人。

在这个时候，我们一般不会考虑总体，更多地考虑要多大的样本量，达到我们满意的置信度和置信区间。

其次，因为样本得出的对总体的结论，我们需要两个指标来确保结论是可靠。一个就是置信度（confidence level），我们常见的95%，这个在统计学上是一个常用的，还有的比如99%。简单地说，我们做这个结论大概犯错的概率是5%。

另一个是置信区间（confidence interval），比如说6。我们的样本调查发现有70%的人支持郭德纲，那么结合这个置信区间，我们可以说支持郭德纲的人在67%-73%之间，也就是70%加减3个百分点(margin of error)。

结合置信度和置信区间，我们就可以说，在一定的样本量下，在中国网友中有67%-73%的人支持郭德纲，这个结论的犯错的可能是5%。

现在思考题

1）为什么我不说上面结论可靠程度是95%，而说犯错的概率是5%？

2）我们在这个郭德纲的调查中，样本是678人，你如何计算我们的置信区间？

可以使用这个现成软件

http://www.surveysystem.com/sscalc.htm

郭德纲调查的报告，在这里

http://my1510.cn/article.php?id=85ed03da70180ce4

一五一十部落原文链接 | 查看所有0个评论