作者:英伦在线 | 评论(0) | 标签:统计, 互联网民调
最近有网友质疑我们在线调查的样本大小。于是我打算把做互联网调查的一些统计技术问题,写出来与大家分享一下,也让人更多知道TalkTone做的一些理念和技术细节。
首先是样本容量(sample size)。如何取样是一个很复杂的理论。我们的操作方法很简单。首先,明确sample(样本)和population(总体)是不同的,我们不可能调查总体,所以的统计都是通过样本来推测总体的情况。如果我们研究总体没什么特别的特征值得我们关注,这个总体一般是很大,可以是全中国人。
在这个时候,我们一般不会考虑总体,更多地考虑要多大的样本量,达到我们满意的置信度和置信区间。
其次,因为样本得出的对总体的结论,我们需要两个指标来确保结论是可靠。一个就是置信度(confidence level),我们常见的95%,这个在统计学上是一个常用的,还有的比如99%。简单地说,我们做这个结论大概犯错的概率是5%。
另一个是置信区间(confidence interval),比如说6。我们的样本调查发现有70%的人支持郭德纲,那么结合这个置信区间,我们可以说支持郭德纲的人在67%-73%之间,也就是70%加减3个百分点(margin of error)。
结合置信度和置信区间,我们就可以说,在一定的样本量下,在中国网友中有67%-73%的人支持郭德纲,这个结论的犯错的可能是5%。
现在思考题
1)为什么我不说上面结论可靠程度是95%,而说犯错的概率是5%?
2)我们在这个郭德纲的调查中,样本是678人,你如何计算我们的置信区间?
可以使用这个现成软件
http://www.surveysystem.com/sscalc.htm
郭德纲调查的报告,在这里
http://my1510.cn/article.php?id=85ed03da70180ce4
“要翻墙,用赛风”.