登录
  • #聊聊

ZT:关于人人网的新春祝福counter……召唤统计帝

zach
2062
19
刚看到的,感觉很有意思。学统计的筒子来帮大家科普一下吧~就当作习题了

blog.renren.com关于人人网所谓的 已有XXXXXXXX人写下新春祝福





2010-02-12 19:44 | (分类:默认分类)





人人网号称"已有XXXXXXXX人写下新春祝福",吃饱饭了的我不妨来验证一下这个数据是果真真实统计了确切的人数还是只是由一个并不高明的程序所制造出来的伪随机数呢?

写下祝福的人数的数据似乎每秒跳变一次,而一次跳变的数据之差即应该为这一秒内写下祝福的人数.于是记录121组数据如下:

总共人数(后2位) 该秒人数

78
156
219
308
386
449
538
619
706
766
826
8811
997
69
157
226
285
3312
459
547
617
687
756
8110
919
07
77
149
239
325
379
468
546
609
699
785
839
928
06
66
128
209
298
377
448
529
619
705
758
838
917
987
57
129
218
2910
395
447
516
5710
679
769
855
9010
08
85
138
218
297
369
457
527
598
677
748
8210
926
987
58
136
199
286
349
438
518
597
668
747
817
889
9710
77
146
2010
307
376
439
527
597
667
739
828
908
988
67
135
189
279
366
429
518
596
659
748
826
889
978
58
138
217
288
36总计929
由于这里共有121组数据,在2分钟内可以大致认为上人人网的总人数是基本一定的(不比一半数据是白天,一半是晚上的),而写下祝福又是较为独立的事件,每个人写下祝福的willingness大致是一定的.即便上述前提不成立,总得来说,我们信仰这些数据服从Poisson分布:

P{x=k}=lamda^k*exp{-lamda}/k!

那么我们根据假设检验理论来检验以下上述数据是否服从Poisson分布.

H_0:上述数据服从Poisson分布 <-v.s.-> H_1:上述数据不服从Poisson分布

首先计算得 lamda_hat=X_bar=7.67768595

然后划分区间并得到下属统计表:

volume j y_j n*(p_j)hat (n=121)

<=58 0.2225746650
619 0.1317260000
727 0.1444790000
829 0.1386580000
929 0.1182860000
>=109 0.2442763350
根据Pearson Ki square 检验理论(Fisher,1924)有:

X2(y)=sigma(j=1->6,[p_j-n*(p_j)hat]^2/[n*(p_j)hat] ) ~ Ki_square(6-1-1)

= Ki_square(4)

而带入计算得, X2(y)=57.35171845>>Ki_square(4,alpha/2)

其中置信水平alpha可取各种合理值(如0.01,0.02或0.05等).若alpha取0.01则置信概率为0.99,Ki_square的具体数值可查表(Ki_square(4,0.995)在十几左右,与54差距太大).因此我们强力得拒绝H_0.

注1: 上述,对于区间的不同划分确实在有些情况下造成结论的不同.根据实际运用中的原则,区间的数量在6--17为宜,每个区间中的频度在5个以上为宜.

注2: 假设检验似乎有点像信仰问题.结论表明,在这种信仰下,我们有远超过99%的概率(事实上,该概率大到一般的数学用表难以表示)来拒绝的H_0.

注3: 如此大的差距即便更换信仰或是采用不同的观测值,基本都难以自圆其说.

结论: 我们有理由信仰,人人网所谓的XXXXX人写下祝福,或许只是一个写得并不好的程序所产生的几个骗人的伪随机数罢了.



19条回复
热度排序

发表回复