登录
  • #数据科学

概率论和统计学的发展历史(2)

wx2123
506
0
在很久很久以前,人类就开始了统计工作,比方说数数国家的人口,或者做生意挣了多少钱。根据记载,在我国的汉朝和同一时期欧洲的罗马帝国,都有国家人口、面积和财政方面的统计数据。

到了公元5世纪的时候,历史学家修昔底德(Thucydides)记录了战争中的一个故事。雅典人为了进攻另一座城市,需要计算城墙的高度。于是雅典人就让士兵去数城墙从下到上用了多少块砖。由于每个士兵数出来的数字不一样,雅典人就会用出现频率最多的数值作为真实值。这就是现代统计学上说的众数(Mode)。雅典人用这个数字乘以每块砖的厚度,就能算出用多长的梯子才能爬上城墙。

到了8世纪,有一位阿拉伯数学家研究密码学。他写了一本密码学的书,在书中首次提出了排列(Permutations)和组合(Combinations)的理论。在此之后,阿拉伯的数学家还提出了频率分析(Frequency analysis)、统计推断(Statistical inference)以及样本量(Sample size)的概念。

12世纪的英国每年会检测新铸造的金币和银币的纯度。这里面就用到了统计抽样(Sampling)的方法。在铸造出一系列金币和银币后,会取一枚放到小瓶子里面。一年之后再次检测纯度。

到了16世纪,西方社会才开始使用算数平均值(Mean)和中位数(Median)。人们将这两个统计量用于天文和判断方位。

公元1662年被认为是统计学诞生的元年。 “人口学之父”约翰·格兰特(John Graunt)和威廉·佩蒂(William Petty)一起用统计和调查的方法,奠定了现代人口学的基础。格兰特首次提出了寿命表,并列出了每个年龄对应的死亡概率。格兰特知道伦敦每年约有13000次葬礼,每1年中每11个家庭中会有3人死亡。从社区的数据中,他估算出伦敦每家大约有8口人,伦敦的人口总数约为38.4万。这是有记载以来首次提出的人口比率估算(ratio estimator)。到了1802年,大数学家拉普拉斯(Laplace)用同样的方法估算了法国的人口,得到了相同的结论。

到了19世纪,统计学的应用已经不仅限于人口方面了。在费马、帕斯卡等一系列数学家的努力下,概率论已经有了一定的数学基础。伯努利家族中的雅克布·伯努利(Jakob Bernoulli)就认为概率论已经是数学的一个分支了。他认为完全确定的事情概率就是1,否则其概率就介于0和1之间。

早期统计学的“重大成果”是对出生性别比例的研究。约翰·阿布什诺特(John Arbuthnot)在1710年开始研究这个问题。他通过研究伦敦1629到1710之间82年的新生儿数据,发现男婴出生的数量总是超过女婴出生的数量。如果男婴和女婴出生的概率相同,那么观测到的概率应该是0.5的82次方,这个是一个非常小的数值(2.06E-25)。用现代统计学的词汇,这个就是p值。由于这个数值非常小,阿布什诺特就认为这绝不是巧合,而是天意!

其实,阿布什诺特的研究就是我们现在说的显著性检验(Significance tests)。而且这还有可能是最早的非参数统计检验(Nonparametric test)中的符号检验(Sign test)。
0条回复
热度排序

发表回复