大家都在看

主页 > 人科荟萃 >统计:从政治算术到一门科学(Statistics- from >

统计:从政治算术到一门科学(Statistics- from

2020-07-30 来源:http://www.mghzaf.com 849

「统计」是一个多义的名词,而且,常常在面对质疑的意见时,被用来保证其可信度。我们有时使用它来谈论资料,特别是指数值资料 - 例如,「$$93\%$$ 的统计数值是编造的」。当在这些意义下使用时,统计(statistics)是个複数名词:数据的每一小部分都是一个统计量(statistic)。当统计(statistics)作为单数名词使用时,它所指涉的,是一门产生及分析这些数据的科学。这门科学有着悠久的历史根源,但却是在二十世纪初期才发展兴盛起来。 

统计学与机率论息息相关,这可以解释何以有些大学数学系将「机率与统计」合开为一门课程。不过,统计和机率却是直到十八世纪初期,才共同发展成对「不确定性」之数学研究的两个紧密相关领域。事实上,它们是对相同的基本情况进行相反两边的考察。机率论探讨吾人已知群体的未知样本可以说些什幺?

例如,知道了投掷一对骰子一次可能得到的所有数值组合,那幺,下次投掷得到点数和为 $$7$$ 的可能性是多少?统计学则是从调查一个小型的样本,探究吾人对未知的群体可以说些什幺?例如,知道在十六世纪一百位伦敦居民的寿命,我们是否可以推论出一般伦敦人(或是欧洲人,或是一般的人类)也可以活一样久?

譬如说吧,第一本对机率论与统计学作广泛充分讨论的着作,是1713年由伯努利(Jacob Bernoulli)出版的《猜度术》(Ars Conjectandi)。这本书分成四个部分,前三个部分讨论排列、组合和流行的赌博游戏之机率理论。在第四个部分,伯努利陈述了这些数学概念在例如政治、经济或死亡率等领域有更严肃及更有价值的应用。

然则我们必须收集多少数据,才能合理地相信从数据所做出结论是正确的?(例如,为了要正确预测选举的结果,我们需对多少公民进行民意调查)?伯努利证明了:样本愈大,结论正确的可能性愈高。而这,正是现在称之为「大数法则」的着名定理。

样本当然关係到数值资料的蒐集。在历史上,譬如羊群的大小,穀物的供应量,军队的人数等等纪录,都有着相当古老的传统。这些种类的资料所绘成的表格,可以在古代文明中最早遗留下的史料里寻得。他们被政治或军事的领导人用来预测或防範可能发生的饥荒、战争、政治上的结盟或是国家其它的事务上。事实上,统计这个字的来源就是 state(国家):它在十八世纪时被敲定,原指国家事务的科学性探究,但很快地重点被转移至政府有兴趣的政治或人口统计资料。

这种资料的收集,在人类有政府时就存在了。事实上,有些学者认为对这些资料的需求,就是数目本身被发明的原因之一。不过,一直到过去几个世纪,人们才开始去思考如何去分析及了解这些数据的意义。

1662年,格朗特 (John Graunt) 出版了《关于死亡清单的自然与政治观察》(Natural and Political Observations Made upon the Bills of Mortality)。这些死亡清单是伦敦每週及每年葬礼的纪录,而早在16世纪中叶开始,就由政府来收集归档。格朗特将1604-1661年间的记录整理成数值的表格,然后,他叙述了所观察到的模式:男婴出生人数比女婴多,女性活得比男性长,每年的死亡率(除非是有传染病流行)大致上是一个常数等等。对一组同时出生的100位伦敦人所组成的「典型」团体,他也估计了每十年的死亡人数。他这些被称为伦敦寿命表(London Life Table)的表格化结论,代表了对平均寿命数值化估计的开始。

格朗特和伯提(William Petty, 1623-1687)一起建立了「政治算术」(Political Arithmetic)这门学问,也就是尝试藉由如死亡清单这类资料的分析,而获得国家人口资讯。接着,很快就有其他人利用较好的数学方法来处理。例如,英国天文学家哈雷(哈雷彗星就是以他的名字命名)就编辑的一套1693年死亡率表格,作为他研究保险年金的基础。他因此成为精算科学(actuarial science)的创立者,这门学问针对平均寿命或其他人口统计趋势,进行数学特性的研究。这类研究很快就成为保险业的科学基础,依赖的是对各种不同保单所冒风险的精算。

数据的可靠性对十八世纪欧洲的科学或商业而言,都是重要的议题。天文学被认为是决定经度的钥匙,而经度测量的可靠性,则是远洋航海安全的关键。天文学家为了决定行星轨道,也作了大量的观测,但是,这些测量容易产生误差,因此,如何从「混乱」的数据中,抽取出正确的结论,就变成是一件相当重要的事。同时,保险公司开始收集各种数据,但是,那些数据都包含着偶然性所导致的变异,所以,吾人也必须按某种方式去区别什幺是真地会持续发生,而什幺又只是因为误差或机遇变异所导致的波动?

针对这些问题,1733年,棣美弗(Abraham de Moivre)描述了我们现在所说的常态曲线(或正规曲线),作为二项分布的近似。他使用这个想法(后来被高斯及拉普拉斯重新发现),去改善伯努利为了得到精确结论所需观测次数之估计。不过,棣美弗和他同时代的人并不总是能给出合适的答案,来回答对于真实世界的情况所提出的基本问题:观测所得数据中的某些特徵,到底在多少程度上,可以反应出吾人所研究的群体(或现象)的状况?

法国数学家勒让德(Adrien-Marie Legendre)发明了「最小平方法」,带动了十九世纪统计理论的走向,而且从那时起,这个方法就是统计学家的标準工具。他利用这个方法,来从观测所得的数据中提取出可靠的资讯。不久后,高斯和拉普拉斯独立地使用机率论来证明勒让德的方法,也重新对它加以陈述使其更便于使用。于是,这个极有威力的工具便逐渐在欧洲的科学家社群中传播开来,这是因为它在进行大量数据依赖的研究,尤其有关天文学及测地学时,表现得十分有效。

在十九世纪,统计方法也随着比利时人克威特列特(Lambert Quetelet)的开创性工作,而开始渗透到社会科学。1835年,克威特列特出版了一本书讨论他所谓的「社会物理学」(social physics)的着作,在该书中,他尝试运用机率的定律去研究人类的特徵。他那新颖的「平均人」(the average man)概念,即在一个给定的情境下,对人类特徵的一个以数据为基础的统计性构念,成为后来研究中吸引人的焦点。但是,它也被批评为过度延拓数学方法,将其使用到多数人认为不可量化的人类行为(如道德)之上。事实上,在19世纪时,除了心理学之外,大部分的社会科学领域都对统计方法的渗入表示出相当抗拒的态度。

统计由于在十九世纪获得了许多进展,它便开始从机率论的阴影之中走出来,而成为数学的一个独立学门。它的成年礼,是达尔文最年长的一个表兄弟嘉尔顿 (Francis Galton)爵士在1860年代为遗传学所做的研究。嘉尔顿是当时优生学运动的一份子,希望藉由选择性的生育来改良人类的种族。因此,对于理解某些特徵在母群体中是如何的分布及如何(或者是否)遗传,他有着很浓厚的兴趣。为了弥补无法控制影响遗传无数变因的缺点,嘉尔顿发展了两个创新的概念:迴归与相关。

在1890年代,高顿的洞察力被爱格伍斯(Francis Edgeworth)以及皮尔逊(Karl Person)和他的学生优尔(G. Udny Yule)所精练及延拓。优尔最后将嘉尔顿及皮尔逊的想法,发展成为迴归分析中一个有效的方法论,其中,他使用了勒让德最小平方法的一种微妙的变形。在二十世纪,这个进展大大有利于生物及社会科学中广泛使用的统计方法。

当统计理论成熟时,它的应用变得愈来愈明显。二十世纪中许多大公司均聘僱有统计学家。保险公司聘请精算师来估算在平均寿命及个人不可预期事件的考量下,应收取的保险金额。其他公司则雇用统计学家来监控品质管制。因此,愈来愈多的统计理论上的进展,是藉由非学院人士之研究所取得。譬如,笔名「学生」(Student)的哥萨(William S. Gosset),原在爱尔兰金氏 (Guinness) 黑啤酒酿造厂工作。他最精彩的论文是处理抽样方法,即从小样本中提取出可信赖之资讯的特别方法。

不过,20世纪初期最重要的统计学家,非费雪(R. A. Fisher, 1890-1962)莫属。由于同时具有理论上及实务上的洞察力,费雪得以将统计奠基在严密的数学理论上,使之成为一个强而有力的科学工具。他的《研究者的统计方法》(Statistical Methods For Research Workers),对很多世代的科学家而言,是一本划时代的着作。还有,他的《实验设计法》(The Design of Experiments))则强调:为了获得良好的数据,吾人应该要从为了提供那些数据所设计的实验开始下手。费雪的研究将统计工具稳固地建立,而成为任何科学家所必备的工具。

今日,我们看到统计技术应用到广泛且大量的人类事务上。民意调查、品质控制方法,以及教育上的标準化测验等等,都已经成为每天生活中司空见惯的部分。尤其,电脑帮助统计学家处理大量数据的工作,也开始影响统计的理论与实务。因此,统计已不再被认为是数学的一个分支,即使它的理论基础仍然充满了数学特性。统计史家史蒂格勒(Stephen Stigler)认为现代统计学既是一种逻辑也是一个方法论。在短短的几个世纪中,对数据所提出的数学问题所播下的种子,已经成长茁壮为一个有自我目的及标準的独立学门,它对科学与社会两方面,有着越来越重要的影响。

参考书目:



上一篇: 下一篇: