1.3 总体与样本
数理统计根据试验或观察得到的数据,对研究对象的客观规律做出合理的推断和估计。在数理统计中,常把研究对象的全体称为总体(X),而把构成总体的每个基本单元称为个体。由于研究的对象可以是一批有限数量的产品,也可以是一道工序的连续过程所提供的无限数量的产品,所以总体既可以是有限的,也可以是无限的。如,批量为5000台的电视,它的数量限制在5000个,是有限的总体;而一道工序的连续过程生产出来的产品,既包含过去、现在,也包含未来,这个连续过程可提供的产品数量有无数个,是无限的总体。
若对总体的每个个体的质量特性都一一进行观测,不仅浪费时间而且也不现实。但为了研究和探讨总体的客观规律,通常的做法是从总体中随机抽取n个相互独立的个体x1, x2, ……, xn来进行研究,这n个个体称为总体的一个容量为n的样本。显然,样本x1, x2, ……, xn相互独立且与总体X有相同的概率分布是我们通过样本推断总体的前提。
以下举例说明什么是同分布。假如总体由a, b, c, d号码的4个小球组成,此时总体的概率分布见表1―1。若从中随机抽取一个样本(X1, X2),由于总体为4个个体,为保证样本的独立性须采取有返回抽样方法。这样抽取的样本共有16个,分别是aa、ab、ac、ad、ba、bb、bc、bd、ca、cb、cc、cd、da、db、dc、dd,可见X1取到a的情况有aa、ab、ac、ad共4种,概率为1/4。同理,X1取到b、c、d的概率也都是1/4。类似的,X2取到a、b、c、d的情况各有4种,取到a、b、c、d的概率也都是1/4。见表1―2。可见,X1、X2与X同分布。因此简单随机抽样能够代表总体,使得由样本推断总体成为可能。
表1-1 总体的概率分布
表1-2 样本的概率分布
对于简单随机样本,总体中的每个个体都以同等的概率被抽到且样本具有代表性。如果总体包含的个体数量很大时,无返回抽样得到的样本也是简单随机样本。