
3.1 数据分组
3.1.1 统计分组
统计分组是根据统计研究的目的和任务,按照一定的标志将统计总体划分为若干个组成部分的一种统计方法。
例如,社会经济结构可按产业发生的时序,划分为第一产业、第二产业和第三产业;全国人口按性别可分为男性人口和女性人口。
通过统计分组,能够达到组间差别性、组内同质性的分组效果。统计分组实际上就是在统计总体内进行的一种定性分类,它能够将一个较大范围的同质总体划分为若干个性质不同的、范围较小的同质总体(组)。
3.1.1.1 统计分组的要求
根据统计分组的定义可知,统计分组有三个要素:母项,需划分的总体;子项,划分以后的类(组)总体;分组标志,进行统计分组的标准和依据。
进行统计分组,在技术上有三个基本要求:周延性、互斥性、分组标志的同一性。遵守以上要求,就能达到组内同质性、组间差别性的分组效果,反之,就可能出现分组上的混淆和矛盾,这是统计分组中必须注意的事项。
周延性:要求分组以后各子项项数之和应等于母项项数。
互斥性:组与组之间内容和数值要相互排斥,不能重合。
分组标志的同一性:每次分组只能以一个标志为划分依据,不能同时采纳两个或两个以上的标志为划分依据。
3.1.1.2 统计分组的种类
统计分组可以按照不同的标志进行分类。分组的标志是划分资料的标准和依据,分组的标志选择是否得当,关系到能否正确地反映总体数量特征及其变化规律。统计分组主要有如下几种。
1.按分组标志的多少,可分为简单分组和复合分组
(1)简单分组与平行分组体系。
简单分组就是对研究现象按一个标志进行分组,它只能从某一方面说明和反映事物的分布状况和内部结构。
例如,为了了解企业职工基本情况,可以选择年龄、工龄、文化程度等标志进行简单分组。
对同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系。
例如,为了深入了解我国固定资产构成的基本情况,可以按照经济领域、物质生产部门、经济类型、经济用途、使用情况及所有权进行分组,这六个简单分组相互联系、相互补充便构成平行分组体系。
(2)复合分组与复合分组体系。
复合分组是指许多场合要用两个或两个以上标志分组,即先按第一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组。
两个或两个以上复合分组可以形成复合分组体系。
例如,固定资产投资项目,先按经济类型分组,再按投资规模分组,形成复合分组。
复合分组和复合分组体系将多个标志层叠起来分组,能全面深入地说明问题。但当分组标志数目较多时,复合分组的组数将随分组标志的增加而成倍地增加,反而不易揭示出问题的实质。一般不宜采用太多的标志进行复合分组。
2.按分组标志的性质不同,分为品质分组(或称属性分组)和数量分组(或称变量分组)
品质分组就是按品质标志进行分组。一般来说,对于类别数据,采用品质分组。
数量分组就是按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组。
例如,职工按性别分组,企业按经济类型分组等就是品质分组。企业按产值、工人数分组就是数量分组。
3.按分组的作用不同,分为类型分组、结构分组和分析分组
类型分组是指把复杂的现象总体,划分为若干个不同性质的部分。
结构分组是指在对总体分组的基础上计算出各组对总体的比重,借此研究总体各部分的结构。
分析分组是指为研究现象之间依存关系而进行的统计分组。
分析分组的分组标志称为原因标志,与原因标志相对应的标志称为结果标志。原因标志不同,结果标志也会不同;同一原因标志由于分组不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法进行研究,如表3-1所示。
表3-1 某地区部分商店按商品销售额分组的商品流通费用率

从表中可看出,随着商品销售规模的扩大,其商品流通费用率相应降低,两者表现出负依存关系。
3.1.1.3 统计分组的方法
统计分组的关键在于选择分组标志和确定各组的界限。
1.正确选择分组标志
统计分组的核心问题就是如何正确地选择分组标志,这关系到能否确切地反映总体的特征,体现分组的科学性,实现统计研究的任务。因此,为了正确地选择分组标志,必须注意以下几点。
(1)应选择与统计研究任务密切相关的、最为符合统计研究目的的标志作为分组标志。同一研究对象研究目的不同,采用的分组标志也就不同。例如,为了研究某地区各类不同规模工业企业的生产经营状况时,可选择职工或生产能力作为分组标志。研究目的在于确定该地区各种经济类型的工业企业在整个工业部门中所占的比重时,可选择经济类型作为分组标志。
(2)在总体若干个可供选择的标志中,要选择最能反映事物本质特征的标志作为分组标志。例如,研究居民的生活水平状况,可按城乡居民或不同收入的居民分组,也可按居民的职业分组,还可以按脑力劳动者与体力劳动者分组等。在这些标志中,要注意选择主要的、起决定性的、能反映事物本质特征的标志作为分组标志。如上述城乡分组和职业分组都是重要的分组。
(3)要结合现象所处的具体历史条件和经济条件动态地选择分组标志。例如,企业按规模分组,而反映企业规模的标志很多,如职工人数、产品产量、产值、生产能力、固定资产价值等。选择哪个作为分组标志,则必须结合企业所处的具体条件确定。在劳动密集型或技术不发达的条件下,宜选择职工人数作为分组标志;在技术密集型或技术装备比较先进的条件下,宜采用生产能力或固定资产价值作为分组标志,这样才能确切地反映现象的本质特征。
注意:同一个分组标志适合某一时间、地点、条件下的某现象,但不一定适合另一时间、地点、条件下的该现象。因此,分组标志不能固定不变,即使研究同类现象,也要视具体时间、地点、条件的不同,动态地加以选择,这样选择的分组标志才具有现实意义。
2.正确确定各组的界限
分组标志确定后,就可以进一步在分组标志的变异范围内,具体划分各组的界限。分组标志按其形式,可分为品质标志和数量标志。统计总体可按品质标志分组,也可按数量标志分组。
3.1.2 统计数据的整理程序
统计整理是统计研究过程中一个十分重要的中间环节,起着承前启后的作用。通过整理,可以将说明个体的、局部情况的原始资料转化为反映总体的、全局情况的综合资料,是统计分析之前的必要步骤。统计数据的整理主要分为以下几个程序。
1.根据研究目的设计整理汇总方案
统计汇总方案的设计包括两方面:一是对于总体的处理方法,即对总体进行各种分组,达到对总体具体而深刻的了解,便于以后的分析研究。因此,汇总方案要确定统计分组与分组体系。二是确定用哪些统计指标来说明总体,即根据研究目的,设计一套汇总表,用以对调查项目进行汇总。
2.汇总前对统计数据资料的审核
在对统计数据整理之前,必须对原始数据进行严格的审核,主要检查数据的完整性与准确性,检查方法有逻辑性检查和计算检查。逻辑性检查,比如,性别为“女”的人所填的与户主的关系是儿子,对于这种违背逻辑的项目应予以纠正。计算检查,例如,各分项数据之和是否等于相应的合计数,各结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值是否相同,等等。
3.对数据资料的分组与汇总
按照一定的组织形式和方法,根据调查资料的性质与特点,划分为若干组并加总,计算出各组的单位数和合计数,计算出各组指标和综合指标的数值。分组和汇总是统计数据整理的中心工作。
4.编制统计表、绘制统计图
将整理结果用统计表和统计图的形式反映出来,它可清晰地、简明扼要地表述统计资料的内容。
5.统计资料的积累和保管
加工整理后的统计资料必须妥善保管,不得损坏和遗失。对已过时的统计资料,如认为确无保管价值,呈请单位主管领导核准,并经统计员会签后,方可销毁。
3.1.3 次数分布与变量数列编制
1.次数分布
在按某一标志进行统计分组的基础上,将总体的所有单位按组归类排列,形成总体中各单位在各组间的分布,称为次数分布或频数分布、分布数列。
它是统计整理的一种重要形式,可用以研究总体各组分布状况、分布特征及总体的构成状况,还是进一步分析总体集中趋势和离散程度的基础资料。因此,编制分布数列,不仅是反映统计整理结果的需要,也是进行统计分析的需要。其一般形式如表3-2所示。
表3-2 次数分布的一般形式

根据分组特征的不同,分布数列可分为品质分布数列和变量分布数列两种。
(1)品质分布数列。
品质分布数列是指按品质标志分组所形成的分布数列,简称品质数列。
例如,根据我国第五次人口普查资料,大陆人口按性别标志分组,可编成品质数列,如表3-3所示。
表3-3 第五次人口普查大陆人口的性别分布

品质数列属定类测定资料,如果分组标志选择得好、分组标准定得恰当,则事物的差异表现得就比较明确,总体各组划分就容易解决。品质分布数列一般比较稳定,通常均能准确地反映总体分布特征。
(2)变量分布数列。
变量分布数列是指按数量标志分组形成的分布数列,简称变量数列。
例如,我国大陆人口按年龄分组可编制如下变量数列,如表3-4所示。
表3-4 第六次人口普查大陆人口年龄分布

在表中,第1列是变量x;第2列是各组单位数出现的次数f,即频数,各组频数之和等于总体单位数;第3列是频率,是各组频数与总体单位总和之比,各组频率之和为1。

变量数列按照用来分组的变量的表现形式,可以分为组距式变量数列和单项式变量数列两种。
●组距式变量数列是指按一定的变化范围或距离进行分组的变量数列,又称组距数列。
●单项式变量数列是指数列中每个组的变量值都只有一个,即一个变量值就代表一组,如表3-5所示。
表3-5 某大学学生年看电影次数情况

在组距式变量数列中,每组的最大变量值称为该组的上限,最小变量值称为该组的下限。上限与下限之间的距离或差数就是该组的组距,即组距=上限-下限。组距变量数列又有等距数列和不等距数列之分。各组组距都相等,称为等距数列;各组组距大小不等,则称为不等距(或异距)数列。
2.变量数列的编制
(1)整理原始资料。
变量数列的分组是按数量大小作为分组标准的。这样,就必须先对原始资料按从小到大的顺序排列,确定最大值和最小值,并计算全距。
例:江苏某外资企业2017年第一季度50名工人月平均收入资料如下(单位:美元):

上述资料比较零乱,不易直接看出其基本特征,若将这些数据按由大到小的顺序排列(竖排列),可得到如下阵列:

它反映出资料的某些特征:首先,说明月收入的波动幅度较大,其全距为900美元。其次,说明多数工人的月收入在1000~1400美元。通过整理,可以对该资料的某些特征和基本状况有一个初步了解。
(2)确定变量数列的形式。
对于离散型变量,因其所描述对象的数量特征,可以按一定的顺序一一列举数值,相邻两个变量之间不可能有小数。例如,高校的学生人数、机器台数、废品件数等。所以,对于这些变量,如果项数不多、变异幅度不大,可编制单项式变量数列;否则,应编制组距式变量数列。
对于连续型变量,因其所描述对象的数量特征,在一个区间内可以有无限多个数值,无法按一定次序一一列举,其变量值可以用小数表示。例如,粮食的亩产量、职工工资等。所以连续型变量不能编制单项式变量数列,只能编制组距式变量数列。
(3)编制组距式变量数列应注意的问题。
1)确定组距。组距的大小要适度,要能正确地反映总体的分布特征及其规律。组距与组数成反比例关系,组距越大,组数就越少;组距越小,组数就越多(组数=全距÷组距)。组数过少,容易把不同质的单位归在一个组内;组数过多,又容易把同质的单位分散在不同的组内,两者都不符合分组的要求。至于是采用等距分组还是采用不等距分组,要根据现象的特点、统计研究的目的及所收集的资料分布是否均匀来确定。如果资料分布比较均匀,就可采用等距分组,否则应采用不等距分组。如上面所举工人月工资一例,宜编制等距数列。等距数列的组数、组距可以采用下列公式计算。
K=1+3.322lgn
i=R / K
式中,K是组数;i是组距;R是全距;n是数据个数。
2)确定组限。上限和下限统称为组限。确定组限的基本原则:按这样的组限分组后,要能使性质相同的单位归入同一组内,使不同性质的单位按不同的组别划分。
对于离散型变量,其变量值都是整数,变量值之间有明显的界限,因而,组的上下限可用肯定性的数值表示,组限非常清楚。例如,工人按职工人数分组,其组限可表示为:
100人以下
100~499人
500~999人
1000人以上
对于连续型变量,其变量值有小数,组限不能用肯定的数值表示,只能用前一组的上限与后一组的下限重叠的方法表示。例如,工厂按职工工资分组,可以表示如下:
900美元以下
900~1100美元
1100~1300美元
1300~1500美元
1500美元以上
一般原则是把达到上限值的单位划入下一组内。例如,当工资为1100美元时,该单位应属第三组而不是第二组。
在上述组限的表示方法中,数列的首末两组用“××以下”和“××以上”表示的叫开口组,首末两组上下限俱全的叫闭口组。在分组时是采用开口组还是闭口组,要根据现象的实际情况而定。
3)组中值的确定。组中值是上限和下限之间的中点数值,它是代表各组标志值平均水平的数值。计算组中值的公式:
组中值=(上限+下限)/2
开口组的组距和组中值的确定,一般以其邻近组的组距为准,其计算公式:
缺下限开口组的组中值=上限-(邻组组距/2)
缺上限开口组的组中值=下限+(邻组组距/2)
(4)频数分布表的具体编制。
如前所举,该企业工人月平均收入的全距为900美元,组距=全距÷组数=900÷5=180(美元),可近似取200美元。这里,组数取5组是根据研究的目的而定的。第1组为900美元以下,表示最低收入;第2组为900~1100美元,表示较低收入;第3组为1100~1300美元,表示收入为中等;第4组为1300~1500美元,表示收入较高;第5组为1500美元以上,表示收入高者,如表3-6所示。
表3-6 50名工人月平均收入频数分布

有时为了研究次数分布的状况,因计算分析的需要,常需要计算累计次数或累计频率。计算累计次数或累计频率的方法有两种:一种是向上累计,如表3-6中,第三组的向上累计次数和累计频率分别为36人和72%,表示月平均收入低于1300美元的工人有36人,占全部工人的72%。另一种是向下累计,如表3-6中第二组的向下累计次数和累计频率分别为14人和28%,表示月平均收入高于1300美元的工人有14人,占全部工人的28%。
通过对总体各单位分组而形成的变量数列,显示了各单位标志值在各组间的分布状况,从而使杂乱无章的原始数据显示出一定的规律性,从表中可看出,月平均收入在1100~1500美元的工人占全部工人的66%,而较低收入和高收入的工人所占比重较小,表现出近似“两头小,中间大”的分布特征。