中国民生发展报告2016
上QQ阅读APP看书,第一时间看更新

四、CFPS数据的重要性

近年来,不少学者意识到实证研究对中国学术研究的重要性,并对实施调查采集数据进行了尝试,其中也有不少有价值的工作;但他们的调查通常是区域性或专题性的,样本量有限,无法满足众多学者多样化的研究需要。北京大学于2006年成立北京大学中国社会科学调查中心,致力于社会科学领域的数据调查和中国社会问题的实证研究。其中,我主持的CFPS项目组专注于设计并实施一项全国性综合调查,希望采集高质量微观数据,用以分析中国社会的民生议题,为政策制定提供有效的依据,并推动社会、经济、教育等跨学科的研究工作。我们采集数据并不是为参与CFPS项目的研究人员服务,而是为整个学术界、为所有对中国社会感兴趣的研究人员提供可以共享的数据。

但采集数据并非易事。调查数据的采集通常存在以下难点:首先,它是非常耗时、耗资且又艰辛的工作。目前,大多数学者没有条件自己采集大规模数据;第二,对很多研究而言,采集数据的最佳时间点,并不是研究问题提出的时刻,而是在问题提出之前。这要求我们事先要积累一定的数据,为后人的研究提供基础。CFPS数据对未来的学者将是一座历史的资料库。第三,社会现象是相互关联的,我们尽可能全面采集信息而不能只采集自己感兴趣部分的数据,因为大部分的社会现象都涉及多个维度,因此专题调查不能满足多样化的研究需要。这一点后文将详细论述。所以我认为,CFPS数据是非常珍贵的,它的价值不仅体现在当代,还将长久地影响将来。因为它保留了中国社会变化最快的一段历史,而且还涵盖了社会的各个方面。这段历史一旦过去,数据就不可能再采集。从这一点来讲,CFPS的影响是划时代的,具有非凡的历史意义,它为将来众多学者研究各种不同的议题提供了可能。

CFPS数据的优势主要有三点:第一,CFPS的样本量足够大,基线调查样本家庭为14,960户,满足绝大多数研究刻画各种组间差异的需要。第二,CF-PS的抽样方式科学、代表性较好。CFPS样本覆盖的25个省/直辖市/自治区的人口约占全国总人口(不含港澳台地区)的95%,因此可被视为一个全国代表性样本,而且,CFPS分6个独立子抽样框抽取样本,其中上海、辽宁、河南、甘肃和广东5个省/直辖市构成5个独立子样本框(称为“大省”),每个大省目标样本规模为1,600户;其余20个省/直辖市/自治区构成了另一个独立子样本框(称为“小省”),目标样本规模为8,000户。5个“大省”经二次抽样后获取的样本与“小省”样本框中的样本共同构成的全国再抽样样本,可用于推断全国,并拥有足够的地区差异,对我们理解社会分组和社会情境的差异都大有帮助(谢宇等,2014a;Xie&Lu,2015)。第三,CFPS问卷包含的主题非常丰富,从经济活动、家庭动态,到教育、健康、主观幸福感和政治态度等方面均有涉及(谢宇等,2014a)。

CFPS的基本理念是社区、家庭、个体都是在一定的时间和空间里存在的,因此它采取多层次追踪调查的方式采集调查对象的信息。从空间层次上来说,它们之间是嵌套与被嵌套的关系。个体受到家庭的影响,家庭受到社区的影响,社区受到地区的影响,地区受到国家的影响。从时间上来说,个体的发展存在时间上的连贯性,因此我们需要个体层面上的追踪性调查来了解一个人的成长轨迹。通过CFPS我们可以获得一个人从出生到青年,从青年到中年,从中年到老年的所有信息;从没有结婚到结婚,从没有同居到同居,从同居到结婚,从结婚到婚姻解体的所有信息;从工作到退休的所有信息。在2016年报告中,我们还研究了CFPS样本中人的死亡,也就是个体离开社会的历程。也就是说,追踪性调查可以让我们获得微观层面上个体变化的完整资料。而通过无数个体演变的积累和综合,我们可以掌握整个社会的宏观层面的变化。试想,如果我们要回答中国的富裕是少数人富起来还是绝大多数人富起来的问题,我们就需要用微观数据推算。逻辑上,微观可以推算宏观,微观的变化帮助我们了解宏观的变异,但宏观上的变异却不能推算微观上的变化。比如宏观上贫困率的降低,如果没有微观数据,我们无法确定这主要是因为之前的贫困人群脱贫了,还是由于脱贫人口多于新增贫困人口所致。

社会的动态发展同样需要个体层面的微观数据。人的生命历程是周期性的,从少年到青年,从青年到中年,从中年到老年。但社会的变化不是周期性的,我们只能通过无数个人的周期性变化来理解社会的变化。按照CFPS的访问规则,我们有完善的受访者进入和退出机制,从而获得无尽的个人周期性变化资料。此外,在微观层面上,个人生命历程的各个维度是相互影响的。每个个体的经历和特征都是多维的,比如教育维度、职业维度、健康维度、主观态度维度等,而且不同维度之间相互影响。例如,教育程度的提高也许带来更好的工作表现,优秀的工作表现也许会有更高的收入水平,更高的收入水平可能改善健康状况,更佳的健康状况可能提高主观幸福感,诸如此类(谢宇等,2014a)。

综上所述,每个人都生活在一定的时间和空间里,过去会影响现在,现在会影响未来,在这个时空的条件下,人的变化是多维的,这个变化有不同的方面,不同的方面可能会相互影响,所以我们不能单独研究某一社会现象。在CFPS的调查中,我们利用了大量方法采集个体、家庭和社区各方面的信息。例如对于少儿受访者,我们知道他/她的同住亲属、父母的受教育水平和工作、祖父母的关系、兄弟姐妹情况、家庭住址和户口所在地、社区环境,还有他/她个人的教育和在校表现、健康状况、开始会说话和数数的时间、会走路的时间、看电视和上网的情况、在学校的表现、教育期望、职业期望等等(谢宇等,2014)。可以说CFPS采集数据的丰富性是中国已有的调查项目少有的。

下面结合CFPS的具体例子进行简要介绍。从2010年基线调查到2012年、2014年追踪调查,认知能力的测量都是CFPS一个重要的模块(黄国英、谢宇,2013)。正如前文所说,人的不同维度会相互影响,而关于认知能力对个体的教育、职业、健康、态度等方面的影响的相关研究在中国还是一片空白。CF-PS是首个采集了认知能力数据的全国性综合社会调查,这一数据的采集使得后续关于认知能力的测量及其在社会分层中的影响研究成为可能。本报告的第9章也将专门介绍CFPS认知测量。另外,为了提高受访者关于自评健康、主观社会地位认知测量的稳健度,我们采用了情境题(anchoring vignette)来调整测量偏差。例如,自评健康是社会调查中测量身体状况的一个重要指标。然而,不同个人背景的受访者评估自身健康状况的标准存在很大差异。比如社会经济地位高的人对健康的评价标准也高,社会经济地位低的人对健康的评价标准相对较低,那么相比前者,后者的自评健康状况可能因为自评标准较低而变得更好(Dowd&Todd,2011;Schnittker,2005)。目前,已有研究证明CFPS采用情境题来修正这一偏差的尝试是有效的(Xu&Xie, forthcoming)。