中国家庭追踪调查 china family panel studies (cfps) · 2019-10-22 · 调查规模 4 2010...
TRANSCRIPT
CFPS项目办公室
吴琼
中国家庭追踪调查China Family Panel Studies (CFPS)
北京大学中国社会科学调查中心
1
2
项目背景
项目时间轴
3
2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
三省预调查
三省追踪调查
全国基线调查
全国第二轮调查
全国第三轮调查
全国第四轮调查
样本维护调查
全国第五轮调查
调查规模
4
2010 2012 2014 2016
完成访问样本量
家庭层面 14,960 13,459 14,237 14,763
个人层面 42,590 44,693 45,738 45,319
社区层面 635 NA 621 NA
跨轮追踪率
家庭层面 - 85% 89% 89%
个人层面 - 81% 84% 82%
CFPS特点
访问对象为被抽取家庭的所有家庭成员
跨学科
5
问卷内容涵盖的领域
经济与劳动力
婚姻与
家庭
人口流动
教育
健康
智力与智力与非智力特征社区变
迁主观态
度
儿童与儿童与青少年成长
其它
6
CFPS特点
访问对象为被抽取家庭的所有家庭成员
多领域、跨学科
全国代表性样本和五个“大省”省级代表性
样本
7
8
样本来源区
样本质量
9
33.13.1
3.64.8
3.73.4
4.14.5
3.93.3
3.42.5
1.71.4
1.4
.1000
2.62.5
2.93.4
4.63.43.3
3.94.4
4.13.1
3.52.5
1.61.4
.9.6
.3.100
0-4
10-14
20-24
30-34
40-44
50-54
60-64
70-74
80-84
90-94
100+
-7 -5 -3 -1 0 1 3 5 7%
男 女
CFPS 2010(T1表成员) N=36,946
3.12.93
3.94.8
3.83.7
4.54.8
43
3.12.2
1.61.2
.8.4
.2000
2.62.42.6
3.64.8
3.83.6
4.34.6
3.92.93
2.21.5
1.2.9
.6.3
.100
0-4
10-14
20-24
30-34
40-44
50-54
60-64
70-74
80-84
90-94
100+
-7 -5 -3 -1 0 1 3 5 7%
男 女
Census 2010 N=1,332,810,869
CFPS特点
访问对象为被抽取家庭的所有家庭成员
多领域、跨学科
全国代表性样本和五个“大省”省级代表性
样本
长期动态追踪
10
项目负责人(PI)
谢宇,美国普林斯顿大学社会学教授,美国国家科学院院士
张晓波,北京大学国家发展研究院经济学教授,国际食物政策
研究所高级研究员
涂平,北京大学光华管理学院教授,教育部工商管理教学指导
委员会委员
任强,北京大学社会研究中心副教授
11
注册用户
12
23442
0
5000
10000
15000
20000
25000
2014
及以前
2015
年
2016
年1月 2月 3月 4月 5月 6月 7月 8月 9月 10月
11月
12月
2017
年1月 2月 3月 4月 5月 6月 7月 8月 9月 10月
11月
12月
2018
年1月 2月 3月 4月 5月 6月 7月 8月 9月 10月
北大校内 国内其他 国际 总计
用户成果共计1129篇
13
中文期刊55.89%
英文期刊27.46%
学位论文16.65%
73171
312
476
819
1129
0
200
400
600
800
1000
1200
Before2014
2014 2015 2016 2017 Oct-18
CFPS历年成果累积增长图
共计 中文期刊
英文期刊 学位论文
数据介绍
14
数据特点
多层级
社区
家庭
个人
追踪数据
2010、2012、2014、2016
丰富的家庭成员数据
有经济联系的家庭成员:个人问卷
其它直系亲属:基本信息
15
发布数据公开数据集(目标:调查总体结束后一年之内发布)
名称 2010 2012 2014 2016家庭关系库 √ √ √ √家庭库 √ √ √ √成人库 √ √ √ √少儿库 √ √ √ √社区库 √ √跨年id库 √ √ √
16
其它数据其它公开数据集
2011年维护调查(家庭库以及18岁以下个人问卷)
2008、2009年(三省试调查及其追踪调查)
限制使用数据集(restricted use data)
区县数据库(不含具体区县名)
方言库
部分未发布变量(如访问的具体日期等)
保密机
17
如果你是CFPS新用户
1. 北京大学开放研究数据平台
2. CFPS项目网站(http://www.isss.pku.edu.cn/cfps/)
3. 组团申请
• 带队老师:姓名、机构、专业、常用邮箱(最好机构邮箱或提供多
个邮箱)
• 团队成员: 机构和专业与带队老师相同可不填写
18
姓名 邮箱 机构 专业
张三
李四
新用户解锁CFPS数据路径1. 用户手册(“文档中心”“用户手册”)
2. 技术报告(“文档中心”“技术报告”)
3. 微信公众号(ISSS_CFPS)”CFPS小课堂”
19
使用提示(1)
综合变量
教育
收入
消费
财产
父母背景
查看用户手册、技术报告,综合变量一般在数据集的后一部分
20
使用提示(2)
缺失值
受访者原因造成的缺失
不同问卷类型合并造成的缺失
问卷系统跳转造成的缺失
如何处理跳转造成的缺失值
“不适用”造成的缺失
已经采集过的信息
21
使用提示(3)
跨库链接:同一年的不同库
不同层级(一对多)
同一层级(孩子与父母)
跨库链接:不同年
样本流失问题
变量名
家庭组成
22
CFPS数据专题
23
基于CFPS的数据发现推荐选题1:预测家庭样本的流失
背景:追踪调查的样本流失
数据源:
每一年访到的家户(成员关系中的家户)
所有已经发布的CFPS数据
24
2010 2012 2014 2016
完成家庭样本量 14,960 13,459 14,237 14,763
跨轮家庭追踪率 - 85% 89% 89%
基于CFPS的数据发现
推荐选题1:预测家庭样本的流失
目标:预测2016年关系库的近15000个fid16中在2018年最易流失的1000
个fid16
评估标准:命中率
友情提醒
Q:“如何获得2016年成功访问的家户号(fid16)?”
A:利用2016年家庭成员库,找到其中唯一的2016家户号
Q:“为什么同一个人在不同年家户号不一样?”
A:个人可能由于婚姻或其他原因与原有家庭经济独立,组成新的家庭,
此时会在原家庭基础上再多产生新的家户。25
pid fid16 fid14100001101 100001 100001100001102 100001 100001100001103 623170 100001
专题介绍:基于CFPS的数据发现
推荐选题2:收入数据插补
背景:
• 收入数据可能出现缺失(设计、跳转、受访者拒访或不知道)
或虚报(低报、高报?)
目标:
• 参赛者针对缺失以及可疑的一种或多种来源的收入数据提出插补方案
并给出插补结果。我们将组织相关方面专家对方案的合理性以及最终
结果进行评估。
26
相关文献:有关收入的技术报告、文献,每轮清理报告中有关收入部分的清理
专题介绍:基于CFPS的数据发现任意其他利用CFPS数据的选题
• 研究内容具备创新性
• CFPS数据为主要数据源,可以结合其他数据源
CFPS项目组可以提供的资源
• 数据疑问解答(请先查看用户手册、技术报告、微信CFPS小课堂中
相关专题)
• 限制数据及保密机申请
• 组团申请
27