科研常用开放数据资源...
TRANSCRIPT
目录
•01/数据素养与开放数据资源
•02/开放研究数据
•03/开放统计数据
•04/开放互联网数据
01/大数据时代
数据无处不在
数据,已经渗透到当今每一个行业和业
务职能领域,成为重要的生产因素。人
们对于海量数据的挖掘和运用,预示着
新一波生产率增长和消费者盈余浪潮的
到来。
——麦肯锡,2011
医疗与健康 商业 公共事务金融
¥自我量化
新的科研范式在信息与网络技术迅速发展的推动下,产生出大量科学数据,形成被成为“大数据”(Big Data)的新的科
学基础设施。科学家不仅通过对广泛的数据实时、动态地监测与分析来解决难以解决或不可触及的科学问题,更是把数据作为科学研究的对象和工具,基于数据来思考、设计和实施科学研究。数据不再仅仅是科学研究的结果,而且变成科学研究的基础;人们不仅关心数据建模、描述、组织、保存、访问、分析、复用和建立科学数据基础设施,更关心如何利用泛在网络及其内在的交互性、开放性、利用海量数据的可知识对象化、可计算化,构造基于数据的、开放协同的研究与创新模式。
数据密集型的知识发现科学研究的第四范式
01/数据意识
• 在观察事物和思考问题时对数据有敏感度,了解数据的价值,通过数据逻辑对观点提出质疑、判断结论是否可靠。
—其最为直观的体现就是人们对某一个事物的数据量级的判断。
—更高层次的数据感不会仅仅停留在初级判断上,而是会在实际上成为一种评估或测评的技术本领。
“除了上帝,所有人都必须用数据说话”
案例:
截至2013年底交通部统计数据,我国的公路总里程已达到435.62万公里,其中高速公路总里程为104468公里。而随着道路的发展,交通事故数量也在不断攀升,其中2011年全国发生事故210812起,其中高速公路事故9583起,全国道路事故共造成62387人死亡,其中高速公路事故死亡人数为6448人。
那么从统计数据上来看,相较一般道路而言,高速公路是否像人们想象的一样更加危险呢?
小练习-数据的辨证认识:总体数据、样本数据、局部数据,对于分析整体规律和趋势,总体数据最可靠,那么哪种数据最不可靠?
总体数据
样本数据
局部数据
A
B
C
提交
案例:
美国1936年的总统选举。当时有两家公司在做选举预测。一家是《文学摘要》杂志,随着杂志给读者寄问卷,回收了250万份问卷。预测共和党蓝顿比民主党罗斯福领先14%,以绝对优势当选。另外有一家是盖洛普民意测验中心,那时只是刚起步的一个小公司,用随机抽样的方法调查了5万人,预测将是罗斯福以56%的得票率当选。
01/数据的辨证认识
单选题 1分
01/数据素养
数据处理和综合分析能力
理解数据含义和善用数据
数据意识数据的
收集和获取数据的
辨证认识
01/如何找到科研需要的开放数据资源呢?
问题3:为了一个特定的课题需要采集感兴趣的数据。
问题2:想查询一个明确的统计数字。
问题1:想了解和掌握本学科领域的开放获取研究数据资源。
来自大型实验室或合作项目数据共享平台、各学科领域专业专题数据库、公开访问的研究数据存储库的研究数据。
来自世界主要国家和经济组织官方网站、权威调查机构或研究机构发布的各行业统计数据。
通过数据API或者数据采集技术获取感兴趣的数据。
目录
•01/数据素养与开放数据资源
•02/开放研究数据
•03/开放统计数据
•04/开放互联网数据
02/开放研究数据
• 引子:一天浓雾的清晨,一列老式军用客车开向釜山,但在发车的最后一刻,一名被丧尸咬过的少女登上了列车,于是,在这列快速行驶的列车上,活人和活死人展开了一场封闭空间的大逃杀……
北京大学燕博士在无意中获知只有中国珍稀大熊猫的一段特定基因可以根除一场人类世界的灾难。你现在要帮燕博士查询有关这段基因的研究现状,请问可以考虑使用哪些研究数据平台呢?
02/开放研究数据
• 引子:
PNAS是《美国科学院院报》(Proceedings of the National Academy of Sciences of the United States of America,缩写。它是美国国家科学院的院刊,亦是公认的世界四大名刊(Cell,Nature,Science,PNAS)之一,百年经典期刊。
2014年5月的PNAS期刊上发表了关于当今中国收入不平等的文章。文中一个重要的数据来源是北京大学中国调查数据资料库中的中国家庭跟踪调查China Family Panel Studies (CFPS)。
请问在哪个研究数据平台上可以获取CFPS的全部数据呢?
02/开放研究数据‐学科领域数据平台
• 各个学科领域公认或推荐的数据仓储:来自Springer Naturehttps://www.nature.com/sdata/policies/repositories
√√√√√√
√
√√√√
02/开放研究数据‐学科领域数据平台
• 例:来自大型研究项目的学科数据平台Genbank
‐GenBank是美国国家生物技术信息中心(National Center for Biotechnology Information ,NCBI)建立的DNA序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划。为保证数据尽可能的完全,GenBank与EMBL(欧洲EMBL‐DNA数据库)、DDBJ [1] (日本DNA数据库:DNA Data Bank of Japan)建立了相互交换数据的合作关系。
NIH(美国国家卫生研究院)资助基金要求:所资助项目中涉及 Human Genome Data的数据,必须提交到Genbank。
02/开放研究数据‐学科领域数据平台
• 各个学科领域公认或推荐的数据仓储:来自Re3Data中的注册平台https://www.re3data.org/browse/by‐subject/
02/开放研究数据‐学科领域数据平台
• 各个学科领域公认或推荐的数据仓储:来自Github列表(信息众包)
• https://github.com/awesomedata/awesome‐public‐datasets
02/开放研究数据‐国内
科技领域数据共享平台:• 国家科技基础条件平台科学数据平台群• 中科院科学数据库系统群• 自然科技资源网络共享平台群
社会科学领域数据共享平台:• 中国人民大学中国国家调查数据库• 复旦大学社会科学数据平台• 中国调查资料库——依托北京大学开放研究数据平台发布
02/开放研究数据‐北京大学
02/国家科技基础条件平台资源目录
• 国家生态系统观测研究网络(2014‐07‐03)
• 国家材料环境腐蚀野外科学观测研究平台(2014‐07‐03)
• 国家计量基标准资源共享平台(2014‐07‐03)
• 中国应急分析测试平台(2014‐07‐03)
• 北京离子探针中心(2014‐07‐03)
• 国家大型科学仪器中心(2014‐07‐03)
• 国家农作物种质资源平台(2014‐07‐03)
• 国家微生物资源平台(2014‐07‐03)
• 国家标准物质资源共享平台(2014‐07‐03)
• 国家标本资源共享平台(2014‐07‐03)
• 国家实验细胞资源共享平台(2014‐07‐03)
• 水产种质资源平台(2014‐07‐03)
• 国家林木种质资源平台(2014‐07‐03)
• 家养动物种质资源平台(2014‐07‐03)
• 林业科学数据平台(2014‐07‐03)
• 地球系统科学数据共享平台(2014‐07‐03)
• 国家标本资源共享平台(2014‐07‐03)• 国家实验细胞资源共享平台(2014‐07‐03)• 水产种质资源平台(2014‐07‐03)• 国家林木种质资源平台(2014‐07‐03)• 家养动物种质资源平台(2014‐07‐03)• 林业科学数据平台(2014‐07‐03)• 地球系统科学数据共享平台(2014‐07‐03)• 人口与健康平台(2014‐07‐03)• 农业科学数据共享中心(2014‐07‐03)• 地震科学数据共享中心(2014‐07‐03)• 气象科学数据共享中心(2014‐07‐03)• 国家科技图书文献中心(2014‐07‐03)• 国家标准文献共享服务平台(2014‐07‐03)• 中国数字科技馆(2014‐07‐03)
• 人口与健康平台(2014‐07‐03)
• 农业科学数据共享中心(2014‐07‐03)
• 地震科学数据共享中心(2014‐07‐03)
• 气象科学数据共享中心(2014‐07‐03)
• 国家科技图书文献中心(2014‐07‐03)
• 国家标准文献共享服务平台(2014‐07‐03)
• 中国数字科技馆(2014‐07‐03)
• 国家生态系统观测研究网络(2014‐07‐03)
• 国家材料环境腐蚀野外科学观测研究平台(2014‐07‐03)
• 国家计量基标准资源共享平台(2014‐07‐03)
• 中国应急分析测试平台(2014‐07‐03)
• 北京离子探针中心(2014‐07‐03)
• 国家大型科学仪器中心(2014‐07‐03)
• 国家农作物种质资源平台(2014‐07‐03)
• 国家微生物资源平台(2014‐07‐03)
• 国家标准物质资源共享平台(2014‐07‐03)
02/开放研究数据‐学科领域数据平台
• 例:来自中国科技部“数据共享工程”资助的数据平台
02/研究数据的跨学科搜索
• Web of Science 平台上Data Citation Index数据引用索引库(数据量:700多万,2018‐11‐04)http://www.lib.pku.edu.cn/portal/cn/news/0000001872 我要推荐
试用地址:http://webofknowledge.com/DRCI
• DataCite元数据库搜索(数据量:1300多万,2018‐11‐04)访问地址:https://search.datacite.org/
• Google Dataset Search(测试版)(不稳定,发展中)访问地址:https://toolbox.google.com/datasetsearch
02/研究数据的跨学科搜索
• Data Citation Index 数据引用索引库(Web of Science)
基于Web of Science™核心合集平台的 Data Citation Index(简称:DCI,研究数据引文索引) 数据库将研究数据与众多强大的研究发现工具连接了起来,使研究人员能够快速和轻松识别与获取最相关的数据。研究数据和数字化的学术资源的加入,使Web of Science™核心合集平台强大的引文检索和导航功能优势得到了最大化。
特点:拥有来自全球高质量数据知识库的近 710 万条记录,有助于研究可发现的、可引用的、并可链接至原始研究文献的数据研究;依据描述性的元数据建立起来的研究数据记录,用以创建针对数据研究的书目记录和被引参考文献。
02/研究数据的跨学科搜索
• Data Citation Index数据引用索引库
(Web of Science)
02/研究数据的跨学科搜索
•DataCite注册机构DataCite最初的宗旨是为研究数据提供持久的标识符(DOIS),并为著录研究数据创建元数据标准,帮助研究人员更好地定位、识别和引用研究数据。
DataCtie积累的注册元数据用于建立研究数据的大索引,可以直接查询这些数据以查找数据、获得数据和探索连接,所有的元数据都是免费访问的。
为了展示和公开收集的元数据,DataCite还提供了一个集成的搜索接口,可以在其中搜索、过滤并从数百万条记录的集合中提取所有细节。这个接口补充了OAI‐PMH服务,提供了一个可操作的端点来查询DATACITE的元数据集合。
02/研究数据的跨学科搜索
•DataCite注册机构
02/数据领域垂直搜索‐论文图表中的数据
• Zanran.com
02/特别推荐:经过同行评审的研究数据
• 对数据实施同行评审流程的数据期刊和发布平台:
数据期刊:《Scientific Data》https://www.nature.com/sdata/publish/for‐authors数据期刊:《中国科学数据》http://www.csdata.org/p/数据平台:全球变化科学研究数据出版系统http://www.geodoi.ac.cn/WebCn/Default.aspx其他……
02/特别推荐:经过同行评审的研究数据
例:数据期刊《中国科学数据》
目录
•01/数据素养与开放数据资源
•02/开放研究数据
•03/开放统计数据
•04/开放互联网数据
02/开放统计数据
• 引子:
近几年来,一线城市的房价大涨,使得房地产行业成了中国社会关注的焦点。请问2018年10月全国商品房销售面积为多少万平方米?
随着移动通讯网络的不断完善以及智能手机的普及,越来越多的用户通过手机上网。截至2018年6月,中国网民中使用手机上网的人群占比是?
03/开放统计数据
国际组织、国家、
地区等的官方网站
民间权威调查
机构的数据
评估、排行类机
构的数据
学术团体、研究
机构的网站
03/开放统计数据‐国际组织、国家、地区等的官方网站• 一站式搜各国数据:
―联合国统计数据库―欧洲统计局
• 搜美国数据―美国商务部―美国教育统计中心―……
• 搜中国数据:―中华人民共和国统计局―各部委、最高人民法院网站―各地的统计信息网
03/开放统计数据‐国际组织、国家、地区等的官方网站
• 联合国统计数据库
数据来自30多个国际专业统计数据信息源,包括联合国统计司、人口司、
联合国经济与社会问题研究部、粮农组织、教科文组织等
涵盖主题:农业,教育,就业,能源,环境,卫生,犯罪,工业,人口,
旅游,贸易等
大部分数据开始于1970或1980年,2005年开始提供免费检索
对应纸本:《联合国统计年鉴》(Statistical Yearbook),1948至今
03/开放统计数据‐国际组织、国家、地区等的官方网站
• 查美国官方数据
更多官方统计网站的链接,可参考“美国联邦统计”的网站:http://fedstats.sites.usa.gov/
03/开放统计数据‐国际组织、国家、地区等的官方网站• 查美国官方数据 —美国人口调查局 http://www.census.gov/en.html
美国商务部下属的一个机构
调查项目包括:人口调查、美国社区调查、消费支出调查、全国医院门诊医疗调查、全国犯罪受害调查……
提供的数据:关于美国国家和地区人口以及经济等方面的数据,包括人口数量、经济指标、美国商业统计、工业报告等。
03/开放统计数据‐国际组织、国家、地区等的官方网站• 查中国官方数据
-中国国家统计局
• 职责:对国民经济、社会发展、科技进步
和资源环境等情况进行统计分析、统计预
测和统计监测
• 统计数据分类:月度数据、季度数据、年
度数据、普查数据、地区数据、部门数据
、国际数据等
• 提供其他政府部门统计数据的链接
03/开放统计数据‐学术团体、研究机构的网站
• 例如:
The Association Of American PublishersThe American Economic Association中国社科院金融研究所中国皮书网(皮书数据库)
03/开放统计数据‐民间权威调查机构的数据
中国互联网络信息中心
艾瑞咨询
国外调查机构
民意调查:
Pew Research Center The Gallup Organization‐Gallup Poll
IT调查:Forrester Research 互联网调查:
Jupiter Media Metrix Asia Pacific Internet Research Alliance
国内调查机构
03/开放统计数据‐民间权威调查机构的数据
• http://www.cnnic.net.cn/
03/开放统计数据‐评估、排行类机构的数据
• 瑞士国际管理发展学院:World Competitiveness Yearbook
• 美国国家研究委员会:A Data-Based Assessment of Research-Doctorate
Programs in the United States
• 《美国新闻和世界报道》:Best College Rankings
目录
•01/数据素养与开放数据资源
•02/开放研究数据
•03/开放统计数据
•04/开放互联网数据
04/开放互联网数据‐BAT
• 百度、阿里巴巴和腾讯的大数据资源—腾讯:最为全面,突出的是社交数据和游戏数据。社交数据最为核心的是关系链数据、用户间的互动数据、用户自己产生的文字、图片和视频内容;游戏数据主要包括大型网游数据、网页游戏数据和手机游戏数据,最为核心的是游戏的活跃行为数据和付费行为数据。
—阿里:最突出的是电商数据,尤其是用户在淘宝和天猫上的商品浏览、搜索、点击、收藏和购买等数据,其数据最大特点是从浏览和支付的全过程数据。
—百度:百度的数据以用户搜索的关键词、爬虫抓取的网页、图片和视频数据为主,特点是通过搜索关键词更直接反映用户兴趣和需求。
越来越倾向于对合作伙伴、开发者开放
部分数据提供前若干条免费试用
04/开放互联网数据‐互联网指数
• 例:百度搜索指数“双十一”互联网指数:• 搜索:
百度、搜狗、360指数
• 交易:
阿里指数
• 社交:
友盟指数
• 视频:
爱奇艺指数
• 票房:
猫眼
04/开放互联网数据‐通过数据平台/大赛
• 全国高校数据驱动创新研究大赛‐北京大学开放研究数据平台
―清博大数据数据源‐‐19个国家的新浪微博数据(以某国家为关键词)
―佰职公开职位大数据信息,来源包括各大招聘网站、企业官网、求职BBS
―高德地图兴趣点POI数据
―电商商品及网店数据‐京东、淘宝商品销售数据
http://opendata.pku.edu.cn/ https://www.kaggle.com/
04/开放互联网数据‐网页历史存档
• 例1:Internet Archive互联网档案馆https://archive.org/web/
• 例2:中国互联网网页历史数据(CWP200T)―在2002‐2015年期间,北京大学网络实验室出于对网页信息保存和教学科研的目的,通过技术手段搜集了大量中国互联网网页文本数据。
―通过这些数据,可以统计网页大小随时间的演进,按照某个维度,例如时间或者领域提取网页子集。
―2016年,北京大学网络实验室决定将其无偿捐赠给CCF(中国计算机协会),通过CCF将这批历史数据向全社会开放。
04/开放互联网数据‐Google
• Google Cloud谷歌云,Google BIG Query谷歌开源大数据分析平台
平台保存和开放一批数据集,例如: Google Patents Public Datahttps://console.cloud.google.com/marketplace/browse?filter=solution‐type:dataset
04/开放互联网数据‐ Amazon
• Amazon Web Service:亚马逊云服务
平台保存和开放一批数据集,https://registry.opendata.aws/
04/开放互联网数据‐数据交易平台免费数据
• 优易数据https://www.youedata.com/
• 数据堂 http://www.datatang.com/index.html
• 数据超市http://www.bigdata711.com/items
04/开放互联网数据‐数据抓取
• 网页抓取工具
• 自己编写爬虫程序推荐:Python+Beautiful Soup库Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
• 使用开源爬虫程序
04/开放互联网数据‐数据抓取
• 例:
火车采集器:
环球网新闻
04/开放互联网数据‐数据抓取
• Github上的开源Python爬虫程序https://blog.csdn.net/nzjdsds/article/details/77506254
WechatSogou - 微信公众号爬虫。 DouBanSpider - 豆瓣读书爬虫。 zhihu_spider - 知乎爬虫。 bilibili-user - Bilibili用户爬虫。 SinaSpider - 新浪微博爬虫。 distribute_crawler - 小说下载分布式爬虫。 CnkiSpider - 中国知网爬虫。 LianJiaSpider - 链家网爬虫。 scrapy_jingdong - 京东爬虫。 QQ-Groups-Spider - QQ 群爬虫。 spider- hao123网站爬虫。 findtrip - 机票爬虫(去哪儿和携程网)。 163spider -网易客户端内容爬虫。
doubanspiders- 豆瓣电影、书籍等爬虫集。 QQSpider - QQ空间爬虫,包括日志、说说等。 baidu-music-spider - 百度mp3全站爬虫。 tbcrawler- 淘宝和天猫的爬虫。 stockholm -股票数据(沪深)爬虫。 BaiduyunSpider-百度云盘爬虫。 Spider-微博,知乎,豆瓣社交数据爬虫。 music-163-网易云音乐歌曲评论爬虫。 CnblogsSpider-cnblogs列表页爬虫。 spider_smooc-爬取慕课网视频。 CnkiSpider-中国知网爬虫。 csdn-spider-爬取CSDN上的博客文章。 webspider-职位数据爬虫。
例:https://github.com/Chyroc/WechatSogou
拓展阅读
数据库试用‐请你推荐
截止日期:2018.11.28截止日期:2018.11.28截止日期:2018.11.28