1
网络科学的发展新动力: 大数据和众包
刘肖凡,副教授东南大学计算机科学与工程学院
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
2
内容提要
1. 网络科学是一门什么科学2. 大数据给网络科学带来的机遇3. 大数据给网络科学带来的冲击4. 众包模式:分享数据的快乐
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
3
网络科学是什么?
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
4
网络科学从哪来研究对象:复杂系统的组成和运作原理早期的方法:还原论
Descartes held that non-human animals could be reductively explained as automata — De homine, 1662.
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
5
网络科学从哪来研究目标:复杂系统的组成和运作原理近期的方法:复杂性理论
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
• 协同学 Synergetic
• 混沌理论 Chaos Theory
• 自组织临界理论 Self-Organized Criticality
• 分形论 Fractals
……
6
网络科学从哪来
微观尺度上的一些发现,如:六度分隔
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
7
网络科学的视角
将系统中的个体抽象为 点点与点之间由 边 相连从简单的结构中得出复杂的性质图论的再发展
点
边
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
8
大数据给网络科学带来的机遇
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
9
数据支撑网络科学发展
• 微阵列( Microarray )• 蛋白质组学• 移动电话位置、通话记录• 社交网站上的好友关系、兴趣爱好
……
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
10
互联网:最复杂的计算机网络
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
11
社交网络:关于我们自己
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
12
万维网:最大的知识网络
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
13
代谢网络:生命的运转
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
14
大数据给网络科学带来的冲击
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
15
数据制约网络科学发展
• 大 数据、少 主人
• 敏感数据• 定制工具
• 无法重复• 无法验证
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
16
谁掌握了大数据• 1999 年 Barabasi 小组获取互联网 AS 层结构数据• 2008 年 Barabasi 小组获取移动电话位置数据• 2013 年华东理工周炜星小组获取中国移动通信公司的
590 万用户手机通话记录
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
17
没有数据的人在干什么
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
18
众包模式:分享数据的快乐
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
19
众包项目模式
• “ 众包” 是一种分布式的问题解决模式,指的是一个公司或机构把过去由特定人员执行的工作任务,以自由自愿的形式外包给(通常是网络上的)非特定大众的做法。
• 有什么好处?同一套数据、多种视角
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
20
著名众包模式案例
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
21
著名众包模式案例
• 在线社交网络
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
• 恐怖分子社交网络• 婚恋网站推荐算法
22
阿里数据平台创新大赛
• 电子商务交易记录• 用户间商务通讯记录• 云计算平台• 统一的工具软件• 允许自带工具
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
23
众包模式的双赢局面和局限性
• 科学家获取了数据• 公司获得了想法
• 数据经过加工• 数据颗粒较粗
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
24
结语
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
25
结语
1. 科学的发展依赖数据量的积累2. 大数据需要采集,更需要分享3. 众包项目模式是未来的发展趋势
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛
26
网络科学的发展新动力: 大数据和众包
刘肖凡,副教授东南大学计算机科学与工程学院
12 月 16 日 南京四校 - 微软亚洲研究院学术论坛