大规模数据处理的那些事儿

7
大大大大大大大大大大大 大大 [email protected]

Upload: george-ang

Post on 20-Jan-2015

1.066 views

Category:

Technology


2 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 大规模数据处理的那些事儿

大规模数据处理的那些事梁斌[email protected]

Page 2: 大规模数据处理的那些事儿

2

内容概要

• Mass Data Processing

– 什么是 Mass Data Processing

– MDP 的应用场合– 为什么要学习 MDP

– MDP 在高校教学中的现状

• 设想中的一些工作– 将目前的一些经验和理论进行整理– 能够开展一些传播工作– 建立私立实验室

• Q & A

Page 3: 大规模数据处理的那些事儿

3

什么是 Mass Data Processing

在受限的机器 , 网络资源的情况下,通过软件和硬件共同完成的 G 以上级别的数据计算和存储。 --penny liang

• 索引的网页有数 10 亿条• 中国的网民有 1 亿,平均每天访问 10 个网页

。• 电子商务、金融机构、通讯话单,这些数量更

大。

Page 4: 大规模数据处理的那些事儿

4

MDP 的应用场合

•搜索引擎–索引数 10 亿网页,能够提供高效检索服务–google , baidu

•数据挖掘–日志挖掘–商务智能 (cognos(IBM),share point(MS))

•云计算,云存储,云安全–map reduce, hadoop

……

Page 5: 大规模数据处理的那些事儿

5

为什么要学习 MDP

• 能够将大学本科阶段各个科目,在这个实践背景下结合起来– 深刻理解磁盘,内存层次,体系结构,操作系统– 深刻理解分布式算法设计,数据结构

• 排序算法 (Penny sort ,图灵奖得主 Jim Gray 发起 )

• 压缩算法• 搜索算法

• 深刻理解分析业务,解决问题的思路和方法• 查找 100 亿网页中, PV 最高的前 10 个。

• 能够对工作中的问题给出解释,编写高效率代码– 举个 memset 的例子

Page 6: 大规模数据处理的那些事儿

6

MDP 在高校教学中的现状

• 国内的情况– 北大, http://net.pku.edu.cn/~course/cs402/

– 清华, http://net.pku.edu.cn/~course/cs402/resource/

mdp_tsinghua/index.htm

• 国外的情况– 麻省理工不定期课程,关于 Map reduce

http://mr.iap.2008.googlepages.com/home

– 斯坦福大学http://www.stanford.edu/class/cs245/

• 权威教材– Garcia-Molina, Ullman, Widom; "DATABASE SYSTEMS, THE

COMPLETE BOOK"

– Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and

Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006.

Page 7: 大规模数据处理的那些事儿

7

设想中的一些工作

• 将目前的一些经验和理论进行整理– 个性化推荐工作,新闻搜索,商业日志挖掘– 水木社区上写了一些连载

•    http://www.newsmth.net/bbscon.php?bid=715&id=14649

•    http://www.newsmth.net/bbscon.php?bid=715&id=14744

•    http://www.newsmth.net/bbscon.php?bid=715&id=14865

– 阅读一些感兴趣的论文,做一些感兴趣的实验• 开展一些传播工作

– 推广搜索引擎相关技术– 推广大规模数据处理技术,为大学阶段教学提供实践课程– 为企业提供一些技术咨询工作

• 建立私立实验室– 它是技术乐园,玩转技术– 它是牛人牧场,畅谈技术