大规模数据处理的那些事儿
DESCRIPTION
TRANSCRIPT
大规模数据处理的那些事梁斌[email protected]
2
内容概要
• Mass Data Processing
– 什么是 Mass Data Processing
– MDP 的应用场合– 为什么要学习 MDP
– MDP 在高校教学中的现状
• 设想中的一些工作– 将目前的一些经验和理论进行整理– 能够开展一些传播工作– 建立私立实验室
• Q & A
3
什么是 Mass Data Processing
在受限的机器 , 网络资源的情况下,通过软件和硬件共同完成的 G 以上级别的数据计算和存储。 --penny liang
• 索引的网页有数 10 亿条• 中国的网民有 1 亿,平均每天访问 10 个网页
。• 电子商务、金融机构、通讯话单,这些数量更
大。
4
MDP 的应用场合
•搜索引擎–索引数 10 亿网页,能够提供高效检索服务–google , baidu
•数据挖掘–日志挖掘–商务智能 (cognos(IBM),share point(MS))
•云计算,云存储,云安全–map reduce, hadoop
……
5
为什么要学习 MDP
• 能够将大学本科阶段各个科目,在这个实践背景下结合起来– 深刻理解磁盘,内存层次,体系结构,操作系统– 深刻理解分布式算法设计,数据结构
• 排序算法 (Penny sort ,图灵奖得主 Jim Gray 发起 )
• 压缩算法• 搜索算法
• 深刻理解分析业务,解决问题的思路和方法• 查找 100 亿网页中, PV 最高的前 10 个。
• 能够对工作中的问题给出解释,编写高效率代码– 举个 memset 的例子
6
MDP 在高校教学中的现状
• 国内的情况– 北大, http://net.pku.edu.cn/~course/cs402/
– 清华, http://net.pku.edu.cn/~course/cs402/resource/
mdp_tsinghua/index.htm
• 国外的情况– 麻省理工不定期课程,关于 Map reduce
http://mr.iap.2008.googlepages.com/home
– 斯坦福大学http://www.stanford.edu/class/cs245/
• 权威教材– Garcia-Molina, Ullman, Widom; "DATABASE SYSTEMS, THE
COMPLETE BOOK"
– Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and
Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006.
7
设想中的一些工作
• 将目前的一些经验和理论进行整理– 个性化推荐工作,新闻搜索,商业日志挖掘– 水木社区上写了一些连载
• http://www.newsmth.net/bbscon.php?bid=715&id=14649
• http://www.newsmth.net/bbscon.php?bid=715&id=14744
• http://www.newsmth.net/bbscon.php?bid=715&id=14865
– 阅读一些感兴趣的论文,做一些感兴趣的实验• 开展一些传播工作
– 推广搜索引擎相关技术– 推广大规模数据处理技术,为大学阶段教学提供实践课程– 为企业提供一些技术咨询工作
• 建立私立实验室– 它是技术乐园,玩转技术– 它是牛人牧场,畅谈技术