深挖大数据分享2014

L O O K I N T O B I G D ATA

钱旺讲堂－深挖⼤大数据－唐⼀一丁，2 0 1 4

说在前⾯面

• 以下内容不在今天的范围内

• 剖析某个数据中⼼心的内部构造

• 云平台体系结构

• 某个分析技术或算法的实现

⼤大数据 = “海量数据 ” + “复杂类型的数据 ”

• 特性包括 4 个“V”: Volume,Variety,Velocity,Value

• 数据量⼤大:⺫⽬目前⼀一般认为 PB 级以上数据看成是⼤大数据;

• 种类多:包括⽂文档、视频、图⽚片、⾳音频、数据库数据等;

• 速度快:数据⽣生产速度很快,要求数据处理和 I/O 速度很快;

• 价值⼤大:对国民经济和社会发展有重⼤大影响。

• ⾏行为因关系果，关系由⾏行为显；

• ⼤大数据告诉我们相关性。

世界观：⾏行为＋关系

• 佛学中的数据，时间概念⼀一⼩小劫，⼈人寿⾃自⼗十岁起，每过百年增⼀一岁，⾄至⼋八万四千岁为增劫之极；⼜又⾃自⼋八万四千岁起，每过百年减⼀一岁，⾄至⼗十岁为减劫之极。此⼀一增⼀一减，共计⼀一千六百⼋八⼗十万年，称为⼀一⼩小劫。数学⽅方式来计算，⼀一⼩小劫等于（ 8 4 0 0 0－ 1 0）X 1 0 0 X 2 即 1 6 ’ 7 9 8 ’ 0 0 0年。

• 《僧祇律》载： 1剎那者为 1念， 2 0念为 1瞬， 2 0瞬为 1弹指， 2 0弹指为 1罗预， 2 0罗预为 1须臾， 1⽇日 1夜有 3 0须臾。换算结果是：须臾＝ 4 8分钟，弹指＝ 7 . 2秒，瞬间＝ 0 . 3 6秒，剎那＝ 1念＝ 0 . 0 1 8秒。须臾>弹指>瞬间>刹那= 1念

何谓 “⼤大 ”

– E R I C S C H M I D T, C E O O F G O O G L E， 2 0 1 0

“we now create as much data every 2 days as we did from the dawn of man through 2003. We are now producing far more data than we

did in 2010. In fact, we create about 2.5 quintillion bytes of data daily and approximately 90% of all our worlds data has been created in the

past 2 years.”

• 思维速度（计算速度） • 对⾏行为的识别 • 对关系的判断

• 实时响应的能⼒力

何谓 “深 ”

• TA O O F D ATA • 道法⾃自然 • 商法⼈人性

• 云计算进⼊入应⽤用阶段

提出⼤大数据的⺫⽬目的（背景）

背景资料⼀一览

• 2012 年 3 ⽉月 29 ⽇日,美国政府启动“Big Data Research and Development Initiative”计划, 6 个部⻔门拨款 2 亿美元,争取增加 100 倍的分析能⼒力从各种语⾔言的⽂文本中抽取信息

• DARPA（国防部⾼高级研究计划局）：⺴⽹网络内部威胁计划（⾃自动识别和⾮非常规的战争⾏行为），Machine Reading，Mind’s Eye，多尺度异常检测和特征化

• 能源部 (DOE) ：机器学习,数据流的实时分析，⾮非线性随机的数据缩减技术和可扩展的统计分析，⽣生物和环境研究计划，⼤大⽓气辐射测量，PM2.5，微⽣生物／植物的⽣生物群落功能的数据预测

• 国家⼈人⽂文基⾦金会(NEH) ：数字化的书籍和报纸数据库,从⺴⽹网络搜索,传感器和⼿手机记录交易数据

• 国家科学基⾦金会(NSF) ：提取核⼼心技术，整合算法，统计⽅方法,可伸缩的⺴⽹网络模型算法,以区别适合随机性⺴⽹网络的⽅方法，开放科学⺴⽹网格(OSG)，寻找“上帝粒⼦子”,宇宙中所有物质的质量之源

阿⻄西莫夫，神学，佛学，⼼心理学，吉普赛⼈人，⽺羊⽪皮卷，不极端，不造假，不随机，真实表露⼈人性 . . .

“Prediction 预测”

－计算机科学中，可能我们最早知道的⼤大数据产品

深蓝，1997

–电⼦子显微镜重建⼤大脑中所有的突触⺴⽹网络 , 1 M M 3 ⼤大脑的图像数据就超过 1 P B

“我们深⼊入国际象棋的思维复杂度。是怎么样平衡姓思维的⼈人类设计了游戏规则？”

Now IBM Waston

Watson is an artificial intelligence computer system capable of answering questions posed in natural language,[2] developed in IBM’s DeepQA project by a research team led by principal investigator David Ferrucci. IBM Watson Fund from Gov/Financial Service/Healthcare, Siri facing end-user, basic daily use requirment, easy understanding, easy to show, But it’s cool and they both changing the world today.DeepQA Achitecture基本框架(Slides, DeepQA and Siri, From Authors of two favorate books in China Dev Community)#

–如何变 “⼤大数据 ”为 “⼩小数据 ”

数据挖掘和商业分析

标准数据分析模型

• 商业理解和数据理解

• 简单需求可沟通，可实现

• 复杂业务难以协调，难深⼊入

• 业务抽象很难有深度

• 原因为数据分析和业务割裂

• 评估策略内涵容易被效果掩盖

• 数据分析通常总会使结果好些

• 掩盖对商业理解的真实意义

• 评估趋向个例，⽽而⾮非普遍

• 即评估策略影响了对数据真实内涵的挖掘，进⽽而影响全局

• 数据准备⺫⽬目的过强

• 数据为建模⽽而准备，丢失⼤大量有效数据，阻碍进⼀一步模型发展

• 数据中间结果⽆无法与业务结合

• 数据分析过程和业务反馈脱钩

与业务紧密契合

• 最内核是数据，⼀一切数据本质上都是⾏行为的产物，包括虚和实

• 中间层是数据分析

• 最外层数据内涵和外在表现

• 四个区域分割分别可看成内、外、主、客的交叉分析结果。两个视⾓角组合成4个维度。

#

• 除个体业务数据，总体业务数据，⾏行业市场数据，竞争对⼿手数据等，是我们⽋欠缺的。

• 数据透过业务表达才有意义

• 另外⼀一⽅方⾯面，任何数据分析的过程如果脱离开具体业务展现，脱离开和⽤用户交互的过程，就会学术化，僵化。

• 因此，业务展现和数据分析如何协作，才是数据分析的真正困难

对数据的理解，对商业的理解，对模型的理解，对价值的理解，能同时贯穿并协调将会调动整个体系，整个公司的业务⽔水准• 数据分析和业务为何割裂

• 业务与数据分属不同部⻔门

• 思维模式完全不同

• 缺乏中间协调沟通权衡

• 缺乏中间层级的结构衔接

• 各⾃自都难以承担更⼤大责任

• 缺乏外部数据、信息、情报的收集。

• ⼤大体系思维思考运作数据分析使⽤用具备⼀一定难度

• 从市场到业务到技术到数据能纵向贯穿的⼈人才⾮非常匮乏

简化的全⾯面模型

• 只有⼀一条路径在运作，并且，从需求的功能也是被动的，没有其他驱动⼒力。并⾮非是双向的

业务结构模型

• 业务就是以有限资源条件，在受限的市场环境下，最⼤大可能满⾜足各⽅方⽤用户的需求。并取得⾃自⾝身⽣生存与发展。业务是多⽅方因素的综合影响的结果

数据能感知什么？

• 能感知：

• 某省⽤用户喜欢某信⽤用卡，向⾮非信⽤用卡⽤用户推荐此卡成交率极⾼高；

• ⽉月初交易额波动较⼤大的原因；

• 根据历年降⾬雨量、平均⽓气温、⼟土壤成分等影响葡萄酒品质的因素预测判断葡萄酒品质；

• 三次看到⾃自⼰己不喜欢的内容，再好的⺴⽹网⻚页也叉掉；

• 发觉中⼄乙之星，对球员的防御率、传球成功率、突破率、奔跑公⾥里数、跑位率等⼏几⼗十类数据进⾏行统计与分析，借此预测球员的潜能；

• 酒店赌场，与200块筹码外加⼀一晚免费住宿和两顿免费⼤大餐相⽐比，500块筹码更能取悦普通利润顾客，者的成本更低；

• 产品设计中让⽤用户选择，再贵的渠道买来的⽤用户每次选择流失30%⽤用户；

• 信⽤用卡消费记录预测这个⼈人在5年内的离婚概率；

• 。。。

• 你接触数据报表和统计数据的时候有过哪些灵感？

业务结构A B对⽐比，差别在哪⾥里？

数据中⼼心到数据业务

G R O K O F N U M E N TA ( C O - F O U N D E R J E F F H A W K I N S I S I N V E N T O R O F PA L M P I L O T A N D T H E PA L M T R E O ) , N U M E N TA I S W O R K I N G W I T H A N U M B E R O F C O M PA N I E S T O I M P L E M E N T C U S T O M S O L U T I O N S I N T H E S E A N D O T H E R A P P L I C AT I O N A R E A S ) TA K E S Y O U R D ATA S T R E A M S A N D G E N E R AT E S A C T I O N A B L E P R E D I C T I O N S I N R E A L T I M E . N U M E N TA’ S B I O L O G I C A L LY I N S P I R E D M A C H I N E L E A R N I N G T E C H N O L O G Y P O W E R S T H E I N T E L L I G E N C E B E H I N D

G R O K O F N U M E N TA

Vicarious received $15M in Series A funding from Google Venture,Founders Fund…, was founded in 2010 by Dileep George (co-founder of Numenta) and Scott Phoenix, Vicarious is developing a vision system that can recognise objects in photographs and videos. The system is entirely built in software. Its underlying framework is a probabilistic graphical model that is inspired by the structure of the neocortex. It appears to be using the Bayesian brain hypothesis. For a vague introduction on the science see the video presentation from October 2011. a science paper co-published with Jeff Hawkins in 2009 , plans to finish the vision system by the year 2016 and to reach human-level AGI by about 2026. The company hasn’t yet released any products or technical details ##

V I C A R I O U S

NGDATA Closes $2.5M in Funding to Fuel Global Expansion; Big Data Management Solution Enables Enterprises to Gain Deeper Consumer Insights. is a consumer intelligence company that empowers enterprises seeking greater customer lifetime value by enabling deep customer insights, personalized product offers and intimate customer experience to drive sales, and increase customer loyalty with a unique combination of interactive Big Data management and machine learning technologies in one integrated solution. Company Profile Product slide #

N G D A TA

MoNETA Project, by Boston University and Hewlett Packard (HP). The HP team, lead by Greg Snider, is building a neural network platform called Cog Ex Machina which can run on CPUs, GPUs, and forthcoming memristor-based computers. Meanwhile the Neuromorphics Lab at Boston University, lead by Massimiliano Versace, is building MoNETA – a modular artificial brain that runs on top of Cog Ex Machina. The acronym stands for MOdular Neural Exploring Traveling Agent. #

M O N E TA P R O J E C T,

拨云⻅见物，明⼼心⻅见性，深度挖掘数据能带给我们的价值

“两饿狼发现了⼀一⽚片草地，甲狼⼤大喜。⼄乙狼不解：你⼜又不吃草，⾼高兴什么？甲：⽺羊爱吃啊，说完⻜飞奔⽽而去。⼄乙：你去哪？甲：我要把这个消

息让⽺羊知道呀！启⽰示：⼈人与⼈人之间最⼤大的区别不是视⼒力上的差距，⽽而是视野上的差距，视⼒力可以看到⼀一样的东⻄西，视野却可以看到不同的世界”—Jewish

“从世界上第⼀一条SQL开始说起。。。⺫⽬目前最为复杂的SQL，被执⾏行最多的SQL，NOSQL解决的是啥问题？”

• Myrrix is a complete, real-time, scalable recommender system, built on Apache Mahout™.

• The Apache Mahout open source project has brought together some of those rocket scientists, from 2008, to implement and popularize key machine learning algorithms, like recommender engines, in a way that could handle “Big Data”

#

–

您觉得全世界赌场中⼤大数据技术的应⽤用深度应该是什么级别？

• 传统意义上，每个成规模的酒店赌场⾄至少遍布⼏几千个监控摄像头；

• ⼀一个赌场每年的IT费⽤用可以⾼高达1亿美元以上；

• 会员卡（Total Reward），积分消费习惯，住宿信息、住址、爱好（喜欢⽆无烟房间还是吸烟房间），光顾赌场的频率、消费的⾦金额，时间段，以及在哪个游戏上花费了最多的时间（是tigger machine、⼤大转盘，还是⿊黑杰克、扑克等牌类游戏）；

• 很久没来过的优质顾客再次光顾赌场时，对其提供特殊优待服务，以便使其成为常客；

• ⼀一位优质顾客在赌场⾥里输得很惨，在其离开赌场之前提供免费赠送餐饮券；

• 对顾客消费模式的分析，通过复杂的量化模型计算出顾客的⻓长期价值，即关注顾客的⻓长期总消费，⽽而不是顾客某⼀一晚上的消费；

• 推断出顾客的最⼤大消费能⼒力、消费时间极限等⾏行为特点；

• 。。。

• 数据表明，26%的客户贡献了82%的收⼊入。分析发现，这些好顾客并不是那些其他赌场努⼒力争取的赌博豪客，⽽而是包括教师、医⽣生、银⾏行职员等在内的中产阶段中⽼老年顾客，他们有⾜足够的收⼊入和时间来赌场消费。他们的赌博⻛风格并不是⼀一掷千⾦金，⽽而是更喜欢在那些⼀一晚上只有⼏几⼗十、⼏几百美元输赢的⽼老虎机上消磨时间；他们很少在赌场过夜，⼀一般都是在下班的路上或周末过来消遣⼀一下

• 例如说，如果⼀一个35岁的中国男性⼟土豪⾛走进了赌场，⼤大数据会预测到这个⼈人的痛苦点⼤大概是1万美⾦金，通过CCTV和各桌的监控，当他输到9800美元的时候，便会有年轻貌美的公关经理主动上前攀谈，缓和他的情绪，引导其到餐饮、休闲等其他区域消费。⽽而保留顾客的最后⼀一点耐⼼心和希望，也会促成他们的再次消费。

推荐算法 S E N S O R D ATA

• 协同过滤、基于内容的推荐算法、分类聚类算法、多模型算法、⽤用户⾏行为

• 建模⽅方法；实现过⽤用户识别与画像、并⾏行CTR预估、⾏行为序列分析

• http://www.duineframework.org/gettingStarted.html

• http://groups.google.com/group/resys/topics

• Facebook EdgeRank is the Facebook algorithm that decides which stories appear in each user’s newsfeed. The algorithm hides boring stories, so if your story doesn’t score well, no one will see it. http://edgerank.net/ It is easy to understand and used by ad and promote parteners to scale up ecosystem.

http://www.duineframework.org/gettingStarted.html

http://groups.google.com/group/resys/topics

–

问题：如何为13亿⾝身份证建⽴立数据库？公章办证太多，查询压⼒力太⼤大。

–始于 1 9 7 0 ,超过 1 6项信⽤用管理法律

“个⼈人信⽤用数据是美国消费信贷发展的基⽯石”

–⼤大数据减少了线下吃饭或⾊色诱的机会

“基于阿⾥里－淘宝－⽀支付宝信⽤用体系的⼩小微⾦金服集团累计发放⼩小微贷款1800亿，没有依靠传统的偿付能⼒力和偿付意愿分析，没有任何⼀一笔贷款与卖家⻅见⾯面，没有⼀一笔贷款有抵押。坏账率低于商业银⾏行。”

⺴⽹网络游戏的数据经

推出趋势产品的互联⺴⽹网公司

• Google

• Netflix

• amazon

• pandora

• twitter

• walmart

• Kaggle

• 百度

⾏行为数据⼀一般 1年时间存储翻番• 百度，100T以上/天，总100P以上，集中的数据平台，由专职技术团队负责基础架构（ALEX LU），提供调度，监控，系统维护等统⼀一数据平台服务；业务单位在平台上⾃自⾏行采集并分析数据，⺫⽬目前没有专⻔门部⻔门负责公司数据整合及⽤用户素描

• 阿⾥里，集团共享⼀一个数据群集（1个群集云梯，30PB+,2500+ nodes），淘宝（20-50T/天）和B2B各有⼀一套基础数据平台，正在做整合，归由集团数据平台（七公）统⼀一管理；⽀支付宝独⽴立系统；B2B和淘宝从底层数据建⽴立独⽴立的User Profile，没有集团统⼀一的User Profile以及推荐服务；由集团技术平台（⺩王⻬齐）牵头开始建⽴立统⼀一的集团User Profile；阿⾥里⾦金融试点阿⾥里云⾃自⾏行研发的⻜飞天平台有2年半的时间，还未稳定；alidata.org

• 腾讯，12群集，50PB+，5000+节点，由公司数据平台（蔡川）统⼀一管理，起步阶段，User Profile，并提供统⼀一推荐服务

• 盛⼤大，12T/天，250节点，总2P，美国创新院专家，集团中央数据团队。。。24TB⼤大容量PCServer为例

• 新浪，⺴⽹网易，360等公司数据部⻔门处于新成⽴立阶段

• ⾖豆瓣，⼈人⼈人等以⽤用户为核⼼心的企业，数据量不⼤大，对核⼼心⽤用户做了细致的深耕

• 中移动，中国电信等公司的通讯管道⾥里积累了全⾯面的⽤用户⾏行为数据，守着⾦金⼭山。。。

• ⾦金融公司，依赖IBM，TERADATA等⼚厂商的⾏行业数据模型，传统的结构化数据数据量在500TB以下，⺫⽬目前主要按照客户资产进⾏行客户分级管理，对⾼高端客户进⾏行⼀一对⼀一服务，但中低端客户未能实现个性化服务

• Yahoo!，34 个Hadoop(3w)，100PB以上

• Facebook，300TB/天

• Google，400PB/⽉月

–应⽤用规模分布关系

“在此键⼊入引⽂文。”

精细化运营：技术平台模型和数据模型的整合

回顾今天⼏几个环节

• 1.⼤大数据⼚厂商，⾏行业垄断问题，上下游⽀支撑

• 2.国内互联⺴⽹网⼤大企业，国内⼤大型企业，PB级企业名录

• 3.深度⼤大数据供应商产业链，垂直⾏行业数据⽀支撑

• 4.产品与数据⾼高度关联的例⼦子

随堂外带 #

#

唐⼀一丁微信 TA N G Y I D I N G Q Q： 3 7 6 9 1 4 钱旺战略研究发展中⼼心

深挖大数据分享2014

Marketing