大数据的妙用

27
大大大大大大 大大大 (Steven S. Wang), PhD CLS Bank - Vice President

Upload: daquan-west

Post on 31-Dec-2015

28 views

Category:

Documents


4 download

DESCRIPTION

大数据的妙用. 汪时奇 (Steven S. Wang), PhD CLS Bank - Vice President. 大数据简介. 数据

TRANSCRIPT

Page 1: 大数据的妙用

大数据的妙用汪时奇 (Steven S. Wang), PhD

CLS Bank - Vice President

Page 2: 大数据的妙用

大数据简介• 数据 <- data <- 电脑可处理信息 ( 资料 )• 大数据研究领域 :

1. 识其本 ( 例 : 每人的多数网上行为均被记录成为数据)2. 尽其用 --data mining ( 本轮重心 )3. 防其患(前次重心)

Page 3: 大数据的妙用

妙用领域1. 金融财经2. 网上数据

1. 广告2. 教学3. 购销4. 搜索

3. 网外数据及其它领域4. Data mining 技术

Page 4: 大数据的妙用

1. 金融财经• 领域• 借贷信用计算• 个人理财• 风险评估- ( 各类 ) 评级• 无风险金融交易 (Arbitrage)• 大数据误用• 无发票服务

• 依据• 直接数据 (小数据)• 行内间接数据( 中数据)• 行外数据 (大数据)

Page 5: 大数据的妙用

1.1 金融财经案例 1 -- 借贷为贷款计算• 偿付能力

• 依据收入• 依据财产 ( 例 : 金融产品 , 房 , 车 , 首饰 , 等 )• 依据其它可抵押品 ( 例 : 保险, 契约,品牌, 信誉,秘密 )• 借贷能力 ( 例 : 亲 , 友 , 能力 , 关系等 )

• 信用• 信用分数• 详细信贷记录• 所有收支 , 交易记录• 组群特征记录• 个性特征记录• 其它个人行为记录

Page 6: 大数据的妙用

1.2 金融财经案例 2 -- 个人理财• 目标• 高收益• 低亏损风险• 高流动性(例如,意外用大钱时的低损失)• 低税负• 低查税风险• 高退休保障

Page 7: 大数据的妙用

1.2 金融财经案例 2 -- 个人理财 2

• 个人特征• 收入的数额及稳定性• 财产及其可流动性• 负债及其违约受罚风险• 纳税状况• 各退休后收入• 各保险细节• 遗产(收,供,税)• 风险容忍程度• 存贷习惯• 应变应灾能力• 各阶段目标

Page 8: 大数据的妙用

1.2 金融财经案例 2 -- 个人理财 3

• 公共数据• Bloomberg

• Back Office -- 评级 , 行业趋势 , 地区走势 , 等等 .• PerSecurity -- ETF 量价具体分析 , 关键公司行为 , 等等 .

• Reuter – Foreign currency 等等• Telekurs• 提供免费综合财产管理服务• 其它各政府及公司的种种统计数据

• 如:制造公司的用电量变化表(产)• 如:热门餐饮的客流量变化表(销)• 如:人口年令结构的变化

Page 9: 大数据的妙用

1.3 风险评估-例 : 评级参考标准评级,加上自我评估。• 评级机构 : Moody, S&P, Fitch,… .• Fixed Income

• 评级与利率及价格关系• Gov. Bond, Corp. Bond (e.g. 垃圾债市场 ), …

• Equity• ETF• Exchange based (e.g. NYSE)• OTC

• DerivativeCDO, CDS, MBS, …

• Mutual Fund

Page 10: 大数据的妙用

1.4 金融财经案例 3 -- Arbitrage

• 利--无风险(几乎)• 例• FX – e.g. ¥100=$1 at NYC, ¥99=$1 at Tokyo at a moment• Stock – IBM £120 at LDN, $191 at NYC, $1.6= £1 => (120*1.6)192vs191

•法• 瞬时价格数据 (bid & ask)

• Google, Yahoo, … 只能看不能下载• Bloomberg PS or Reuter 太贵

• 交易费数据• 成交价格上下限及各价概率

Page 11: 大数据的妙用

1.4 金融财经案例 4 -- 大数据误用股票分析重要依据1. 行业趋势 . 例:石油隐现危机2. 地区走势 . 例:欧元区走强3. 内部信息 ( 违法 ). 例:收购,官司,增债, 现金流 …4. 价量历史若忽略前3项,则个股价量历史数据与有惯性的随机数据相近。随机数据预测是毫无意义的。故如下预测意义不大 :• 个股的 K线分析法• 个股的其它某些热门量化预测法 ( 所谓的”技术分析法” )

Page 12: 大数据的妙用

1.4 金融财经案例 5 -- 无发票服务• 退 ,换• Warrantee•更新 (廉价或免费 )

Page 13: 大数据的妙用

2. 网上软件及工具1. 网上广告2. 网上教育3. 网购4. 搜索

Page 14: 大数据的妙用

2.1 网上广告

• 广告效果评估• 广告点击率• 点击日期 (近期更重要 ) ( 中数据)• 点击后停留时间• 停留时间内鼠标移动率(大数据)• 是否点击广告内关键联接(大数据)• 点击者 (家庭 )背景及心理倾向性(大数据)

• 网上对口广告• 直接相关( 中数据)• 间接相关(大数据)

Page 15: 大数据的妙用

2.2 教育• 校系评估

• 依据现成排名 (不理想 ; 如捐款额 )• 录取率• 统考成绩及毕业率• 学生及家长评价• 科研水平• 毕业后平均收入• 雇主口碑• 毕业后成就(大数据)

• 网上教材• On line 教材• 买廉价教材

• Google, 百度 , Wikipedia

Page 16: 大数据的妙用

2.3 购销 1

目标• 购

• 追求最高性价比• 追求最高质量(如治重疹药)• 追求各复杂条件的最优

• 销• 追求最高价格• 追求最大销量• 追求最高市场占有率• 追求最佳品牌• 追求最佳服务信誉

Page 17: 大数据的妙用

2.3 购销 2

手段 : 依据网上及各数据库数据• 购

• 质量评估及统计• 卖家声誉评估及统计• 售后服务评估及统计• 消费者反馈信息

• 销• 群体购买欲• 群体价值观• 群体购买力• 群体消费习惯及心理倾向性或错觉• 群体性价错觉 ( 例: Amr. Exp. 0.5% & 5%)• 个体上述消费特征( 超大数据)

• 共:地区物流能力 (中国特色 )

Page 18: 大数据的妙用

2.4 搜索• 多数网站均有搜索功能• 搜索结果排序是关键

• 例 : ant (Google, Bing, 百度 )

• 排序依据(加权优化)• 用户 (IP)是否搜索过该关键词(小数据)• 用户地址(小数据)• 点击率(小数据)• 点击日期 (近期更重要 ) ( 中数据)• 点击后停留时间 (也许接电话 ) ( 中数据)• 用户搜索相关内容及次数( 中数据)• 用户搜索相近内容及次数(大数据)• 目标网站操作量( 大数据)• 用户搜索拼写相近关键词的相关及相近内容与次数( 超大数据)

• 横向关联 ( 例 :Google发现疫情 )

Page 19: 大数据的妙用

3.1 网外数据 • 电话 (手机 )• 对方详情• 时间• 时长

• 用电量 ( 例: 李总理凭其估经济侧面 )• 用水,煤,煤气,等资源量• 交通运输统计• 人口资料统计• 其它统计 ( 例:病例,医药实验等 )

Page 20: 大数据的妙用

3.2 其它领域• 医药(预防,治疗,药品)• 公路交通(摄像头数据)•铁路调度(人流,物流统计)• 政策 -- 人口,房改,城管,…•城市建设规划 ( 电,气,水,商场,餐饮,旅馆,… )•航空票价预测• 仓储,物流

Page 21: 大数据的妙用

4. Data Mining 技术•本质--从数据库大数据中找到有用信息• Methods• AI (Artificial Intelligence 人工智能 )

• 各类优化• Machine Learning Algorithms

• Statistics• Database Systems

• 可行性• 效率• 成本

Page 22: 大数据的妙用

4.1 Machine Learning Algorithms

• Algorithm types/paradigms• Supervised – from known in-out sets to generalize rules• Unsupervised – from known in & desired out to discover structures in data• Semi-supervised• Others like Reinforcement, Transduction, Developmental, …

• Neural network

• Case-based reasoning

• Lazy learning & Eager learning

• Decision tree

• AODE, Bayesian statistics, Group method, Random forest, PAC, …

Page 23: 大数据的妙用

4.2 Neural network

Page 24: 大数据的妙用

4.3 Case-based reasoning

4R process:

• Retrieve

• Reuse

• Revise

• Retain

Page 25: 大数据的妙用

4.4 Decision tree

Tree models:• Classification Trees• Regression Trees• Pros:• Simple• Robust

• Cons:• NP-Complete (nondeterministic polynomial)

• Over-complex trees

Page 26: 大数据的妙用

4.5 AODE (Averaged One-Dependence Estimators)

Probabilistic classification learning

Page 27: 大数据的妙用

结束语•效果(扩妙用,避误用)• 成本(数据资金,速度,容量)•未来(便扩展,避隐患)• Open to extension; “Close” to modification.• Strengthen security.

• 技术• 统计,概率• Data mining• Database• Application