主讲人:周富秋 博士 2009 年 11 月 24 日

Post on 09-Jan-2016

101 Views

Category:

Documents

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

智能计算助力互联网的进化. 主讲人:周富秋 博士 2009 年 11 月 24 日. 公司简介. 海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用 从字符到语义 从非结构化到结构化 行为分析 在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务. 互联网现状( 1 ). CNNIC 的最新报告显示,截止今年 6 月 30 日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中 : 国家顶级域名注册量达 1296 万 - PowerPoint PPT Presentation

TRANSCRIPT

主讲人:周富秋 博士主讲人:周富秋 博士

20092009 年年 1111 月月 2424 日日

智能计算助力互联网的进化

公司简介公司简介

海量公司是一家从事中文智能计算和数据挖掘的理论研究及技术开发的知识性创新企业,长期致力于智能计算的研究及其在互联网的应用 从字符到语义 从非结构化到结构化 行为分析

在核心技术基础上,提供智能计算基础件产品和互联网内容挖掘服务

互联网现状(互联网现状( 11 ))

CNNIC 的最新报告显示,截止今年 6 月30 日,我国网民规模、宽带网民数、国家顶级域名注册量三项指标持续稳居世界第一,其中: 国家顶级域名注册量达 1296 万 网民规模达 3.38 亿,较去年底增长 13.4% 宽带网民规模达 3.2 亿,占总网民数的

94.3% 手机上网用户达 1.55 亿,半年内增长了

32.1% 网络普及率达 25.5%

互联网现状(互联网现状( 22 ))

纵观全球: 互联网每天的点击数有 1000 亿 次 全球所有的网页之间有 55 万亿 个连接 互联网中有 10 亿 个芯片 每秒 2 百万 封邮件; 3.1 万 条短信 246HB 的存储空间 -- 多么大的一个磁盘 互联网上每秒产生的流量有 7TB 之多 互联网消耗了全球电力的 5%

互联网现状(互联网现状( 33 ))数据累积量急剧增长、大量有价值的信息

被淹没,呈现“信息过剩”信息是异域、异构、非结构化的,呈现

“信息孤岛“ 实质“资源利用率低”: Google VS 百

度互联网阴霾之概括:

多 – 信息过量、难以消化 杂 – 信息真假、难以识别 乱 – 信息安全、难以保证 难 – 信息形式不一、难以统一处理

互联网未来互联网未来

转量变为质变依赖

网站模式创新: 原创型、专业性、地域性、互动性。。。

网站技术创新:智能计算、数据挖掘、信息融合。。。

以内容为纽带,将整个互联网搭建成一个语义逻辑整体

从字符到语义从字符到语义

分词分词

应用层次

研究层次命名实体、事件、主题标注命名实体、事件、主题标注

关键词技术关键词技术

知识网络:概念树知识网络:概念树

自动消重自动消重

无指导自动聚类无指导自动聚类

半监督自动分类技术半监督自动分类技术

有指导自动分类 ( 层级分类 )有指导自动分类 ( 层级分类 )

命名实体识别命名实体识别

新词发现新词发现 知识网络:实体属性 - 关系库知识网络:实体属性 - 关系库

机器翻译机器翻译

NLP 搜索NLP 搜索

基于命名实体的聚类基于命名实体的聚类

基于命名实体的分类基于命名实体的分类

基于命名实体的关联基于命名实体的关联

半监督学习半监督学习

从非结构化到结构化从非结构化到结构化

H2X信息抽取技术信息抽取技术

视觉还原技术视觉还原技术

版式识别技术版式识别技术

创建知识网络创建知识网络

NBA

科比

麦迪

乔丹朱芳雨

CBA

姚明

链接中国男篮与美国男篮的

桥梁通过命名实体识别、实体间关系挖掘获得关系统计数据,从而在互联网的海量数据中发现潜在的规律

刘玉栋王治郅

姚明即是 NBA 的强链接,又是 NBA 群与 CBA 群间的桥梁

——结构洞

弱链接与强链接:发现潜在的信息桥梁

解决方案:海纳在线数据挖掘服务解决方案:海纳在线数据挖掘服务

形式化分析

自然语言分析

结构化信息RDF 、 RDF

Scheme

DOC, XLS, PDF, DB…

图像 , 音频 , 视频TXT, XML, HTML…

解决方案:延伸阅读解决方案:延伸阅读 -- 用户体验和智能用户体验和智能

对应某发布网页,通过增加一些相关的文章题目与摘要,引导读者阅读更多的内容 利用实体识别与关系分析等智能计算手段,实

现 聚类、实体与主题提取 精彩计算,随需而变 点亮阅读、增加粘度 降低制作成本、盘活已有资源 更精准,更易于互动、实现个性化

传统的方法:热点词 -- 只有发生了很久,才能通过统计得知是热点

现在的方法:时间维度与类别维度 -- 满文军 是明星,萧淑慎 是明星,吸毒只要和这些人相关就是敏感新闻

未来的方法: 时间维度, 同现维度及敏感维度 -- 大批银行倒闭之后,必然是经济危机的开始,于是可以预测未来

解决方案:热点发现、跟踪与预测(解决方案:热点发现、跟踪与预测( 11 ))

未来的方法 乔布斯 披露健康状况 苹果 股票应声上涨 乔布斯 宣布要休病假 苹果 股票应声下跌 10% …

乔布斯与苹果股价:一种稳定的关系

人物

乔布斯

杨惠妍

巴菲特

股票

中石化

中石油

苹果

乔布斯的健康情况直接影响到了苹果股价乔布斯的健康情况直接影响到了苹果股价

解决方案:热点发现、跟踪及预测(解决方案:热点发现、跟踪及预测( 22 ))

解决方案:智能检索与推送解决方案:智能检索与推送

用户行为分析、意图识别、智能引导

买房

房地产

房贷

新盘

0.1

0.5

0.2

房价0.4

时序统计

房产名称

专家预测用户行为分析

命名实体属性库

实体关系库

解决方案:舆情分析与跟踪解决方案:舆情分析与跟踪

别克昂克雷

在论坛、博客等识别出的命名实体将可以获取民间的产品评价为什么要识别?句子中会有歧义,错误的提取产品名将会导致错误的分析

基于知识网络的智能计算:实现通过网络了解民情、汇聚民智

通过用户行为分析,采用相应的多维度的兴趣描述、多方面的推送策略

词群 资讯分类知识树父节点

敏感性 T 男女喜好 年龄偏好

… 总频率

姚明、火箭 NBA 当下不敏感 偏男性 /80% 14~40

… 4117932

贷款、房产 房地产 当下敏感 偏男性 /75% 24~50

… 562144

… … … … … … …

LV , PRADA

流行 当下不敏感 偏女性 /90% 16~35

… 3127

针对男性、 24~40进行聚类,获得一个个子群体,通过更多的词群予以表示

针对男性、 24~40进行聚类,获得一个个子群体,通过更多的词群予以表示

解决方案:个性化服务解决方案:个性化服务

解决方案:网站净化服务

“和讯网”垃圾帖过滤 净化 --》疏导 助力客户• 增效,即提升清除效果、网站运营、品牌价值• 省力,即节省人力、财力、心力• 创建稳定、和谐的网站环境

达到客户期望的效果 人员等成本节省 60% 以上 持续保持处理正确率 90% 以上 7×24 小时不间断服务 10 秒 内自动处理

解决方案:网站净化服务(案例)解决方案:网站净化服务(案例)

www.hylanda.com

互联网数据互联网数据 //内容挖掘路径内容挖掘路径

• 主题抽取、深度标引

•比对、统计形成二次情报

• 对决策具有指导意义知识情报

•消重、结构化、索引、分类

•具备基本利用价值

信息

•广泛采集

• 数量大

•价值低

数据

““海量”时代的到来海量”时代的到来

媒体网站的未来媒体网站的未来

将互联网的数据转换为情报 /知识

情报 /知识转换为决策 决策转换为利

润 将媒体网站建成将媒体网站建成

安全网、诚信网、绿色网安全网、诚信网、绿色网

谢谢!谢谢!

www.hylanda.com

top related