一站式搜索服务平台 - tsearcher

30
站站站站站站站站 -TSearcher 站站 ( 站站 )@ 站站站站

Upload: zada

Post on 26-Feb-2016

203 views

Category:

Documents


4 download

DESCRIPTION

一站式搜索服务平台 - TSearcher. 柳明 ( 洪震 )@ 淘宝终搜. 背景. 终 搜 产品 是 什么. 诞生 于淘宝 -SNS ,是一站式 的全文 搜索解决方案,起初只是支持部门内部的搜索需求。但随着产品的不断完善和发展,逐渐支持了淘宝网,天猫、 B2B 、一淘、聚划算等事业部 的 100+ 的应用搜索 需求 。. 终搜提供了用户原始数据的一个结构化副本,在副本上提供了多样的查询功能。. 业务方. 终搜. 数据库. 数据副本. 导入. 云梯数据. 导入. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 一站式搜索服务平台 - TSearcher

一站式搜索服务平台 -TSearcher柳明 ( 洪震 )@ 淘宝终搜

Page 2: 一站式搜索服务平台 - TSearcher

背景 诞生于淘宝 -SNS ,是一站式的全文搜索解决方案,起初只是支持部门内部的搜索需求。但随着产品的不断完善和发展,逐渐支持了淘宝网,天猫、 B2B 、一淘、聚划算等事业部的100+ 的应用搜索需求。

终搜产品是什么

终搜提供了用户原始数据的一个结构化副本,在副本上提供了多样的查询功能。

数据库云梯数据

数据副本导入导入

业务方 终搜

查询Select * From tab1 where col1 like ‘%xxxx%’

Page 3: 一站式搜索服务平台 - TSearcher

产品规模 终搜产品在阿里巴巴集团内部目前已经有将近 300 台的索引服务节点, 12 台全量 DUMP 服务节点,支撑了 120 亿 + 的文档数,和每天峰值在 1 亿 + 左右的查询请求。

背景

Page 4: 一站式搜索服务平台 - TSearcher

发展轨迹2009-2010 2010-2011 2012- 至今

第一阶段

第二阶段

第三阶段产品发展

技术关键字: Solr 、 Lucene , Zookeeper业务规模: 10+数据规模: 5000W+

技术关键字:Solr 、 Lucene 、 Zookeeper,Hadoop

数据规模: 30+数据规模: 30 亿 +

技术关键字:平台化业务规模: 100+数据规模: 120 亿 +

Page 5: 一站式搜索服务平台 - TSearcher

成长的烦恼业务规模的增长终搜集群聚划算事业部 - 技术部 - 开发一组聚划算事业部 - 技术部 - 开发二组应用 2应用 1

share1

replica

replica

replica

share2

replica

replica

replica

(1..n)

(1..n) ….

天猫事业部 - 产品技术部 - 导购 & 垂直线天猫事业部 - 产品技术部 - 会员营销应用 2应用 1share1

replica

replica

replica

share2

replica

replica

replica

(1..n)

(1..n) ….….

Page 6: 一站式搜索服务平台 - TSearcher

成长的烦恼数据规模的增长

CE/ 通用格式 CE/ 通用格式CE/ 通用格式

CE/ 通用格式

CE/ 通用格式数据规模

文档数(万)

Page 7: 一站式搜索服务平台 - TSearcher

成长的烦恼其他业务实例索引配置变化频繁,归属机器需要重启生效

业务实例依赖配置和三方 jar 包无版本化管理,更新轨迹无法追踪。

业务需要在线扩容怎么办检索节点宕机,导致检索服务不稳定怎么办

Page 8: 一站式搜索服务平台 - TSearcher

寻求思路

平台化

容量扩容业务接入

索引构建 基础服务

业务管理 中心管理

Page 9: 一站式搜索服务平台 - TSearcher

数据检索管理

定义和维护业务实例 状态信息收集 可视化状态信息 集群视图关系维护 全量任务分发并执行 源数据存储 索引回流 业务引擎维护 检索服务提供 状态信息汇报

平台化

协调

Page 10: 一站式搜索服务平台 - TSearcher

TSearcher

ºó ̨

µ¼Èë µ÷ ¶È

Zookeeper

ÖÐÐĽڵ㼠Ⱥ

´æ ´¢ ÖÐÐÄ

¿É ÊÓ»¯ ¼à ¿Ø

Åä ÖÃ°æ ±¾ »¯

DUMP¼ Ⱥ

J o bµ÷ ¶È

ÒµÎñ ʵ Àý ά »¤ & ÈÝÔÖÀ©ÈÝ¹Ü Àí

Ë÷ Òý & »ú Æ÷ÊÓͼ ¹Ø ϵ ά »¤

ÈÎ Îñ ·Ö Åä

Ë÷Òý¹¹ ½¨

ʵ Àý ¹Ü Àí

ËÑË÷¼ Ⱥ

ËÑË÷ ·þ Îñ

Ë÷ Òý Ôö Á¿

¼ Ⱥ״̬ÐÅÏ¢ ÊÕ¼ ά»¤

Page 11: 一站式搜索服务平台 - TSearcher

TSearcher

ËÑË÷ ¼¯ Ⱥ

D U M P ¼¯ ȺTas kN o deTas kN o de

J o bN o de

Tas kN o de

C o r e N o de

C o r e N o de C o r e N o de

C o r e N o de

C o r e N o de C o r e N o de

D e fault N e two rk

ÖÐÐĽڵ㠼¯ Ⱥ

C e nte rN o de -L e ade r

Fo l lo we r Fo llo we r

H D F S

M a na g e rN o de

2

1

1 ÐÄÌø »ã ±¨ ¡¢ Ö¸ Áî »ñ È¡

2 È« Á¿ÈÎ Îñ Ìá ½»

3

4

3 Ô´ Êý ¾ÝÏû ·Ñ ¡¢ È« Á¿Ë÷Òý»ØÁ÷

4 È« Á¿Ë÷Òý¿½±´

Page 12: 一站式搜索服务平台 - TSearcher

业务实例管理

C en terN o d e- L ead er

C o reN o d e C o r eN o d e C o r eN o d e

M an ag erN o d e

C en terN o d e- F o llo w er C en te rN o d e- F o llo w er

1

C o r eN o d e

2 2

3 3

3 3

34 4 3 4 4

1

2

3

4

ºǫ́´¥·¢ÒµÎñʵÀý²Ù×÷Ö¸Áî

Follower½Úµãͬ²½³Ö¾Ã»¯Ô Êý¾Ý

CoreNodeÐÄÌø»ñÈ¡Ö ÐÐÈÎÎñ

CoreNodeÁìÈ¡ÈÎÎñÖ´ÐÐ

Page 13: 一站式搜索服务平台 - TSearcher

可视化监控

Page 14: 一站式搜索服务平台 - TSearcher

DUMP 中心

J o b N o d eC lie n t

Ìá ½» ÈÎ Îñ

T a s k N o d e T a s k N o d e T a s k N o d eÔ´ Êý ¾Ý

Ä¿±ê ´æ ´¢ Ô´

¼à ¿Ø ÈÎ Îñ

Page 15: 一站式搜索服务平台 - TSearcher

DUMP 中心

Ô´ Êý ¾Ý

ÎÄ µµ ¹¹ ½¨

ÎÄ µµ ¹¹ ½¨

ÎÄ µµ ¹¹ ½¨

ÎÄ µµ ¹¹ ½¨ ²ã

¹¤ ×÷ÎÄ µµ

¶ÔÏó ³Ø

¿ÕÏÐÎÄ µµ

¶ÔÏó ³Ø

С Ë÷Òý¹¹ ½¨

С Ë÷Òý¹¹ ½¨

С Ë÷Òý¹¹ ½¨

B yteÊý×é ³Ø

С Ë÷Òý¶ÔÏó ³Ø

Ë÷ ÒýºÏ²¢ ³Ì Ðò

´Å ÅÌ Ë÷Òý

Ë÷Òý¹¹ ½¨ ²ã Ë÷ÒýºÏ ²¢ ²ã

¹¹ ½¨ · ¾¶

×ÊÔ´ · ¾¶

Page 16: 一站式搜索服务平台 - TSearcher

搜索 &DUMP 隔离C lientN o d e

s e arc h4 A

/al l /0/20130114000000/search4XXX/al l /0/output/20130114000000/ index

H D F S

Jo b N o d eT as kN o d e

C enterN o d e-Lead er

s e arc h 4 A -n e w

C enterN o d e-Lead er

Jo b N o d e

T as kN o d es e arc h4 A

T a s k -P o o l

Inde xA -ne w

/al l /0/20130114000000/search4XXX/al l /0/output/20130114000000/ index

H D F S

s e arc h 4 A -o ld

Inde xA -o ld

T a s k -P o o l

C o reN o d e

1

2

3

4

56

77

8

9 1 0

1 1

1 Ô´ Êý ¾Ýµ¼Èë 2 È« Á¿ ÈÎ Îñ Ìá ½»

3 ÈÎ Îñ Ìá ½»J o bNo de 4 ·Ö Åä È« Á¿ ÈÎ Îñ

5 TaskN o de ¹¹ ½¨ Ë÷ Òý 6 »Ø Á÷ Ë÷ Òý

7 ÈÎ Îñ Ö´ Ðз´ À¡ 8 Ìá ½»Ë÷ ÒýÇл» ÈÎ Îñ

9 Áì È¡ Çл» ÈÎ Îñ 1 0 ¿½ ±´ Ë÷ Òý

1 1 оÉÒý ÇæÇл»

Page 17: 一站式搜索服务平台 - TSearcher

实时增量

R a m Inde x

F ullInde x S ubInde x

C o m m itL o g

Se ar c hSe r vi c e

C L SynSe r ve r

I n d e x Syn Se rv ic e R a m Inde x

F ullInde x S ubInde x

C o m m itL o g

S e a rc h S erv ic e

I nd e x Syn Se rv ic e

C L SynC l i e nt

R a m Inde x

F ullInde x S ubInde x

C o m m itL o g

S e a rc hS e rvic e

I nd e x Syn S e rv ic e

C L SynC l i e nt

ʵʱд Èë

L e ade r F o l l o w e r

F o l l o w e r

H SF ¡¢ H TTP

fulla t.infoflus ha t.info

fulla t.infoflus ha t.info

fulla t.infoflus ha t.info

Page 18: 一站式搜索服务平台 - TSearcher

扩容 - 垂直扩容

¼ì Ë÷½Úµã 1 -1

¼ì Ë÷½Úµã 1 -2

¼ì Ë÷½Úµã 1 -3

´¹ Ö±À©ÈÝ

¼ì Ë÷ ½Úµã 1 -1

¼ì Ë÷½Úµã 1 -2

¼ì Ë÷½Úµã 1 -3

¼ì Ë÷½Úµã 1 -4

ÁÐË÷ Òý1 ÁÐË÷Òý2

Page 19: 一站式搜索服务平台 - TSearcher

扩容 - 垂直扩容C en terN o d e

S e a rc h4 A /al l /output/20130114000000/ index

H D F S

S e a rc h4 A

I n d e x A

12 3

5

4

1 Áì È¡ ´´ ½¨ ÒµÎñ ʵ Àý Ö¸ Áî

2 Ö´ Ðз´ À¡

3 Áì È¡ ¿½ ±´ Ë÷ Òý Ö¸ Áî

4 ¿½±´ ¶ÔÓ¦ Ë÷ Òý

5 Ö´ Ðз´ À¡

C oreN od e C oreN od e

Page 20: 一站式搜索服务平台 - TSearcher

扩容 - 水平扩容

¼ì Ë÷½Úµã 1 -1

¼ì Ë÷½Úµã 1 -2

¼ì Ë÷½Úµã 1 -3 ˮƽÀ©ÈÝ

¼ì Ë÷½Úµã 2 -1

¼ì Ë÷½Úµã 2 -2

¼ì Ë÷½Úµã 2 -3

¼ì Ë÷½Úµã 2 -4

ÁÐË÷Òý1 ÁÐË÷Òý2

¼ì Ë÷ ½Úµã 1 -3

Page 21: 一站式搜索服务平台 - TSearcher

扩容 - 水平扩容ÒýÇæ³é Ïó 0 ÒýÇæ³é Ïó 1

4 ,8 ,1 2 ,1 6 2 ,6 ,1 0 ,1 4 1 ,5 ,9 ,1 3 3 ,7 ,1 1 ,1 5

¼ì Ë÷ ½Úµã A ¼ì Ë÷½Úµã B

ÒýÇæ³é Ïó 0

4 ,8 ,1 2 ,1 6 2 ,6 ,1 0 ,1 4

¼ì Ë÷½Úµã A

×ÓË÷ Òý0 ×ÓË÷ Òý2 ×ÓË÷ Òý1 ×ÓË÷ Òý3

ÒýÇæ³é Ïó 2

2 ,6 ,1 0 ,1 4

ÒýÇæ³é Ïó 1

1 ,5 ,9 ,1 3 3 ,7 ,1 1 ,1 5

ÒýÇæ³é Ïó 3

3 ,7 ,1 1 ,1 5

¼ì Ë÷½Úµã C ¼ì Ë÷½Úµã B ¼ì Ë÷½Úµã D

Page 22: 一站式搜索服务平台 - TSearcher

容灾恢复

Se arc h4 A1 -1

Se arc h4 A1 -2

Se arc h4 A1 -3

Se arc h4 A1 -4

C en te rN o d e

Se arc h4 A1 -1

Se arc h4 A1 -2

Se arc h4 A1 -3 ÈÝÔÖ»Ö¸´

Se arc h4 A1 -4

S end heartb eat C reate Ind ex Engine

Se arc h4 A1 -1

ÁÐË÷ Òý 1 ÁÐË÷ Òý 1

Page 23: 一站式搜索服务平台 - TSearcher

2 倍索引磁盘空间 &内存

核心业务

Lucene 版本

资源过滤

Solr 版本

版本匹配过滤

业务 独占资源

正在恢复

条件过滤

优先推选 规则 1

空闲资源 磁盘容量、 JVM 内存

请求平均 响应时间

承载业务实 例副本 机器 Load

优先推选 规则 2

优先推选 规则 2

容灾恢复 - 机器推选

Page 24: 一站式搜索服务平台 - TSearcher

查询优化 - 范围查询

doc16

doc17

doc18

doc19doc20 doc21

doc0

doc3

doc1doc2doc5doc4

doc6

doc8doc7doc9doc10

doc11

doc12

doc13

doc14

doc15

[f1[doc0]=100,f1[doc1]=99,f1[doc2]=1001,f1[doc3]=201…,f1[doc5]=1003…..]

fn1:[100 TO 1000]

[f2[doc0]=10,f2[doc1]=11…,f2[doc5]=12…..,f2[doc7]=2,f2[doc9]=3,f2[doc10]=9…]fn2:[10 TO

100]

Page 25: 一站式搜索服务平台 - TSearcher

RF_1 RF_NRF_2 RF_3

doc0

doc1

0

1

127

128

255

doc127

Packet0

doc128

doc255

Packet1

PacketN

0 0 0

查询优化 - 范围查询

Page 26: 一站式搜索服务平台 - TSearcher

热词查询优化自定义打分公式排序

Dump 导入提速

搜索大翻页查询改造

空间地理搜索

其他优化

Page 27: 一站式搜索服务平台 - TSearcher

IndexSet

.META

Indexlet ……

Indexlet

Indexlet

Indexlet

……

IndexConfig IndexSchema

Indexs

通讯层( HSF 、 HTTP 、 webService 、 RPC )Query Parser

Query RouterSearche

rSearcher

Reader

Jvm Cache 堆外 Cache

Reader Cache

Cache

Cache Cache

Index-0 Index-1 Index-2 Index-3 Index-4 Index-5

ClientNode CenterNode HDFS

IndexService

数据层

……

监听

检索层新模型

Page 28: 一站式搜索服务平台 - TSearcher

结束语团队成员新浪微博: @ 金钱松、 @ 淘宝云就、 @ 淘宝洪震、 @ 李雨前、 @淘宝百岁、 @ 笨鸟能先飞吗

产品的未来 开源

Page 29: 一站式搜索服务平台 - TSearcher

Q&A

Page 30: 一站式搜索服务平台 - TSearcher