vector wise presen

21
Ingres VectorWise Technical Overview – 21 Jun 2011

Upload: kensuke-saeki

Post on 15-Dec-2014

1.249 views

Category:

Technology


3 download

DESCRIPTION

「日本JasperServerユーザ会(JJSUG)第7回勉強会」「分析用DB Ingres VectorWiseについて(野田)」の資料です。

TRANSCRIPT

Page 1: Vector wise presen

Ingres VectorWiseTechnical Overview – 21 Jun 2011

Page 2: Vector wise presen

アジェンダ

© 2010 Ingres Corporation Slide 2

Ingres VectorWise

とは?

Ingres VectorWise

の特徴

Ingres VectorWise

の技術Q & A

Page 3: Vector wise presen

Ingres VectorWise とは?

分析・解析用のリレーショナル・データベース– 分析のための問合せが他の RDBMS より高速– 最近の CPU の持つ能力を最大限発揮– 安価な汎用サーバーで動作

© 2010 Ingres Corporation Slide 3

10倍 – 70倍の性能向上

Page 4: Vector wise presen

Ingres VectorWise アーキテクチャ

© 2010 Ingres Corporation Slide 4

ERP

CRM

SCM

レガシー

OLTP

ET

L企業向け

データウェアハウス

データマート

BI、レポートアプリケーション

分析DB

エンドユーザ

アドホック検索ダッシュボード

統計データマイニング

分析

Page 5: Vector wise presen

Ingres VectorWise の特徴

特徴– 最近の CPU が持つ機能をフルに活用

• 自動的なベクトル処理で解凍、結合、計算• CPU のキャッシュを RAM として使用

– 更新可能なカラム毎の格納方式 実証されている技術

– カラム毎の格納方式– 自動的な圧縮– 自動的な格納インデックス

© 2010 Ingres Corporation Slide 5

Page 6: Vector wise presen

Ingres VectorWise データ処理の比較

© 2010 Ingres Corporation Slide 6

O 社 DBMS (行ごと格納) 200 MB/s – コアあたりのデータ処理スループット。 CPU に依存。(http://download.oracle.com/docs/cd/E11882_01/server.112/e10578/tdpdw_system.htm#CHDHAEGE)H 社 DBMS (行ごと格納) 150 MB/s – コアあたりのデータ処理スループット。(http://www.wintercorp.com/whitepapers/whitepapers.asp)Ingres VectorWise (カラム毎の格納) 1.5 GB/s – コアあたりのデータ処理スループット。

O 社 H 社 Ingres VectorWise0

200

400

600

800

1000

1200

1400

1600

CPU コアあたりのデータ処理スループット

MB

/S

Page 7: Vector wise presen

データ処理性能の例

検索条件 O 社 H 社 Ingres VectorWise

アーキテクチャ(行/カラム) 行 行 カラム

データをスキャンする量 (GB) 100 100 (0.2 * 100 =) 20

コアあたりの処理 (MB/s) 200 150 1500

検索時間(秒)並列処理なし 500 667 13

13 秒で処理するために必要なコア数 * 38 51 1

© 2010 Ingres Corporation Slide 7

シナリオ – 1 テーブルでカラムが 10 あり、各カラムは、テーブル

の 1/10 のサイズ– テーブルサイズは、 100GB

select <c1>, sum <c2> from <table> group by <c1>

* リニアーなスケーラビリティを仮定

Page 8: Vector wise presen

高速化で、より良い分析

即時にインタラクティブにデータを分析– 時間をかかるデータ準備作業が不要

より多くのデータを分析 よりデータを活用

– より多くのユーザがデータを分析– より多くのアプリケーションからデータをアクセス

© 2010 Ingres Corporation Slide 8

Page 9: Vector wise presen

より廉価なコストで高速に結果

高速なデータベース設計– 特別なエキスパートがスキーマを設計する必要なし– インデックス設計やマテリアライズドビュー、投影など

が必要なし 継続的なチューニングが不要 安価な x86 ベースの汎用サーバー・ PC で動作

– 1 CPU で 20CPU 以上の作業をこなす– 単一のサーバで複雑な複数ノードのクラスターを超える

• 運用や空調のエネルギー使用・コストを低減• メンテナンスコストを低減し、故障も少なくなる

© 2010 Ingres Corporation Slide 9

Page 10: Vector wise presen

Ingres Business Intelligence Partners

© 2010 Ingres Corporation Slide 10

Page 11: Vector wise presen

Ingres VectorWise の実績

The Rohatyn Group : ニューヨークにあるヘッジファンド企業( http://www.ingres.com/images/success_stories/success_story_rohatyn_group.pdf )

イギリスにあるトップクラスの銀行 イギリスにあるトップクラスの大学 ニューヨークにある B2C の E コマース企業 カナダにある電話会社 ポーランドにあるソーシャルネットワークサービス企業 フィリピンにある政府系金融企業 オーストラリアにある航空会社

© 2010 Ingres Corporation Slide 11

2011/3 時点

Page 13: Vector wise presen

Ingres VectorWise の技術

© 2010 Ingres Corporation Slide 13

Page 14: Vector wise presen

自動的にベクトル処理を活用

単一の命令で、何個ものデータを処理

© 2010 Ingres Corporation Slide 14

Many V’s

1

=

1 x 1 = 1

2 x 2 = 4

3 x 3 = 9

4 x 4 = 16

5 x 5 = 25

6 x 6 = 36

7 x 7 = 49

8 x 8 = 64

.

.

.

n x n = n2

1 x 1

2 x 2

3 x 3

4 x 4

5 x 5

6 x 6

7 x 7

8 x 8

.

.

.

n x n

1

4

9

16

25

36

49

64

.

.

.

n2

SSE (ストリーミング SIMD 拡張命令)16 個の 128bit のレジスタ (Intel Sandy Bridge は 256bit)* 32bit float * 4* 16bit integer * 8* 8bit byte/char * 16 etc.*加減算、積除算、比較、最大最小など*文字列の処理で SSE4.2 が効果大 ( GROUP BY や LIKE など)

SSE2 は Pentium 4, AMD64 以降SSE3 は後期 Pentium 4, 後期 Athlon64 以降SSE4 は後期 Core2 以降

Page 15: Vector wise presen

CPU キャッシュ内で処理

CPU キャッシュのアクセスは、 RAM より非常に高速 すべてのベクトルが CPU キャッシュ内に収まるように

問合せの実行プランを作成

© 2010 Ingres Corporation Slide 15

Tim

e / C

ycle

s t

o P

roce

ss

Data Processed

DISK

RAM

CHIP

10GB2-3GB40-100MB

2-2

01

50-

25

0M

illio

ns

アクセスタイム

転送スピード(毎秒)

DISK 10-15ms 40-100MB

RAM 150-200ns 2-3GB

Cache 2-20ns 10GB

CPU キャッシュサイズ

Xeon 512KB/1-2MB

Xeon 50X0 4MB

Xeon 33X0 8 – 12MB

Xeon 75XX 12 – 24MB

Page 16: Vector wise presen

更新可能なカラム毎の格納方式 必要なデータだけにアクセス 効率的な”増分更新”が可能

– 以前のカラム毎の格納方式では、弱点だった

© 2010 Ingres Corporation Slide 16

Cust_Num Cust_surname

Cust_first_name

Cust_mid_name

Cust_DOB Cust_Sex Cust_Add_1 Cust_Addr_2 Cust_City Cust_State

46328927956 Jones Steven Sean 17-JAN-1971 M 333 StKilda Rd

Melbourne Vic

98679975745 Smith Leonard Patrick 04-APR-1964 M Unit 12, 147 Trafalgar Sqr

Birmingham London

52634346735 Rogers Cindy Carmine 11-MAR-1980 F Belmont Rail Service

421 Station St Belmont CA

346737347347 Andrews Jenny 14-SEP-1977 F Apt1, 117 West 42nd St

New York NY

88673477347 Cooper Sheldon Michael 30-JUN-1980 M Ingres Corporation

Level 2, 426 Argello St

Redwood City CA

34673447568 Kollwitz Rolf 22-DEC-1975 M IBM Headquarters

123 Mount View Crs

Atlantic City PN

99554443044 Wong Penny Lee 13-NOV-1981 F Ming On Tower 1

1777 Moa Tzu Tung Rd

Ming Now Province

Shanghi

Page 17: Vector wise presen

自動的な圧縮と解凍

複数のアルゴリズムを使ってカラム毎に圧縮– 最適なものを Ingres VectorWise が自動的に使用

解凍はベクトル処理– CPU キャッシュ中でデータ処理

© 2010 Ingres Corporation Slide 17

RAM

カラムバッファ

管理

Disk

カラ

CPU

キャッシュ

解凍

RAM への書き込み・読み込みを削減

I/O スループットを最大化

CPU キャッシュ中に解凍し格納

Page 18: Vector wise presen

自動的な最小値 / 最大値の作成

いつでも自動的に作成 自動的にメンテナンス データブロックごとに、最小値 / 最大値を維持

– 小さく、読み込みも速い(カラムサイズの 0.1% 以下)

候補となるデータブロックを効率よく見つけることが可能になる

© 2010 Ingres Corporation Slide 18

Page 19: Vector wise presen

TPC-H ベンチマーク

性能で Ingres VectorWise が Non Clustered で NO. 1 (2011/6/15 現在 )– 303,290 QphH@100GB – 400,932 QphH@300GB– 436,789 QphH@1000GB

コストパフォーマンスで Ingres VectorWise が Non Clustered でNo. 1 (2011/6/15 現在 )– 0.16 USD per QphH@100GB– 0.35 USD per QphH@300GB– 0.88 USD per QphH@1000GB

© 2010 Ingres Corporation Slide 19

TPC-H ベンチマークとは( http://www.tpc.org より引用)The TPC Benchmark™H (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. The queries and the data populating the database have been chosen to have broad industry-wide relevance. This benchmark illustrates decision support systems that examine large volumes of data, execute queries with a high degree of complexity, and give answers to critical business questions.

Page 20: Vector wise presen

TPC-H ベンチマーク比較

© 2010 Ingres Corporation Slide 20

Page 21: Vector wise presen

Slide 21