マイニングブラウニーの場合 (2012-03-01...

34
アマゾン データ サービス ジャパン株式会社 新製品発表会

Upload: -

Post on 14-Jan-2015

1.845 views

Category:

Documents


5 download

DESCRIPTION

アマゾンデータサービスジャパン株式会社 新製品発表会で話したスライド

TRANSCRIPT

Page 1: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

三⽉月⼀一⽇日

アマゾン  データ  サービス  ジャパン株式会社新製品発表会

Page 2: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

インフラでの悩み

代表取締役

得上  ⻯竜⼀一

株式会社

マイニング

ブラウニー

私、

・2006年設⽴立・クローラの開発・運⽤用・リサーチ・テキストマイニング

Page 3: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

インフラでの悩み

Page 4: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

インフラでの悩み

Amazon

EC2

Page 5: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

効率的な

インフラの利⽤用

インフラでの悩み

Amazon

EC2

Page 6: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

効率的な

インフラの利⽤用

インフラでの悩み

Amazon

EC2

AmazonSQS

Page 7: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

⼤大量のデータを

保存できる

データベース

効率的な

インフラの利⽤用

インフラでの悩み

Amazon

EC2

AmazonSQS

Page 8: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

様々なDBの検討

サーバの調達

⼤大量のデータを

保存できる

データベース

効率的な

インフラの利⽤用

インフラでの悩み

Amazon

EC2

AmazonSQS

Page 9: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない様々なDBの検討

Page 10: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない様々なDBの検討

Page 11: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない

システム停⽌止

なしでスケール

できず断念

様々なDBの検討

Page 12: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない

システム停⽌止

なしでスケール

できず断念

様々なDBの検討

Page 13: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない

システム停⽌止

なしでスケール

できず断念

Sharding

+ReplicaSetの

インフラコスト

の⼤大きさで断念

様々なDBの検討

Page 14: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない

システム停⽌止

なしでスケール

できず断念

Sharding

+ReplicaSetの

インフラコスト

の⼤大きさで断念

様々なDBの検討

SimpleDB

Page 15: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラだけではない

システム停⽌止

なしでスケール

できず断念

Sharding

+ReplicaSetの

インフラコスト

の⼤大きさで断念

10Gの容量では

⾜足りず⼀一部で

のみ利⽤用

様々なDBの検討

SimpleDB

Page 16: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

検討を重ねたクローラだけではない

莫⼤大な数の1Kbyte以下の細かいデータ例)「吾輩は猫である」  Size:約700Kbyte⽂文の数:9200単語:14,000種類、250,000単語

テキスト

マイニング

Page 17: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い検討を重ねた

Page 18: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い検討を重ねた

SimpleDB

Page 19: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い1billion個の

レコードでは

⾜足りず

⼀一部での利⽤用に

検討を重ねた

SimpleDB

Page 20: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い1billion個の

レコードでは

⾜足りず

⼀一部での利⽤用に

検討を重ねた

SimpleDB

S3

Page 21: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い1billion個の

レコードでは

⾜足りず

⼀一部での利⽤用に

検索機能の

弱さで断念

検討を重ねた

SimpleDB

S3

Page 22: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い1billion個の

レコードでは

⾜足りず

⼀一部での利⽤用に

検索機能の

弱さで断念

検討を重ねた

SimpleDB

S3

Cassandra

Page 23: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

Dynamoとの出会い1billion個の

レコードでは

⾜足りず

⼀一部での利⽤用に

運⽤用の⼿手間

インフラコスト

の⼤大きさで断念

検索機能の

弱さで断念

検討を重ねた

SimpleDB

S3

Cassandra

Page 24: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

論⽂文Dynamoとの出会い

Page 25: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

この論⽂文に出会ってから論⽂文|Dynamo:Amazonʼ’s  Highly  Available  Key-‑value  Store

Traditionally production systems store their state in relational databases. For many of the more common usage patterns of state persistence, however, a relational database is a solution that is far from ideal. Most of these services only store and retrieve data by primary key and do not require the complex querying and management functionality offered by an RDBMS. This excess functionality requires expensive hardware and highly skilled personnel for its operation, making it a very inefficient solution. In addition, the available replication technologies are limited and typically choose consistency over availability. Although many advances have been made in the recent years, it is still not easy to scale-out databases or use smart partitioning schemes for load balancing.

Page 26: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

そして今⽇日この論⽂文に出会ってから

Page 27: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

そして今⽇日

2007年

この論⽂文に出会ってから

Page 28: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

そして今⽇日

2007年

2008年

この論⽂文に出会ってから

Page 29: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

そして今⽇日

2007年 2009年

2008年

この論⽂文に出会ってから

SimpleDB

Page 30: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

そして今⽇日

2007年 2009年

2008年

この論⽂文に出会ってから

2010年

2011年SimpleDB

Page 31: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

クローラのデータストアそして今⽇日|Amazon  DynamoDBが⽇日本でも使えるようになりました。|⽇日本-‑⽶米国間のレイテンシの問題も解決|  |  |最⾼高のパフォーマンスで使えるようになりました|

Page 32: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

テキストマイニング

mitsubachi

クローラの

PaaS

クローラが

集めたデータの

保存先に

クローラのデータストア

Page 33: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

ビッグデータと共に

hotaru

テキスト

マイニングの

SaaS

テキストマイニ

ングの過程で

発⽣生する⼤大量の

データの処理に

テキストマイニング

Page 34: マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

ビッグデータと共に|この1年でHadoopは当たり前のようになりました。|  |今年ビッグデータと呼ばれる⼤大規模なデータの処理|が今以上に当たり前になってきます。|  |ビッグデータの保存先として、|Amazon  DynamoDBほど適したデータストアは|他にはありません。|