自然言語処理に基づく商品情報の整理および構造化
DESCRIPTION
楽天市場では1億点以上もの商品が販売されており、それら商品とユ ーザを効率良く結びつけ、質の高いShopping experienceを提供するためには、 商品に纏わる情報を整理し構造化することが重要である。しかしながら、現状で は一部の商品についてのみ、人手による整理・構造化がなされているだけであり、 楽天市場の規模を考えると、その自動化は必至である。ここでは、商品情報の構 造化、商品レビューからの情報抽出を中心に、楽天技術研究所で取り組んでいる 自然言語処理に関連した課題および、その解決策について紹介する。TRANSCRIPT
自然言語処理に基づく
商品情報の整理および構造化
2014年3月26日
楽天技術研究所 新里 圭司
トップエスイーシンポジウム2014
2
目次
• 楽天と楽天技術研究所の紹介
• 自然言語処理とは
• 楽天における自然言語処理活用事例
–商品情報の構造化
–レビューからの商品の使用感の抽出
–その他の言語処理タスク
• まとめ
3
楽天株式会社 会社概要
代表取締役会長兼社長 三木谷 浩史
従業員数 単体3,498人,グループ9,311人
設立 1997年2月17日
株式店頭上場 2000年4月19日(ジャスダック)
資本金 1,080億円(2011年12月末現在)
連結売上高 4,434億円(2012年度)
連結営業利益 715億円(2012年度)
楽天市場(eコマース事業)を中核とした,
総合インターネットサービス企業
4
1997 → 2014
創業の理念: Empowerment!日本を元気に
5
画鋲(236 yen)
6
ワイン(1,280 yen)
7
牛肉(12,000 yen)
8
甲冑 - 武田信玄モデル - (1,870,000 yen)
9
楽天グループ(国内)のサービス
E-Commerce Portal and Media
Travel Telecommunications
Finance
Professional Sports
10
楽天グループ(海外)
世界11カ国
ECのみならず電子書籍,動画配信事業も展開
11
楽天技術研究所 (Rakuten Institute of Technology)
楽天の技術戦略の中核を担うR&D部門
学術的なアプローチにより楽天のグロー
バルな成長に貢献する
12
Distributed computing
High performance computing
Multi media processing
User interface
Data mining
Natural language processing
13
分散キーバリューストア(ROMA)
• Rubyにより実装された分散キーバリューストア
• 既に楽天内での20以上のサービスの裏側で基盤として活用
• P2P型
• プラグインの開発が用意
ROMA (key-value store)
14
Webに特化した分散ファイルシステム (LeoFS)
LeoFS-Manager
LeoFS-Gateway w/Cache Server
LeoFS-Storage
REST over HTTP
RPC
Request from Web Application(s)
META Object Store
Storage Engine/Router
META Object Store META Object Store
RPC
Storage Engine/Router Storage Engine/Router
Load Balancer
S3-API
SNMP
WEB Console
15
Augmented Realityによる購買支援 (AR hitoke) https://www.youtube.com/watch?v=73J1YNxTgC8
16
物体認識
自転車
17
ユーザ行動ログ解析に基づく商品カテゴリの絞込み
ワンピース
18
ユーザ行動ログ解析に基づく商品カテゴリの絞込み
ユーザの検索行動の偏りを検知
レディースファッション
ワンピース
メンズファッション
スポーツ・アウトドア
おもちゃ・ホビー・ゲーム
家電
・・・
キッズ・ベビー・マタニティ
Related!
Related!
Related!
レディースファッション
おもちゃ・ホビー・ゲーム
キッズ・ベビー・マタニティ
19
Our goal
Old-fashioned shop owner
Good
morning.
Good morning!
How was the
carrot you got
yesterday?
Today this fresh
lettuce is good. (Recommendation)
Thanks!
20
Our goal
Old-fashioned shop owner
It’s an artichoke. (Object recognition)
You can boil it
and eat it with
mayonnaise. (World knowledge)
Recently, it is very
popular among
young people. (Opinion mining)
I’m looking for the
vegetable in this
photo.
21
実現に向けて必要な技術
Hints from a legendary & successful real market
Understand language
Master his products
Understand the customers
World Knowledge
Recognize image, video
Remember for the future
Manipulate knowledge
Think, inference, analysis
Situation adaptation
Friendly service
NLP
Multi-media
Big Data
Semantic
Big Data
I/F
Artificial Intelligence
Infrastructure
22
目次
• 楽天と楽天技術研究所の紹介
• 自然言語処理とは
• 楽天における自然言語処理活用事例
–商品情報の構造化
–レビューからの商品の使用感の抽出
–その他の言語処理タスク
• まとめ
23
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
24
黒い瞳の大きい女の子
25
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
26
今日,NIIで発表します
• 今日,NIIでプレゼンします
• 今日,NIIで話します
• 今日,NIIでトークします
• 今日,国立情報学研究所で発表します
• 今日,国立情報学研究所でプレゼンします
• 今日,国立情報学研究所で話します
• 今日,国立情報学研究所でトークします
• 本日,NIIで発表します
• 本日,NIIでプレゼンします
• …
27
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
• 幅広い研究トピック
28
研究トピック (NLP2014 CFPより)
A. 言語学・言語分析
(1)音声・音韻 (2)語彙・形態論 (3)統語論 (4)意味論 (5)語用論 (6)計量・コーパス言語学 (7)心理言語学 (8)認知言語学
(9)社会言語学 (10)対照言語学
B. 基盤技術・言語資源
(1)語彙・辞書 (2)形態素解析 (3)構文解析 (4)意味解析
(5)談話解析 (6)固有表現解析 (7)生成 (8)言語資源・コーパス (9)アノテーション (10)含意関係・言い換え (11)知識獲得 (12)文書分類
(13)機械学習 (14)マルチモーダル
C. 応用技術
(1)機械翻訳 (2)情報検索 (3)対話 (4)要約 (5)情報抽出
(6)質問応答 (7)Web応用 (8)テキストマイニング (9)評判・感情解析
(10)音声言語処理 (11)教育応用
29
自然言語処理 (Natural Language Processing, NLP)
• 人工知能の一分野
• 自然言語の機械による理解を目指す
– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)
• 曖昧性と同義性の問題が常につきまとう
– 黒い瞳の大きい女の子
– 今日,NIIで発表します
• 幅広い研究トピック
• 実世界の多くのアプリケーションで使われている
30
機械翻訳 (Google)
http://translate.google.co.jp/
33
34
35
自然言語処理の流れ
• 文分割 (Sentence splitting)
• 形態素解析 (Morphological analysis)
• 構文解析 (Syntactic parsing)
• 格解析 (Case structure analysis)
• 照応省略解析 (Anaphora and ellipsis resolution)
36
文分割
• テキストを文単位に分割
• 句点や記号が手がかり
– 。!?♪★☆●○◎…
– 元モーニング娘。の矢口が復帰するかもしれない。 • HTMLタグも分割の手がかりとして利用
– ブロックタグ (<TABLE>,<DIV>.<H1>,…)
• 日本語においては,共通の文分割ツールはない
37
形態素解析
• 入力文を単語単位に分割し,品詞 (Part-of-Speech,
PoS) 情報を付与する処理
入力: 楽天は品川シーサイドにある。
出力: 楽天
名詞
は
助詞
品川
名詞
シーサイド
名詞
に
助詞
ある
動詞
。
記号
形態素解析器
辞書データ
38
構文解析
• 文中の文節区切りを認識
• 文節間の修飾関係を同定
構文解析器 モデル
入力: 楽天
名詞
は
助詞
品川
名詞
シーサイド
名詞
に
助詞
ある
動詞
。
記号
楽天
名詞
は
助詞
品川
名詞
シーサイド
名詞
に
助詞
ある
動詞
。
記号
出力:
文節
39
格解析
• 文中の格構造を認識する処理
太郎が 双眼鏡で 試合を 見ている。
格 単語
Agent 太郎
Instrument 双眼鏡
Objective 試合
見る
太郎は 球場で 試合を 見ている。
格 単語
Agent 太郎
Location 球場
Objective 試合
見る
40
京大格フレーム
http://reed.kuee.kyoto-u.ac.jp/cf-search/
41
照応省略解析
• 代名詞,指示詞などの照応詞が何を指しているのか特定する処理
• 用言の省略された主語や目的語を補う処理
1) 太郎は本屋で雑誌を買った。
3) 次の日,その雑誌を友達に貸した。
誰が雑誌を貸したのか?
「太郎」は「貸した」の動作主格
2) 家で,彼はその雑誌を読んだ。
42
各処理の性能
• 文分割
• 形態素解析 (98%)
• 構文解析 (90%)
• 格解析 (80 ~ 90%)
• 照応省略解析 (40%)
文書分類
機械翻訳/情報抽出
対話システム
質問応答システム
43
目次
• 楽天と楽天技術研究所の紹介
• 自然言語処理とは
• 楽天における自然言語処理活用事例
–商品情報の構造化
–レビューからの商品の使用感の抽出
–その他の言語処理タスク
• まとめ
44
商品情報の構造化
属性 属性値
色 赤
生産地 イタリア, トスカーナ
ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン
年代 2010
容量 750ml
テキスト 構造化データ
45
楽天市場にある商品データの特徴
• 豊富なデータ量
– 店舗数: 40K+
– 商品数: 100M+
– 商品カテゴリ数:40K+
• ひとつの商品はひとつのカテゴリへ店舗によって紐付けられている
• 商品販売ページの作成方法は店舗によって様々
– Not well organized :-(
46
商品販売ページの例 (ワインカテゴリ)
テーブル
箇条書き
47
商品販売ページの例 (ワインカテゴリ)
テキスト
48
目的
• 構造化されていないテキストから商品情報を自動抽出するシステムの開発
属性 属性値
色 赤
生産地 イタリア, トスカーナ
ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド,
カベルネブラン
年代 2010
容量 750ml
テキスト
(非構造化データ) 構造化データ
49
機械学習
タスク:キノコが食べられるかどうかを判定したい
教師データ
50
機械学習
判定のための手がかり
タスク:キノコが食べられるかどうかを判定したい
教師データ
51
教師データの例(タグ付きコーパス)
• <ぶどう品種>ヴェルメンティーノ</ぶどう品種>をベースに<ぶどう品種>シャルドネ
</ぶどう品種>を配した,樽の香がまろやかな<タイプ>辛口</タイプ>。
• <産地>アルザス</産地>で最も香り豊かと言われるスパイシーで華やかなワイン。
• 最もお手頃で,<生産者>ドメーヌ・ペゴー</生産者>の美味しさを気軽に楽しめる,
とっても嬉しい一本なのです
• <産地>フランス</産地>の庭とも呼ばれる美しい景観を誇る<産地>ロワール地方
</産地>の<色>ロゼ</色>。
• <ぶどう品種>ソーヴィニヨン・ブラン</ぶどう品種>種の特長がよく表れ,はつらつと
した酸味とフルーティーな口あたりを楽しめます。
• 白身魚の塩焼きやシンプルな味付けのソテー,焼き牡蠣,豚のしょうが焼き,ボン
ゴレビアンコなどと。
高コスト!
52
教師なし学習に基づく商品情報抽出
テーブル
箇条書き
53
: <産地, トスカーナ> <品種, シャルドネ> :
知識ベース
知識ベース構築
教師なし学習に基づく商品情報抽出
半構造化データ
54
自動構築した知識ベースの例(ワイン)
ぶどう品種 産地 内容量 生産者 タイプ
シャルドネ (59) フランス (45) 750ML (147) ファルネーゼ (9) 辛口 (34)
メルロー (36) イタリア (30) 720ML (64) マス デ モニストロル (4) 赤 (24)
シラー (29) スペイン (30) 375ML (49) ルロワ (3) 白 (23)
リースリング (29)
チリ (25) 500ML (41) M. シャプティエ (3) フルボディ (23)
グルナッシュ (22)
ボルドー (22) 1500ML (22) マストロベラルディーノ (3)
やや甘口 (15)
サンジョベーゼ (20)
シャンパーニュ (20)
360ML (15) サンテロ (3) 甘口 (14)
メルロ (20) オーストラリア (19) 200ML (13) サルタレッリ (3) やや辛口 (12)
マカベオ (19) アメリカ (16) 3000ML (12) カビッキオーリ (3) ライトボディ (12)
テンプラリーニョ (19)
ドイツ (15) 1800ML (11) フォントディ (3) ミディアム (9)
シラーズ (18) アルゼンチン (13) 1000ML (6) カ ルガーテ (3) ロゼ (8)
55
: <産地, トスカーナ> <品種, シャルドネ> :
知識ベース
知識ベース構築
教師なし学習に基づく商品情報抽出
知識ベースの属性値が
含まれている商品説明文
2011年 アルパ・ キャンティ
こちらはトスカーナ産になります。 ...
半構造化データ
自動アノテーション
56
自動構築されたタグ付きコーパス(ワイン)
• ウ゛ェルメンティーノをベースに<ぶどう品種>シャルドネ</ぶどう品種>を配した,樽
の香がまろやかな<タイプ>辛口</タイプ>。
• <産地>アルザス</産地>で最も香り豊かと言われるスパイシーで華やかなワイン。
• 最もお手頃で,<生産者>ドメーヌ・ペゴー</生産者>の美味しさを気軽に楽しめる,
とっても嬉しい一本なのです
• <産地>フランス</産地>の庭とも呼ばれる美しい景観を誇るロワール地方の<色>
ロゼ</色>。
• <ぶどう品種>ソーヴィニヨン・ブラン</ぶどう品種>種の特長がよく表れ,はつらつと
した酸味とフルーティーな口あたりを楽しめます。
• <タイプ>白</タイプ>身魚の塩焼きやシンプルな味付けのソテー,焼き牡蠣,豚の
しょうが焼き,ボンゴレビアンコなどと。 ?
57
こちらはトスカーナ産になります。 ...
2011年 アルパ・ キャンティ
: <産地, トスカーナ> <品種, シャルドネ> :
知識ベース
知識ベース構築
教師なし学習に基づく商品情報抽出
知識ベースの属性値が
含まれている商品説明文
Rule こちらは x 産 ⇒ x is 産地
抽出ルールの学習
機械学習による属性
値抽出ルールの学習
半構造化データ
自動アノテーション
58
教師なし学習に基づく商品情報抽出
: <産地, トスカーナ> <品種, シャルドネ> :
知識ベース
知識ベース構築
知識ベースの属性値が
含まれている商品説明文
Rule こちらは x 産 ⇒ x is 産地
こちらはトスカーナ産になります。 ...
機械学習による属性
値抽出ルールの学習
半構造化データ
自動アノテーション
2011年 アルパ・ キャンティ
抽出ルールの学習
59
シャトー・ド・プレサック
こちらはボルドー産です。辛口がお好きな方にオススメです。 ...
Rule こちらは x 産 ⇒ x is 産地
教師なし学習に基づく商品情報抽出
ルールの適用
属性 値
産地 ボルドー
生産者 シャトー・ド・プレサック
味わい 辛口
Rule x begin_with シャトー ⇒ x is 生産者
60
Automatic cataloging engine
61
Automatic cataloging engine
62
Automatic cataloging engine
63
レビューからの商品の使用感の抽出
64
背景
• オンラインショッピングでは,触れたり,試したりしてから商品を購入することができない
– ユーザが抱く商品のイメージと実際に届く商品の間に,質感や食感等に関して不一致が生じる
– オンラインショッピングを利用しない理由の1つ
• 商品の使用感に関する記述をレビューから抽出しユーザに提示することで欠点を補う
– 使用感:商品を実際に手にとってみて,または使ってみてどうだったか
– 味わい,質感,香り,効果,効能,着心地など
65
オノマトペ
• 擬態語と擬音語の総称
– ふわふわ,サクサク,しっとり,ぐるんぐるん,ピカッ,etc.
• 物事を直感的に表現する際に便利
– チーズの味がしっかりとして,しっとりした触感も美味しい
– ふわふわのかんじや色合いなど,気に入りました
66
オノマトペを含む文と使用感の関係
カテゴリ 使用感 オノマトペ
ではない
正解率
[%] ○ ×
ワンピース 43 4 3 91.4
シャンプー 43 5 2 89.6
チーズケーキ 39 10 1 79.6
合計 125 19 6 86.8
上のカテゴリにおいて,使用感を記述した文の割合は42.8%
オノマトペを含む文には使用感が記述されやすい
67
仮説
オノマトペを含む文に出現しやすい表現は,
商品の使用感を記述する際に用いられやすい
口に入れたらとろっとして甘酸っぱく,私好みのお味でした。
髪がやわらかくサラサラになった気がします。
68
オノマトペ 単語とスコア
オノマトペを含む文
オノマトペを含まない文
入力:
カテゴリ名 C と
オノマトペ
出力:
スコア付けされた文
カテゴリ C の
商品レビュー
Step3
文のスコアリング
Step2
オノマトペと語の
共起の強さの計算
Step1
レビューの文分割と
オノマトペに基づく分類
提案手法の概要
69
Score 𝑤 = logp 𝑤, 𝑂
p 𝑤 p 𝑂
オノマトペと語の共起の強さの計算
• 名詞,形容詞,動詞を対象にオノマトペとの共起の強さを計算
• 共起の強さ⇒相互情報量
p(O): 任意のオノマトペを含む文の出現確率
p(w): 語wを含む文の出現確率
p(w,O): 任意のオノマトペと語wを共に含む文の出現確率
70
語とそのスコアの例
チーズケーキ シャンプー ワンピース
スコア 単語 スコア 単語 スコア 単語
1.991 感 1.881 ごわごわ 1.941 ゴワゴワ
1.618 重い 1.881 かんじ 1.941 ぶかぶか
1.568 後味 1.881 ギシギシ 1.941 ニット
: : :
0.005 最高 0.001 感想 0.001 ゆう
0.003 十分 0.001 良い 0.000 加工
-0.002 売る -0.004 すき -0.001 切る
: : :
-2.095 親戚 -2.104 無料 -1.704 問い合わせる
-2.133 中元 -2.380 安値 -1.909 キャンセル
-2.195 物産 -2.454 親切 -1.951 雑誌
71
S 𝑠 = Score 𝑤
𝑤∈𝑠
文のスコアリング
• 文を形態素解析し,文に含まれる単語のスコアの総和を文のスコアとする
• オノマトペと共起しやすい語を含む文ほど高いスコアを得る
72
例 (チーズケーキ)
スコア 文
9.270 チーズケーキのとろけるような食感と濃厚な味わい,ブラウニーのナッツの香ばしさとチョコの甘みが濃縮され,どちらもおいしかったです。
5.388 口に入れたらとろっとして甘酸っぱく,私好みのお味でした。
5.064 口の中に入れると香りだけ残してす〜っと溶けていく感じ。
:
0.000 なんじゃこりゃ!
-0.011 3個購入で独り占めしたい気分ですが,仕方がないので家族と食べたいと思います。
-0.043 お土産用にしました。
:
-4.446 北海道物産展で購入したことがあり,とっても大好きです。
-5.050 いつもクリスマスプレゼントを贈ってくれる義兄のお母さんにお中元で贈ってみました。
-5.615 お店のオンラインショッピングでも物産展でも何度も購入し,味はわかっています。
73
例 (シャンプー)
スコア 文
6.380 軽い洗いごごちで,流しやすく,乾かしたあとは髪の毛がふわふわになりました。
5.445 シャンプーは軽くすすぐだけで少し不安でしたがべたつかず良い洗い上がりです。
4.153 髪がやわらかくサラサラになる気がします。
:
0.006 続けていくとよくなるのかな。
0.000 30代です。
-0.036 ロングの私はシャンプーがすぐに無くなります。
:
-7.956 サロン専売品で使いはじめて,ここで安く買える事を知り,それ以来ずっとここで購入させていただいていますが,シーウィードとウィートプロテインはずっと愛用しています。
-12.006 某解析サイトで評価が高い商品の中で,価格的にも買いやすいこちらを更に楽天で検索し,こちらのショップが一番安かったので購入。
74
商品の使用感の伝達
https://www.youtube.com/watch?v=zguh5oDR8tc
75
その他の言語処理タスク
76
誤分類商品の検知
NOISE!
間違った商品ジャンルに登録されている
商品が多数存在.
検索結果等が汚れてしまい,
商品が探しにくくなる.
誤分類された商品を検知して,
正しい商品ジャンルに自動的に
付け替えることが必要.
77
誤分類商品の検知
ボトル
720ml
Japan
おいしい
天狗舞
軽い
Note:
“Tengumai” is a famous Japanese sake (rice wine)
強制語辞書
強制語 (DCW: Definitive Category Words) 知識体系を構築
強制語を利用して,正しい商品ジャンルを推定
商品説明文
から
単語抽出
「天狗舞」⇒
日本酒ジャンル
日本酒ジャンル
78
商品ジャンル誤分類修正の効果
商品ジャンル誤分類を修正することにより,
店舗さんの売り上げが上がることを実証.
店舗A 店舗B
修正 修正
79
英作文支援ツール
80
取り組んでいるその他の自然言語処理タスク
• 形態素解析器の開発
• キーフレーズ抽出
• 商品知識の自動獲得及び人手による整理
• 商品の同一性判定
• …
多言語化が重要!!
81
目次
• 楽天と楽天技術研究所の紹介
• 自然言語処理とは
• 楽天における自然言語処理活用事例
–商品情報の構造化
–レビューからの商品の使用感の抽出
–その他の言語処理タスク
• まとめ
82
まとめ
• 楽天技術研究所で取り組んでいる自然言語処理関連のタスクについて紹介
–商品情報の構造化,レビューからの使用感抽出,誤カテゴリの検知,英作文支援,などなど
Messy data Structured data Old-fashioned
shop owner
83
自然言語処理入門書
• 入門自然言語処理
• 岩波講座ソフトウェア科学(15) 自然言語処理
• 言語処理学事典
• 言語処理100本ノック – http://www.cl.ecei.tohoku.ac.jp/index.php?%E8%A8%80%E8%AA%9E%E5%87%
A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF
Recommended