自然言語処理に基づく商品情報の整理および構造化

83
自然言語処理に基づく 商品情報の整理および構造化 2014326楽天技術研究所 新里 圭司 トップエスイーシンポジウム2014

Upload: rakuten-inc

Post on 31-Oct-2014

10 views

Category:

Technology


2 download

DESCRIPTION

楽天市場では1億点以上もの商品が販売されており、それら商品とユ ーザを効率良く結びつけ、質の高いShopping experienceを提供するためには、 商品に纏わる情報を整理し構造化することが重要である。しかしながら、現状で は一部の商品についてのみ、人手による整理・構造化がなされているだけであり、 楽天市場の規模を考えると、その自動化は必至である。ここでは、商品情報の構 造化、商品レビューからの情報抽出を中心に、楽天技術研究所で取り組んでいる 自然言語処理に関連した課題および、その解決策について紹介する。

TRANSCRIPT

Page 1: 自然言語処理に基づく商品情報の整理および構造化

自然言語処理に基づく

商品情報の整理および構造化

2014年3月26日

楽天技術研究所 新里 圭司

トップエスイーシンポジウム2014

Page 2: 自然言語処理に基づく商品情報の整理および構造化

2

目次

• 楽天と楽天技術研究所の紹介

• 自然言語処理とは

• 楽天における自然言語処理活用事例

–商品情報の構造化

–レビューからの商品の使用感の抽出

–その他の言語処理タスク

• まとめ

Page 3: 自然言語処理に基づく商品情報の整理および構造化

3

楽天株式会社 会社概要

代表取締役会長兼社長 三木谷 浩史

従業員数 単体3,498人,グループ9,311人

設立 1997年2月17日

株式店頭上場 2000年4月19日(ジャスダック)

資本金 1,080億円(2011年12月末現在)

連結売上高 4,434億円(2012年度)

連結営業利益 715億円(2012年度)

楽天市場(eコマース事業)を中核とした,

総合インターネットサービス企業

Page 4: 自然言語処理に基づく商品情報の整理および構造化

4

1997 → 2014

創業の理念: Empowerment!日本を元気に

Page 5: 自然言語処理に基づく商品情報の整理および構造化

5

画鋲(236 yen)

Page 6: 自然言語処理に基づく商品情報の整理および構造化

6

ワイン(1,280 yen)

Page 7: 自然言語処理に基づく商品情報の整理および構造化

7

牛肉(12,000 yen)

Page 8: 自然言語処理に基づく商品情報の整理および構造化

8

甲冑 - 武田信玄モデル - (1,870,000 yen)

Page 10: 自然言語処理に基づく商品情報の整理および構造化

10

楽天グループ(海外)

世界11カ国

ECのみならず電子書籍,動画配信事業も展開

Page 11: 自然言語処理に基づく商品情報の整理および構造化

11

楽天技術研究所 (Rakuten Institute of Technology)

楽天の技術戦略の中核を担うR&D部門

学術的なアプローチにより楽天のグロー

バルな成長に貢献する

Page 12: 自然言語処理に基づく商品情報の整理および構造化

12

Distributed computing

High performance computing

Multi media processing

User interface

Data mining

Natural language processing

Page 13: 自然言語処理に基づく商品情報の整理および構造化

13

分散キーバリューストア(ROMA)

• Rubyにより実装された分散キーバリューストア

• 既に楽天内での20以上のサービスの裏側で基盤として活用

• P2P型

• プラグインの開発が用意

ROMA (key-value store)

Page 14: 自然言語処理に基づく商品情報の整理および構造化

14

Webに特化した分散ファイルシステム (LeoFS)

LeoFS-Manager

LeoFS-Gateway w/Cache Server

LeoFS-Storage

REST over HTTP

RPC

Request from Web Application(s)

META Object Store

Storage Engine/Router

META Object Store META Object Store

RPC

Storage Engine/Router Storage Engine/Router

Load Balancer

S3-API

SNMP

WEB Console

Page 15: 自然言語処理に基づく商品情報の整理および構造化

15

Augmented Realityによる購買支援 (AR hitoke) https://www.youtube.com/watch?v=73J1YNxTgC8

Page 16: 自然言語処理に基づく商品情報の整理および構造化

16

物体認識

自転車

Page 17: 自然言語処理に基づく商品情報の整理および構造化

17

ユーザ行動ログ解析に基づく商品カテゴリの絞込み

ワンピース

Page 18: 自然言語処理に基づく商品情報の整理および構造化

18

ユーザ行動ログ解析に基づく商品カテゴリの絞込み

ユーザの検索行動の偏りを検知

レディースファッション

ワンピース

メンズファッション

スポーツ・アウトドア

おもちゃ・ホビー・ゲーム

家電

・・・

キッズ・ベビー・マタニティ

Related!

Related!

Related!

レディースファッション

おもちゃ・ホビー・ゲーム

キッズ・ベビー・マタニティ

Page 19: 自然言語処理に基づく商品情報の整理および構造化

19

Our goal

Old-fashioned shop owner

Good

morning.

Good morning!

How was the

carrot you got

yesterday?

Today this fresh

lettuce is good. (Recommendation)

Thanks!

Page 20: 自然言語処理に基づく商品情報の整理および構造化

20

Our goal

Old-fashioned shop owner

It’s an artichoke. (Object recognition)

You can boil it

and eat it with

mayonnaise. (World knowledge)

Recently, it is very

popular among

young people. (Opinion mining)

I’m looking for the

vegetable in this

photo.

Page 21: 自然言語処理に基づく商品情報の整理および構造化

21

実現に向けて必要な技術

Hints from a legendary & successful real market

Understand language

Master his products

Understand the customers

World Knowledge

Recognize image, video

Remember for the future

Manipulate knowledge

Think, inference, analysis

Situation adaptation

Friendly service

NLP

Multi-media

Big Data

Semantic

Big Data

I/F

Artificial Intelligence

Infrastructure

Page 22: 自然言語処理に基づく商品情報の整理および構造化

22

目次

• 楽天と楽天技術研究所の紹介

• 自然言語処理とは

• 楽天における自然言語処理活用事例

–商品情報の構造化

–レビューからの商品の使用感の抽出

–その他の言語処理タスク

• まとめ

Page 23: 自然言語処理に基づく商品情報の整理および構造化

23

自然言語処理 (Natural Language Processing, NLP)

• 人工知能の一分野

• 自然言語の機械による理解を目指す

– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)

• 曖昧性と同義性の問題が常につきまとう

– 黒い瞳の大きい女の子

Page 24: 自然言語処理に基づく商品情報の整理および構造化

24

黒い瞳の大きい女の子

Page 25: 自然言語処理に基づく商品情報の整理および構造化

25

自然言語処理 (Natural Language Processing, NLP)

• 人工知能の一分野

• 自然言語の機械による理解を目指す

– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)

• 曖昧性と同義性の問題が常につきまとう

– 黒い瞳の大きい女の子

– 今日,NIIで発表します

Page 26: 自然言語処理に基づく商品情報の整理および構造化

26

今日,NIIで発表します

• 今日,NIIでプレゼンします

• 今日,NIIで話します

• 今日,NIIでトークします

• 今日,国立情報学研究所で発表します

• 今日,国立情報学研究所でプレゼンします

• 今日,国立情報学研究所で話します

• 今日,国立情報学研究所でトークします

• 本日,NIIで発表します

• 本日,NIIでプレゼンします

• …

Page 27: 自然言語処理に基づく商品情報の整理および構造化

27

自然言語処理 (Natural Language Processing, NLP)

• 人工知能の一分野

• 自然言語の機械による理解を目指す

– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)

• 曖昧性と同義性の問題が常につきまとう

– 黒い瞳の大きい女の子

– 今日,NIIで発表します

• 幅広い研究トピック

Page 28: 自然言語処理に基づく商品情報の整理および構造化

28

研究トピック (NLP2014 CFPより)

A. 言語学・言語分析

(1)音声・音韻 (2)語彙・形態論 (3)統語論 (4)意味論 (5)語用論 (6)計量・コーパス言語学 (7)心理言語学 (8)認知言語学

(9)社会言語学 (10)対照言語学

B. 基盤技術・言語資源

(1)語彙・辞書 (2)形態素解析 (3)構文解析 (4)意味解析

(5)談話解析 (6)固有表現解析 (7)生成 (8)言語資源・コーパス (9)アノテーション (10)含意関係・言い換え (11)知識獲得 (12)文書分類

(13)機械学習 (14)マルチモーダル

C. 応用技術

(1)機械翻訳 (2)情報検索 (3)対話 (4)要約 (5)情報抽出

(6)質問応答 (7)Web応用 (8)テキストマイニング (9)評判・感情解析

(10)音声言語処理 (11)教育応用

Page 29: 自然言語処理に基づく商品情報の整理および構造化

29

自然言語処理 (Natural Language Processing, NLP)

• 人工知能の一分野

• 自然言語の機械による理解を目指す

– テキスト内の情報の構造化 (誰/いつ/どこで/何を/どうした)

• 曖昧性と同義性の問題が常につきまとう

– 黒い瞳の大きい女の子

– 今日,NIIで発表します

• 幅広い研究トピック

• 実世界の多くのアプリケーションで使われている

Page 30: 自然言語処理に基づく商品情報の整理および構造化

30

機械翻訳 (Google)

http://translate.google.co.jp/

Page 31: 自然言語処理に基づく商品情報の整理および構造化

31

対話システム(IKEA) http://www.ikea.com/us/en/

Page 32: 自然言語処理に基づく商品情報の整理および構造化

32

テキストマイニング (エスエス製薬) http://kazemiru.jp/

Page 33: 自然言語処理に基づく商品情報の整理および構造化

33

Page 34: 自然言語処理に基づく商品情報の整理および構造化

34

Page 35: 自然言語処理に基づく商品情報の整理および構造化

35

自然言語処理の流れ

• 文分割 (Sentence splitting)

• 形態素解析 (Morphological analysis)

• 構文解析 (Syntactic parsing)

• 格解析 (Case structure analysis)

• 照応省略解析 (Anaphora and ellipsis resolution)

Page 36: 自然言語処理に基づく商品情報の整理および構造化

36

文分割

• テキストを文単位に分割

• 句点や記号が手がかり

– 。!?♪★☆●○◎…

– 元モーニング娘。の矢口が復帰するかもしれない。 • HTMLタグも分割の手がかりとして利用

– ブロックタグ (<TABLE>,<DIV>.<H1>,…)

• 日本語においては,共通の文分割ツールはない

Page 37: 自然言語処理に基づく商品情報の整理および構造化

37

形態素解析

• 入力文を単語単位に分割し,品詞 (Part-of-Speech,

PoS) 情報を付与する処理

入力: 楽天は品川シーサイドにある。

出力: 楽天

名詞

助詞

品川

名詞

シーサイド

名詞

助詞

ある

動詞

記号

形態素解析器

辞書データ

Page 38: 自然言語処理に基づく商品情報の整理および構造化

38

構文解析

• 文中の文節区切りを認識

• 文節間の修飾関係を同定

構文解析器 モデル

入力: 楽天

名詞

助詞

品川

名詞

シーサイド

名詞

助詞

ある

動詞

記号

楽天

名詞

助詞

品川

名詞

シーサイド

名詞

助詞

ある

動詞

記号

出力:

文節

Page 39: 自然言語処理に基づく商品情報の整理および構造化

39

格解析

• 文中の格構造を認識する処理

太郎が 双眼鏡で 試合を 見ている。

格 単語

Agent 太郎

Instrument 双眼鏡

Objective 試合

見る

太郎は 球場で 試合を 見ている。

格 単語

Agent 太郎

Location 球場

Objective 試合

見る

Page 41: 自然言語処理に基づく商品情報の整理および構造化

41

照応省略解析

• 代名詞,指示詞などの照応詞が何を指しているのか特定する処理

• 用言の省略された主語や目的語を補う処理

1) 太郎は本屋で雑誌を買った。

3) 次の日,その雑誌を友達に貸した。

誰が雑誌を貸したのか?

「太郎」は「貸した」の動作主格

2) 家で,彼はその雑誌を読んだ。

Page 42: 自然言語処理に基づく商品情報の整理および構造化

42

各処理の性能

• 文分割

• 形態素解析 (98%)

• 構文解析 (90%)

• 格解析 (80 ~ 90%)

• 照応省略解析 (40%)

文書分類

機械翻訳/情報抽出

対話システム

質問応答システム

Page 43: 自然言語処理に基づく商品情報の整理および構造化

43

目次

• 楽天と楽天技術研究所の紹介

• 自然言語処理とは

• 楽天における自然言語処理活用事例

–商品情報の構造化

–レビューからの商品の使用感の抽出

–その他の言語処理タスク

• まとめ

Page 44: 自然言語処理に基づく商品情報の整理および構造化

44

商品情報の構造化

属性 属性値

色 赤

生産地 イタリア, トスカーナ

ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド, カベルネブラン

年代 2010

容量 750ml

テキスト 構造化データ

Page 45: 自然言語処理に基づく商品情報の整理および構造化

45

楽天市場にある商品データの特徴

• 豊富なデータ量

– 店舗数: 40K+

– 商品数: 100M+

– 商品カテゴリ数:40K+

• ひとつの商品はひとつのカテゴリへ店舗によって紐付けられている

• 商品販売ページの作成方法は店舗によって様々

– Not well organized :-(

Page 46: 自然言語処理に基づく商品情報の整理および構造化

46

商品販売ページの例 (ワインカテゴリ)

テーブル

箇条書き

Page 47: 自然言語処理に基づく商品情報の整理および構造化

47

商品販売ページの例 (ワインカテゴリ)

テキスト

Page 48: 自然言語処理に基づく商品情報の整理および構造化

48

目的

• 構造化されていないテキストから商品情報を自動抽出するシステムの開発

属性 属性値

色 赤

生産地 イタリア, トスカーナ

ブドウ品種 メルロー, カベルネソービニヨン, プティヴェルド,

カベルネブラン

年代 2010

容量 750ml

テキスト

(非構造化データ) 構造化データ

Page 49: 自然言語処理に基づく商品情報の整理および構造化

49

機械学習

タスク:キノコが食べられるかどうかを判定したい

教師データ

Page 50: 自然言語処理に基づく商品情報の整理および構造化

50

機械学習

判定のための手がかり

タスク:キノコが食べられるかどうかを判定したい

教師データ

Page 51: 自然言語処理に基づく商品情報の整理および構造化

51

教師データの例(タグ付きコーパス)

• <ぶどう品種>ヴェルメンティーノ</ぶどう品種>をベースに<ぶどう品種>シャルドネ

</ぶどう品種>を配した,樽の香がまろやかな<タイプ>辛口</タイプ>。

• <産地>アルザス</産地>で最も香り豊かと言われるスパイシーで華やかなワイン。

• 最もお手頃で,<生産者>ドメーヌ・ペゴー</生産者>の美味しさを気軽に楽しめる,

とっても嬉しい一本なのです

• <産地>フランス</産地>の庭とも呼ばれる美しい景観を誇る<産地>ロワール地方

</産地>の<色>ロゼ</色>。

• <ぶどう品種>ソーヴィニヨン・ブラン</ぶどう品種>種の特長がよく表れ,はつらつと

した酸味とフルーティーな口あたりを楽しめます。

• 白身魚の塩焼きやシンプルな味付けのソテー,焼き牡蠣,豚のしょうが焼き,ボン

ゴレビアンコなどと。

高コスト!

Page 52: 自然言語処理に基づく商品情報の整理および構造化

52

教師なし学習に基づく商品情報抽出

テーブル

箇条書き

Page 53: 自然言語処理に基づく商品情報の整理および構造化

53

: <産地, トスカーナ> <品種, シャルドネ> :

知識ベース

知識ベース構築

教師なし学習に基づく商品情報抽出

半構造化データ

Page 54: 自然言語処理に基づく商品情報の整理および構造化

54

自動構築した知識ベースの例(ワイン)

ぶどう品種 産地 内容量 生産者 タイプ

シャルドネ (59) フランス (45) 750ML (147) ファルネーゼ (9) 辛口 (34)

メルロー (36) イタリア (30) 720ML (64) マス デ モニストロル (4) 赤 (24)

シラー (29) スペイン (30) 375ML (49) ルロワ (3) 白 (23)

リースリング (29)

チリ (25) 500ML (41) M. シャプティエ (3) フルボディ (23)

グルナッシュ (22)

ボルドー (22) 1500ML (22) マストロベラルディーノ (3)

やや甘口 (15)

サンジョベーゼ (20)

シャンパーニュ (20)

360ML (15) サンテロ (3) 甘口 (14)

メルロ (20) オーストラリア (19) 200ML (13) サルタレッリ (3) やや辛口 (12)

マカベオ (19) アメリカ (16) 3000ML (12) カビッキオーリ (3) ライトボディ (12)

テンプラリーニョ (19)

ドイツ (15) 1800ML (11) フォントディ (3) ミディアム (9)

シラーズ (18) アルゼンチン (13) 1000ML (6) カ ルガーテ (3) ロゼ (8)

Page 55: 自然言語処理に基づく商品情報の整理および構造化

55

: <産地, トスカーナ> <品種, シャルドネ> :

知識ベース

知識ベース構築

教師なし学習に基づく商品情報抽出

知識ベースの属性値が

含まれている商品説明文

2011年 アルパ・ キャンティ

こちらはトスカーナ産になります。 ...

半構造化データ

自動アノテーション

Page 56: 自然言語処理に基づく商品情報の整理および構造化

56

自動構築されたタグ付きコーパス(ワイン)

• ウ゛ェルメンティーノをベースに<ぶどう品種>シャルドネ</ぶどう品種>を配した,樽

の香がまろやかな<タイプ>辛口</タイプ>。

• <産地>アルザス</産地>で最も香り豊かと言われるスパイシーで華やかなワイン。

• 最もお手頃で,<生産者>ドメーヌ・ペゴー</生産者>の美味しさを気軽に楽しめる,

とっても嬉しい一本なのです

• <産地>フランス</産地>の庭とも呼ばれる美しい景観を誇るロワール地方の<色>

ロゼ</色>。

• <ぶどう品種>ソーヴィニヨン・ブラン</ぶどう品種>種の特長がよく表れ,はつらつと

した酸味とフルーティーな口あたりを楽しめます。

• <タイプ>白</タイプ>身魚の塩焼きやシンプルな味付けのソテー,焼き牡蠣,豚の

しょうが焼き,ボンゴレビアンコなどと。 ?

Page 57: 自然言語処理に基づく商品情報の整理および構造化

57

こちらはトスカーナ産になります。 ...

2011年 アルパ・ キャンティ

: <産地, トスカーナ> <品種, シャルドネ> :

知識ベース

知識ベース構築

教師なし学習に基づく商品情報抽出

知識ベースの属性値が

含まれている商品説明文

Rule こちらは x 産 ⇒ x is 産地

抽出ルールの学習

機械学習による属性

値抽出ルールの学習

半構造化データ

自動アノテーション

Page 58: 自然言語処理に基づく商品情報の整理および構造化

58

教師なし学習に基づく商品情報抽出

: <産地, トスカーナ> <品種, シャルドネ> :

知識ベース

知識ベース構築

知識ベースの属性値が

含まれている商品説明文

Rule こちらは x 産 ⇒ x is 産地

こちらはトスカーナ産になります。 ...

機械学習による属性

値抽出ルールの学習

半構造化データ

自動アノテーション

2011年 アルパ・ キャンティ

抽出ルールの学習

Page 59: 自然言語処理に基づく商品情報の整理および構造化

59

シャトー・ド・プレサック

こちらはボルドー産です。辛口がお好きな方にオススメです。 ...

Rule こちらは x 産 ⇒ x is 産地

教師なし学習に基づく商品情報抽出

ルールの適用

属性 値

産地 ボルドー

生産者 シャトー・ド・プレサック

味わい 辛口

Rule x begin_with シャトー ⇒ x is 生産者

Page 60: 自然言語処理に基づく商品情報の整理および構造化

60

Automatic cataloging engine

Page 61: 自然言語処理に基づく商品情報の整理および構造化

61

Automatic cataloging engine

Page 62: 自然言語処理に基づく商品情報の整理および構造化

62

Automatic cataloging engine

Page 63: 自然言語処理に基づく商品情報の整理および構造化

63

レビューからの商品の使用感の抽出

Page 64: 自然言語処理に基づく商品情報の整理および構造化

64

背景

• オンラインショッピングでは,触れたり,試したりしてから商品を購入することができない

– ユーザが抱く商品のイメージと実際に届く商品の間に,質感や食感等に関して不一致が生じる

– オンラインショッピングを利用しない理由の1つ

• 商品の使用感に関する記述をレビューから抽出しユーザに提示することで欠点を補う

– 使用感:商品を実際に手にとってみて,または使ってみてどうだったか

– 味わい,質感,香り,効果,効能,着心地など

Page 65: 自然言語処理に基づく商品情報の整理および構造化

65

オノマトペ

• 擬態語と擬音語の総称

– ふわふわ,サクサク,しっとり,ぐるんぐるん,ピカッ,etc.

• 物事を直感的に表現する際に便利

– チーズの味がしっかりとして,しっとりした触感も美味しい

– ふわふわのかんじや色合いなど,気に入りました

Page 66: 自然言語処理に基づく商品情報の整理および構造化

66

オノマトペを含む文と使用感の関係

カテゴリ 使用感 オノマトペ

ではない

正解率

[%] ○ ×

ワンピース 43 4 3 91.4

シャンプー 43 5 2 89.6

チーズケーキ 39 10 1 79.6

合計 125 19 6 86.8

上のカテゴリにおいて,使用感を記述した文の割合は42.8%

オノマトペを含む文には使用感が記述されやすい

Page 67: 自然言語処理に基づく商品情報の整理および構造化

67

仮説

オノマトペを含む文に出現しやすい表現は,

商品の使用感を記述する際に用いられやすい

口に入れたらとろっとして甘酸っぱく,私好みのお味でした。

髪がやわらかくサラサラになった気がします。

Page 68: 自然言語処理に基づく商品情報の整理および構造化

68

オノマトペ 単語とスコア

オノマトペを含む文

オノマトペを含まない文

入力:

カテゴリ名 C と

オノマトペ

出力:

スコア付けされた文

カテゴリ C の

商品レビュー

Step3

文のスコアリング

Step2

オノマトペと語の

共起の強さの計算

Step1

レビューの文分割と

オノマトペに基づく分類

提案手法の概要

Page 69: 自然言語処理に基づく商品情報の整理および構造化

69

Score 𝑤 = logp 𝑤, 𝑂

p 𝑤 p 𝑂

オノマトペと語の共起の強さの計算

• 名詞,形容詞,動詞を対象にオノマトペとの共起の強さを計算

• 共起の強さ⇒相互情報量

p(O): 任意のオノマトペを含む文の出現確率

p(w): 語wを含む文の出現確率

p(w,O): 任意のオノマトペと語wを共に含む文の出現確率

Page 70: 自然言語処理に基づく商品情報の整理および構造化

70

語とそのスコアの例

チーズケーキ シャンプー ワンピース

スコア 単語 スコア 単語 スコア 単語

1.991 感 1.881 ごわごわ 1.941 ゴワゴワ

1.618 重い 1.881 かんじ 1.941 ぶかぶか

1.568 後味 1.881 ギシギシ 1.941 ニット

: : :

0.005 最高 0.001 感想 0.001 ゆう

0.003 十分 0.001 良い 0.000 加工

-0.002 売る -0.004 すき -0.001 切る

: : :

-2.095 親戚 -2.104 無料 -1.704 問い合わせる

-2.133 中元 -2.380 安値 -1.909 キャンセル

-2.195 物産 -2.454 親切 -1.951 雑誌

Page 71: 自然言語処理に基づく商品情報の整理および構造化

71

S 𝑠 = Score 𝑤

𝑤∈𝑠

文のスコアリング

• 文を形態素解析し,文に含まれる単語のスコアの総和を文のスコアとする

• オノマトペと共起しやすい語を含む文ほど高いスコアを得る

Page 72: 自然言語処理に基づく商品情報の整理および構造化

72

例 (チーズケーキ)

スコア 文

9.270 チーズケーキのとろけるような食感と濃厚な味わい,ブラウニーのナッツの香ばしさとチョコの甘みが濃縮され,どちらもおいしかったです。

5.388 口に入れたらとろっとして甘酸っぱく,私好みのお味でした。

5.064 口の中に入れると香りだけ残してす〜っと溶けていく感じ。

:

0.000 なんじゃこりゃ!

-0.011 3個購入で独り占めしたい気分ですが,仕方がないので家族と食べたいと思います。

-0.043 お土産用にしました。

:

-4.446 北海道物産展で購入したことがあり,とっても大好きです。

-5.050 いつもクリスマスプレゼントを贈ってくれる義兄のお母さんにお中元で贈ってみました。

-5.615 お店のオンラインショッピングでも物産展でも何度も購入し,味はわかっています。

Page 73: 自然言語処理に基づく商品情報の整理および構造化

73

例 (シャンプー)

スコア 文

6.380 軽い洗いごごちで,流しやすく,乾かしたあとは髪の毛がふわふわになりました。

5.445 シャンプーは軽くすすぐだけで少し不安でしたがべたつかず良い洗い上がりです。

4.153 髪がやわらかくサラサラになる気がします。

:

0.006 続けていくとよくなるのかな。

0.000 30代です。

-0.036 ロングの私はシャンプーがすぐに無くなります。

:

-7.956 サロン専売品で使いはじめて,ここで安く買える事を知り,それ以来ずっとここで購入させていただいていますが,シーウィードとウィートプロテインはずっと愛用しています。

-12.006 某解析サイトで評価が高い商品の中で,価格的にも買いやすいこちらを更に楽天で検索し,こちらのショップが一番安かったので購入。

Page 74: 自然言語処理に基づく商品情報の整理および構造化

74

商品の使用感の伝達

https://www.youtube.com/watch?v=zguh5oDR8tc

Page 75: 自然言語処理に基づく商品情報の整理および構造化

75

その他の言語処理タスク

Page 76: 自然言語処理に基づく商品情報の整理および構造化

76

誤分類商品の検知

NOISE!

間違った商品ジャンルに登録されている

商品が多数存在.

検索結果等が汚れてしまい,

商品が探しにくくなる.

誤分類された商品を検知して,

正しい商品ジャンルに自動的に

付け替えることが必要.

Page 77: 自然言語処理に基づく商品情報の整理および構造化

77

誤分類商品の検知

ボトル

720ml

Japan

おいしい

天狗舞

軽い

Note:

“Tengumai” is a famous Japanese sake (rice wine)

強制語辞書

強制語 (DCW: Definitive Category Words) 知識体系を構築

強制語を利用して,正しい商品ジャンルを推定

商品説明文

から

単語抽出

「天狗舞」⇒

日本酒ジャンル

日本酒ジャンル

Page 78: 自然言語処理に基づく商品情報の整理および構造化

78

商品ジャンル誤分類修正の効果

商品ジャンル誤分類を修正することにより,

店舗さんの売り上げが上がることを実証.

店舗A 店舗B

修正 修正

Page 79: 自然言語処理に基づく商品情報の整理および構造化

79

英作文支援ツール

Page 80: 自然言語処理に基づく商品情報の整理および構造化

80

取り組んでいるその他の自然言語処理タスク

• 形態素解析器の開発

• キーフレーズ抽出

• 商品知識の自動獲得及び人手による整理

• 商品の同一性判定

• …

多言語化が重要!!

Page 81: 自然言語処理に基づく商品情報の整理および構造化

81

目次

• 楽天と楽天技術研究所の紹介

• 自然言語処理とは

• 楽天における自然言語処理活用事例

–商品情報の構造化

–レビューからの商品の使用感の抽出

–その他の言語処理タスク

• まとめ

Page 82: 自然言語処理に基づく商品情報の整理および構造化

82

まとめ

• 楽天技術研究所で取り組んでいる自然言語処理関連のタスクについて紹介

–商品情報の構造化,レビューからの使用感抽出,誤カテゴリの検知,英作文支援,などなど

Messy data Structured data Old-fashioned

shop owner

Page 83: 自然言語処理に基づく商品情報の整理および構造化

83

自然言語処理入門書

• 入門自然言語処理

• 岩波講座ソフトウェア科学(15) 自然言語処理

• 言語処理学事典

• 言語処理100本ノック – http://www.cl.ecei.tohoku.ac.jp/index.php?%E8%A8%80%E8%AA%9E%E5%87%

A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF

Recommended