sas viyaの自然言語処理...teres jade , biljana belamaric , michael wallis 出版社: sas...
TRANSCRIPT
-
SAS Viyaの自然言語処理小野 潔
株式会社 インテック金融ソリューション事業戦略部
Natural Language Processing of SAS ViyaKiyoshi Ono
Financial Solution Business Strategy Dept., INTEC Inc.
-
2
言語モデルのタスクと応用範囲
推 論
類 似
感 情 選 択
対 話
要 約
含 意
翻 訳
・・・
言語モデル
応
用
-
自然言語処理とは
単語や文字などの「記号」の世界
ベクトルで計算処理できる「数値」の世界に変換
One-hot Vector
人が話す言葉
自然言語処理技術コンピュータが理解できる言語(数値)
MAN = (1, 0, 0,0, ……,0)WOMAN = (0, 1, 0, 0,……,0)KING = (0, 0, 1, 0,……,0)QUEEN = (0, 0, 0,1, ……,0)
Word EmbeddingWord2Vec
MAN = (0.878, 0.000, 0.237, 0.3299,…,0.001)25万次元から200次元に特徴量を圧縮
語の意味的な関係を構築でき、それを使って意味の計算ができる KING – MAN = QUEEN - WOMAN KING – MAN + WOMAN = QUEEN
分散表現
-
系列予測モデルの進化
RNN(Recurrent Nueral Network)一般的な回帰モデル、機械学習
LSTM(Long Short-Term Memory)
Seq2seq
Transformer
BERT
BERT発展型
2014
2017
2018
2019
Attention技術の発展
Bi-directional Transformer
-
事前学習BERTは何が驚異なのか
5
出典:産業技術総合研究所
教師あり学習
教師なし学習
-
自己教師あり学習(教師なし学習の一種)
6
私の 犬は 「?」 長い。
私の 犬は 「毛が」 長い。
文書データから15%ランダム選択
①穴埋めモデル前後から「?」を予測
昨日、私は教会に行きました。
そこでお祈りしました。 そこで野球ました。
文書の50%が置き換えれる
②隣接文モデル2文章の繋がり判定
-
SAS Visual Text Anlytics SAS Text Analytics for Buiness Applications
Concept Rules for Information Extraction Models (英文)
Teres Jade , Biljana Belamaric , Michael Wallis
出版社: SAS Institute (2019/3/26)
「コンセプトルール」という情報抽出をモデリング
⇒キーワード検出、カテゴリ分類、
感情分析、文章抽出
-
SAS Visual Text Analyticsの特徴PineLine
共起マップ
正規表現
-
トピック抽出
自動Topic抽出
-
自動分類ルールの生成
No
Yes
-
11
ま と め・Information Extration Model
理論モデルは自動チューニング(ユーザーは触れられない)Topic model(SVD、LDA)、RNN 、隠れマルコフモデル etc.
理論モデルが抽出したトピック、カテゴリを専門家が選択加工しながら、広範囲のカテゴリーやキーワードをもれなく検索
・対象ユーザー (エンジニアでなくも良い)キーワード検索:リサーチアナリストレコメンド : 広告代理店文献検索: 医学関係者、特許戦略家 etc.
・文法[LITI構文(正規表現、トークン抽出) Concept Rule]が少し慣れづらい「紹介書籍の理解」 「SASトレーニングの受講」
・使い慣れると、とても強力な テキスト分析ツール以 上
スライド番号 1言語モデルのタスクと応用範囲自然言語処理とはスライド番号 4事前学習BERTは何が驚異なのか自己教師あり学習(教師なし学習の一種)SAS Visual Text Anlytics SAS Visual Text Analytics の特徴トピック抽出 自動分類ルールの生成スライド番号 11