sas viyaの自然言語処理...teres jade , biljana belamaric , michael wallis 出版社: sas...

11
SAS Viyaの自然言語処理 小野 株式会社 インテック 金融ソリューション事業戦略部 Natural Language Processing of SAS Viya Kiyoshi Ono Financial Solution Business Strategy Dept., INTEC Inc.

Upload: others

Post on 27-Jan-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

  • SAS Viyaの自然言語処理小野 潔

    株式会社 インテック金融ソリューション事業戦略部

    Natural Language Processing of SAS ViyaKiyoshi Ono

    Financial Solution Business Strategy Dept., INTEC Inc.

  • 2

    言語モデルのタスクと応用範囲

    推 論

    類 似

    感 情 選 択

    対 話

    要 約

    含 意

    翻 訳

    ・・・

    言語モデル

  • 自然言語処理とは

    単語や文字などの「記号」の世界

    ベクトルで計算処理できる「数値」の世界に変換

    One-hot Vector

    人が話す言葉

    自然言語処理技術コンピュータが理解できる言語(数値)

    MAN = (1, 0, 0,0, ……,0)WOMAN = (0, 1, 0, 0,……,0)KING = (0, 0, 1, 0,……,0)QUEEN = (0, 0, 0,1, ……,0)

    Word EmbeddingWord2Vec

    MAN = (0.878, 0.000, 0.237, 0.3299,…,0.001)25万次元から200次元に特徴量を圧縮

    語の意味的な関係を構築でき、それを使って意味の計算ができる KING – MAN = QUEEN - WOMAN KING – MAN + WOMAN = QUEEN

    分散表現

  • 系列予測モデルの進化

    RNN(Recurrent Nueral Network)一般的な回帰モデル、機械学習

    LSTM(Long Short-Term Memory)

    Seq2seq

    Transformer

    BERT

    BERT発展型

    2014

    2017

    2018

    2019

    Attention技術の発展

    Bi-directional Transformer

  • 事前学習BERTは何が驚異なのか

    5

    出典:産業技術総合研究所

    教師あり学習

    教師なし学習

  • 自己教師あり学習(教師なし学習の一種)

    6

    私の 犬は 「?」 長い。

    私の 犬は 「毛が」 長い。

    文書データから15%ランダム選択

    ①穴埋めモデル前後から「?」を予測

    昨日、私は教会に行きました。

    そこでお祈りしました。 そこで野球ました。

    文書の50%が置き換えれる

    ②隣接文モデル2文章の繋がり判定

  • SAS Visual Text Anlytics SAS Text Analytics for Buiness Applications

    Concept Rules for Information Extraction Models (英文)

    Teres Jade , Biljana Belamaric , Michael Wallis

    出版社: SAS Institute (2019/3/26)

    「コンセプトルール」という情報抽出をモデリング

    ⇒キーワード検出、カテゴリ分類、

    感情分析、文章抽出

  • SAS Visual Text Analyticsの特徴PineLine

    共起マップ

    正規表現

  • トピック抽出

    自動Topic抽出

  • 自動分類ルールの生成

    No

    Yes

  • 11

    ま と め・Information Extration Model

    理論モデルは自動チューニング(ユーザーは触れられない)Topic model(SVD、LDA)、RNN 、隠れマルコフモデル etc.

    理論モデルが抽出したトピック、カテゴリを専門家が選択加工しながら、広範囲のカテゴリーやキーワードをもれなく検索

    ・対象ユーザー (エンジニアでなくも良い)キーワード検索:リサーチアナリストレコメンド : 広告代理店文献検索: 医学関係者、特許戦略家 etc.

    ・文法[LITI構文(正規表現、トークン抽出) Concept Rule]が少し慣れづらい「紹介書籍の理解」 「SASトレーニングの受講」

    ・使い慣れると、とても強力な テキスト分析ツール以 上

    スライド番号 1言語モデルのタスクと応用範囲自然言語処理とはスライド番号 4事前学習BERTは何が驚異なのか自己教師あり学習(教師なし学習の一種)SAS Visual Text Anlytics SAS Visual Text Analytics の特徴トピック抽出 自動分類ルールの生成スライド番号 11