sas visual data mining and machine learning...概要 sas visual data mining and machine...

8
FACT SHEET 主な機能 アナリティクス・ライフサイクルに関連した全てのステップを実施するための、包括的な ビジュアル・インターフェイスを提供します。このソリューションには、構造化/非構造化データの 分析に対応した革新的な機械学習およびディープ・ラーニング手法に加え、分析プロセスに含まれる 全てのタスクが統合されています。データの準備・探索からモデルの開発・展開(業務実装)まで、 様々なユーザー層が同じ統合環境の中で作業することができます。また、拡張性と弾力性に優れた 処理エンジンにより、複雑な疑問でも柔軟に素早く答えが得られます。 ビジネスメリット SAS Visual Data Mining and Machine Learning は、極めて高度なアナ リティクス、データ準備、ビジュアライゼーション、モデル評価、モデル展開(業務への組み込み)に 関する機能を単一の環境に統合した業界初のソリューションです。人気が高いオープンソース言語に よるプログラミングもサポートしています。この一貫性に優れたコラボレーティブ環境で、反復利用 可能なアナリティクス処理を効果的かつ効率的に開発・展開・管理できるため、業務プロセスの改善 や新たな成長機会の発掘が促進されます。 対象ユーザー 大規模かつ複雑なデータを分析し、予測モデルを構築する必要がある人々を対象 として開発されています。具体的には、データ・サイエンティスト、統計解析担当者、データマイニング 担当者、ビジネス分析担当者、市民データ・サイエンティスト、データ・エンジニア、研究者などが含ま れます。 複雑なアナリティクス課題をより短時間で 解決:このソリューションは、 SAS Platform の最新の機能拡張版である SAS ® Viya ® 実行基盤として採用しており、予測モデリ ングと機械学習を画期的なスピードで実行 することができます。データがインメモリ に保持されるため、反復的な分析を行う場 合でもデータロードを繰り返す必要があり ません。分析モデルの処理時間は数時間で はなく数秒または数分にまで短縮されるた め、難しい課題の解決策もより短時間で発 見できます。 自動生成される SAS スコアコードを用い て予測モデルを速やかに展開(業務に組み 込み) 全ての機械学習モデルにおいて、 容易に実装可能なスコアコードが複数のプ ログラミング言語で自動生成されるため、 価値創出までの期間がさらに短縮されます。 幅広いユーザーを想定した言語オプショ PythonRJavaLuaScala のプロ グラマーは、 SAS によるプログラミング方 法を学ばなくても、このソリューションの パワーを活用できます。SAS が提供する 信頼性に優れた検証済みの機械学習アルゴ リズムを、 SAS 以外の言語からも利用する ことができます。 収集されるデータが増え 続ける中、高いスキルを 持つデータ・サイエンティ ストや分析専門家は不足 しており、企業や組織は、複雑化するビジネス 課題をタイムリーに解決する取り組みに苦労し ています。全ての取引を分析して新たな不正パ ターンを特定したり、ソーシャルメディアの会話 を分析してカスタマー・エクスペリエンスの改 善に役立てたり、あるいは、正確で高速なレコ メンデーション・システムを構築して「ネクスト ベストオファー」(次に提示すべき最良オファー) を予測したりするなど、様々な重要課題の解決 に役立つ手段として、高度な機械学習ソフトウェ アに注目が集まっています。 SAS Visual Data Mining and Machine Learning は、生データから洞察を導き出すた めに必要なステップの全てに対応しており、その 全てを、統合されたビジュアルなパイプライ ン・インターフェイスを用いて実行できます。 スキルレベルやバックグラウンドの異なる幅 広い分析担当者が、データのアクセスと準備、 特徴量の生成、探索的分析の実行、機械学習 モデルの構築と比較、予測モデル実装用スコア コードの作成など、あらゆる作業をかつてない ほど迅速に行うことができます。 利点 アナリティクス担当チームの生産性が飛躍 的に向上:機械学習のパイプライン全体を サポートしているため、幅広いユーザーが 単一のコラボレーティブ環境を利用し、極 めて正確な結果を導き出す高度なモデルを 効果的かつ効率的に構築・展開できます。 データ取得から展開(業務への組み込み) までのタイムラグを短縮:対話操作型の ビジュアル・インターフェイスと本格的な プログラミング・インターフェイスにより、 データ準備、モデル構築、本稼働環境への モデル展開にかかる時間が大幅に短縮され ます。また、超高速な処理により、結果も迅 速に得られます。 複数のアプローチを探索し、確信を持って 最適な解決策を発見:分散処理が実現する 優れたパフォーマンスと、機械学習モデリ ング・プロセス(パイプライン)のために 用意された豊富な機能により、幅広いユー ザーが複数のアプローチを素早く探索し 比較することができます。自動チューニン グ機能により、複数のシナリオをテストし て最もパフォーマンスの高いモデルを見つ けることができます。アナリティクス・ライ フサイクルのあらゆる段階において再現性 が確保されるため、誰もが常に信頼性の高 い答えや洞察を得られます。 SAS ® Visual Data Mining and Machine Learning あらゆる複雑なアナリティクス課題の解決に必要な全てがここに ── 単一の統合型コラボレーティブ・ソリューション

Upload: others

Post on 01-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

FACT SHEET

主な機能 アナリティクス・ライフサイクルに関連した全てのステップを実施するための、包括的な ビジュアル・インターフェイスを提供します。このソリューションには、構造化/非構造化データの 分析に対応した革新的な機械学習およびディープ・ラーニング手法に加え、分析プロセスに含まれる全てのタスクが統合されています。データの準備・探索からモデルの開発・展開(業務実装)まで、様々なユーザー層が同じ統合環境の中で作業することができます。また、拡張性と弾力性に優れた処理エンジンにより、複雑な疑問でも柔軟に素早く答えが得られます。

ビジネスメリット SAS Visual Data Mining and Machine Learningは、極めて高度なアナリティクス、データ準備、ビジュアライゼーション、モデル評価、モデル展開(業務への組み込み)に関する機能を単一の環境に統合した業界初のソリューションです。人気が高いオープンソース言語によるプログラミングもサポートしています。この一貫性に優れたコラボレーティブ環境で、反復利用可能なアナリティクス処理を効果的かつ効率的に開発・展開・管理できるため、業務プロセスの改善や新たな成長機会の発掘が促進されます。

対象ユーザー 大規模かつ複雑なデータを分析し、予測モデルを構築する必要がある人々を対象として開発されています。具体的には、データ・サイエンティスト、統計解析担当者、データマイニング担当者、ビジネス分析担当者、市民データ・サイエンティスト、データ・エンジニア、研究者などが含まれます。

• 複雑なアナリティクス課題をより短時間で解決:このソリューションは、SAS Platformの最新の機能拡張版であるSAS® Viya®を実行基盤として採用しており、予測モデリングと機械学習を画期的なスピードで実行することができます。データがインメモリに保持されるため、反復的な分析を行う場合でもデータロードを繰り返す必要がありません。分析モデルの処理時間は数時間ではなく数秒または数分にまで短縮されるため、難しい課題の解決策もより短時間で発見できます。

• 自動生成されるSASスコアコードを用いて予測モデルを速やかに展開(業務に組み込み): 全ての機械学習モデルにおいて、 容易に実装可能なスコアコードが複数のプログラミング言語で自動生成されるため、価値創出までの期間がさらに短縮されます。

• 幅広いユーザーを想定した言語オプション:Python、R、Java、Lua、Scalaのプログラマーは、SASによるプログラミング方法を学ばなくても、このソリューションのパワーを活用できます。SASが提供する 信頼性に優れた検証済みの機械学習アルゴリズムを、SAS以外の言語からも利用することができます。

収集されるデータが増え続ける中、高いスキルを持つデータ・サイエンティストや分析専門家は不足

しており、企業や組織は、複雑化するビジネス課題をタイムリーに解決する取り組みに苦労しています。全ての取引を分析して新たな不正パターンを特定したり、ソーシャルメディアの会話を分析してカスタマー・エクスペリエンスの改善に役立てたり、あるいは、正確で高速なレコメンデーション・システムを構築して「ネクストベストオファー」(次に提示すべき最良オファー)を予測したりするなど、様々な重要課題の解決に役立つ手段として、高度な機械学習ソフトウェアに注目が集まっています。

SAS Visual Data Mining and Machine Learningは、生データから洞察を導き出すために必要なステップの全てに対応しており、その 全てを、統合されたビジュアルなパイプライン・インターフェイスを用いて実行できます。スキルレベルやバックグラウンドの異なる幅広い分析担当者が、データのアクセスと準備、 特徴量の生成、探索的分析の実行、機械学習モデルの構築と比較、予測モデル実装用スコアコードの作成など、あらゆる作業をかつてないほど迅速に行うことができます。

利点• アナリティクス担当チームの生産性が飛躍的に向上:機械学習のパイプライン全体をサポートしているため、幅広いユーザーが単一のコラボレーティブ環境を利用し、極めて正確な結果を導き出す高度なモデルを効果的かつ効率的に構築・展開できます。

• データ取得から展開(業務への組み込み)までのタイムラグを短縮:対話操作型の ビジュアル・インターフェイスと本格的なプログラミング・インターフェイスにより、データ準備、モデル構築、本稼働環境へのモデル展開にかかる時間が大幅に短縮されます。また、超高速な処理により、結果も迅速に得られます。

• 複数のアプローチを探索し、確信を持って最適な解決策を発見:分散処理が実現する優れたパフォーマンスと、機械学習モデリング・プロセス(パイプライン)のために用意された豊富な機能により、幅広いユーザーが複数のアプローチを素早く探索し 比較することができます。自動チューニング機能により、複数のシナリオをテストして最もパフォーマンスの高いモデルを見つけることができます。アナリティクス・ライフサイクルのあらゆる段階において再現性が確保されるため、誰もが常に信頼性の高い答えや洞察を得られます。

SAS® Visual Data Mining and Machine Learningあらゆる複雑なアナリティクス課題の解決に必要な全てがここに ── 単一の統合型コラボレーティブ・ソリューション

Page 2: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

概要SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラングリング(データのぶつけ合い)から高度なモデルの構築と展開まで、機械学習とディープ・ラーニングのあらゆる側面に対応した、エキサイティングな、End-to-Endのビジュアル環境を提供します。また、分散インメモリ処理によって大規模なデータ操作や複雑なモデリングを 実行できるため、課題解決の迅速化、リソース利用の効率化を実現します。

柔軟で取り組みやすい ビジュアルなアナリティクス環境SAS Driveは、フル機能を装備し、機能拡張にも対応した、SAS Viya向けのコンテンツ管理アプリケーションであり、ユーザーは単純明快 な手段でコンテンツの作成/管理/共有や、 コンテンツのアクセス権限の管理を行うことができます。この高度なコラボレーション用ワークスペースでは、特定のプロジェクトで進行中の全ての作業を確認することができます。管理対象のコンテンツには、SAS Visual Analyticsのレポート、SAS Data Managementのプロジェクト、SAS Studioのコードなどが含まれます。

また、ユーザーのお気に入りの設定をまとめるExchangeという機能では、1つの場所で複数の人々と協働作業することができます。ユーザーは、推奨されるノード・テンプレートを見つけたり、チームの業務プロセスを効率化するための独自のテンプレートを作成したりすることができます。

Webベースの開発環境における対話操作型のプログラミング• アナリティクス・ライフサイクルのプロセス全体に対応したビジュアル・インターフェイス

• コーディング不要のドラッグ&ドロップ方式の対話操作型インターフェイス(コーディングも可能)

• パイプラインの各ノードにおける自動コード生成をサポート

• 機械学習タスクの迅速な開始に役立つ、ベストプラクティスが盛り込まれたテンプレート(基本、中間、高度)

• 解釈可能性レポート

• Model Studio内でデータを探索し、SAS Visual Analyticsに直接取り込んで分析

• Model Studioの各ノード内でデータを表示

• SAS® Enterprise Miner™ 14.3のバッチコードをModel Studio内で実行

• 異なるユーザー層の間でもデータ、コード・スニペット、ベストプラクティスを容易に共有できるコラボレーション環境を提供

拡張性の高い分散インメモリ分析処理• 大規模なデータセットの複雑なアナリティクスの計算処理を分散インメモリ処理できるため、答えを得るまでの待ち時間が大幅に短縮

• データの再ロードや中間結果をディスクに書き出すことなく、複数のアナリティクス・タスクを単一のインメモリ・ジョブとしてつなぎ合わせることが可能

• メモリ内の同じデータに多くのユーザーが同時アクセスできるため、効率性が向上

• データと中間結果が必要に応じてメモリ内に保持されるため、遅延が低減

• 標準装備のワークロード管理機能により、コンピューティング・リソースの効果的な利用を確保

• 標準装備のフェイルオーバー管理機能により、サブミットしたジョブが常に完了することを保証

• 自動化された I/Oディスク・スピルオーバー機能により、メモリ管理が改善

最先端の機械学習アルゴリズムを用いたモデル開発• ディシジョン・フォレスト:

• 複数の決定木を自動アンサンブルし1つのターゲットを予測

• 独立したモデル学習の実行を自動的に分散

• モデル・パラメータのインテリジェントな自動チューニングをサポート

• 本稼動スコアリング用のSASコードを自動生成

主な特長

図1: SAS Driveは、ユーザーがプロジェクトやコンテンツの作成/共有/管理を行うためのコラボレーション型ワークスペースを提供します。

Page 3: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

このソリューションのビジュアル・インターフェイス(Model Studio)は、データ・ラングリング、特徴量生成、データ探索、モデルの構築と展開など、機械学習の最も一般的なステップに対応した統合環境です。この高度なコラボレーティブ環境は、モデルの構築・展開・共有を 協働で行うための基盤として理想的です。

複数のユーザーが同時に、使いやすいビジュアルなインターフェイスを用いて、あらゆる量の構造化/非構造化データを分析できます。個々のプロジェクト(ゴール/目標)はビジュアルなパイプラインとして定義され、パイプライン内ではアナリティクス・ライフサイクルが一連のステップに分割され、論理的な順序で表示されます。パイプライン分岐の非同期実行にも 対応しています。パイプライン内では、対話操作型のタスクを用いて、高度なアルゴリズムを大規模かつ複雑なデータに容易に適用することができます。これらの対話操作の背後では、 後でタスクの自動化に利用できるSASコードも自動生成されます(SASコードの保存は任意のタイミングで可能)。また、コードスニペットや、ベストプラクティスが盛り込まれたテンプレートを共有するのも簡単です。

協働作業において理解を深めるため、このソリューションは全てのユーザーに対し、ビジネスユーザーでも理解しやすい注釈を個々のノード内で提供します。注釈には、どのような 手法が実行されているかの説明や、手法、結果、 解釈に関する情報が示されます。全てのモデリング・ノードで、LIME、ICE、PDプロットを含む、標準装備の解釈可能性レポートも提供されます。

図2: 各ノード内の注釈は、協働作業を支援する情報を提供します。

• 勾配ブースティング:

• 自動反復検索により、選択したラベル変数に関するデータを最適分割

• 残差に基づいて重みを調整しながら複数回にわたり、入力データのリサンプリングを自動 実行

• 最終的な教師ありモデルの加重平均を自動生成

• 二値/名義/間隔ラベルをサポート

• ツリーの学習方法を幅広いオプションでカスタマイズすることが可能(成長させるツリーの数、適用する分岐基準、サブツリーの深さ、計算リソースなど)

• 検証データ・スコアリングに基づいて停止基準を自動設定することで、過学習を回避

• 本稼動スコアリング用のSASコードを自動生成

• ニューラル・ネットワーク:

• パラメータの組み合わせをインテリジェントに自動チューニングし、最適なモデルを特定

• 計数データのモデリングをサポート

• 最も適切と考えられるニューラル・ネットワークのパラメータを適用

• ニューラル・ネットワークのアーキテクチャと重み付けをカスタマイズすることが可能

• 以下の手法を搭載:ディープ・ニューラル・ネットワーク(DNN)、畳み込みニューラル・ネットワーク(CNN)、リカレント・ニューラル・ネットワーク(RNN)、オートエンコーダ

• ディープ・ラーニングをサポートするために、不特定数の隠れ層を利用することが可能

• 入力およびターゲット変数を自動的に標準化

• 検証データのサブセットを自動的に選択および使用

• 早期終了のための自動的なバッグ外検証により、過学習を回避

• モデル・パラメータのインテリジェントな自動チューニングをサポート

• 本稼動スコアリング用のSASコードを自動生成

• サポート・ベクター・マシン(SVM):

• 二値のターゲット・ラベルをモデル化

• モデルの学習に線形カーネルと多項式カーネルをサポート

• 連続型およびカテゴリー型の入力/出力特徴量を含めることが可能

• 入力特徴量の自動スケーリング

• 内点法、アクティブセット法を適用可能

• モデル検証のためのデータ分割をサポート

• ペナルティ選択のためのクロス・バリデーションをサポート

• 本稼動スコアリング用のSASコードを自動生成

主な特長(前ページより続く)

Page 4: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

拡張性の高いインメモリ分析処理このソリューションは、メモリ内のデータへの同時アクセスを可能にする安全なマルチユーザー環境を提供します。また、データと分析ワークロードは複数のノードに分散されて並列実行され、さらに各ノード内でマルチスレッドで処理 されるため、極めて高速な処理が実現します。

全てのデータ、テーブル、オブジェクトが必要に応じてメモリ内に保持されるため、効率的な処理が可能です。また、標準装備のフォールト・ トレランス機能とメモリ管理機能により、高度 なワークフローをデータに適用して、プロセスを常に確実に完了させることが可能です。

つまりこの環境では、大規模なデータ処理や 分析処理にかかる時間の劇的な短縮、ネットワーク・トラフィックの大幅な低減が実現するほか、最先端のマルチコア・アーキテクチャの 利点を最大限に活かして、より迅速に解決策を発見できます。

統計、データマイニング、機械学習に 関する革新的かつ頑健な手法を搭載SAS Visual Data Mining and Machine Learningは、単一の環境内に、統計、機械学習、ディープ・ラーニング、テキスト・アナリティクスに関する最先端のアルゴリズムを極めて 広範に搭載しています。

クラスタリング、多種多様な回帰手法、ディシジョン・フォレスト、勾配ブースティング・モデル、サポート・ベクター・マシン(SVM)、自然言語処理、トピック抽出などの分析機能を標準装備しています。これらの強力な手法は、構造化データ/非構造化データ内の様々な属性間に潜んでいる新たなパターン/傾向/関係を特定する作業を高度化・効率化します。また、 このソリューションは、独自のレコメンデーション・システムを構築するためのマトリクス・ファクタライゼーションも提供します。

高速かつ大量のデータセットを処理できるSAS Visual Data Mining and Machine Learningは、ディープ・ラーニング手法にも適しています。ディープ・ラーニング用のアルゴリズムとしては、「ディープ・ニューラル・ネットワーク(DNN)」、画像分類に役立つ「畳み込みニューラル・ネットワーク(CNN)」、テキスト・アナリティクスを強化する「リカレント・ニューラル・ネットワーク(RNN)」などを搭載しています。ユーザーはこれらのネットワークをカスタマイズするこ

主な特長(前ページより続く)• ファクタライゼーション・マシン:

• ユーザー IDやアイテム・レーティング(評価)の疎行列に基づくレコメンデーション・ システムの開発をサポート

• 完全なペアワイズ相互作用テンソル分解(pairwise-interaction tensor factorization)を適用することが可能

• より正確なモデルを構築するための、カテゴリー型および数値型の入力特徴量の追加を サポート

• タイムスタンプ、デモグラフィックデータ、コンテキスト情報でモデルを強化

• ウォーム・リスタートをサポート(完全な再学習を行わなくても新しいトランザクションでモデルを更新)

• 本稼動スコアリング用のSASスコアコードを自動生成

• ベイジアン・ネットワーク:

• 様々なベイジアン・ネットワーク構造を学習:ナイーブ、ツリー拡張ナイーブ(TAN)、ベイジアン・ネットワーク拡張ナイーブ(BAN)、親子ベイジアン・ネットワーク、マルコフ・ ブランケットなど

• 独立性検定を通じて効率的な変数選択を実行

• 指定されたパラメータ群から最適なモデルを自動選択

• データをスコアリングするためのSASコードまたはアナリティクス・ストア・ファイルを 生成

• 複数のノードからデータをロードし、計算を並列実行

• ディリクレ・ガウス混合モデル(GMM):

• クラスタリングの並列実行が可能で、高度なマルチスレッド対応

• ソフト・クラスタリングを実行。この手法は、予測されたクラスタースコアだけでなく、オブ ザベーションごとにクラスター群の確率分布も提供

• ディリクレ過程により、クラスタリング・プロセス中に最適なクラスター数を学習

• 並列化した変分ベイズ(VB)法をモデル推定手法として使用。この手法は、(計算困難な)事後分布の近似値を計算した上で、収束に達するまでモデル・パラメータを繰り返し更新する

• 半教師あり学習アルゴリズム:

• 高度な分散化およびマルチスレッド対応

• ラベルなしデータテーブルとラベル付きデータテーブルの両方について、予測されたラベルを返す

図3: ビジュアルなパイプラインは、一連のステップに分割したアナリティクス・ライフサイクルを、 論理的な順序で表示します。

Page 5: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

とで、畳み込み層やプーリング層のような異なるタイプの層をサポートできます。また、例えばKerasやCaffeで構築されたネットワークを利用して、SAS内で “ウォームスタート” として 使用することも可能です。

決定木、ニューラル・ネットワーク、サポート・ベクター・マシン(SVM)、勾配ブースティング、ディシジョン・フォレストなどの複雑な機械学習アルゴリズムを自動チューニングする機能も 備えており、パフォーマンスを最適化し、時間とリソースが節約できます。

また、ユーザーはSAS Enterprise MinerのバッチコードをModel Studio内で実行できます。この方法を利用すると、SAS Enterprise Minerのモデルをその他のモデル(オープンソース言語で作成したモデルも含む)と容易に比較できます。

PythonまたはR言語の組み込みを サポートユーザーは、分析の中にオープンソース・コードを組み込むことで、Model Studioのフロー内でオープンソースのアルゴリズムをシームレスに呼び出すことができます。これにより、ユーザーは好みの言語でプログラムを作成できるため、部門内の全てのユーザー層の間でコラボレーションが促進されます。Model StudioのオープンソースコードノードはPythonまたはRソフトウェアのバージョンに依存せず動作するため、同僚から受け取ったコードがどのバージョンでも問題なく使用できます。

主な特長(前ページより続く)• t分布型確率的近傍埋め込み(t-SNE):

• 高度な分散化およびマルチスレッド対応

• t-SNEアルゴリズムの並列実装に基づき低次元の埋め込みを返す

分析用データの準備• 最適な変数変換を含む、特徴量生成を行うベストプラクティス・パイプライン

• ビジュアルな画面を用いた分散データ管理

• 大規模データの探索と集計

• カーディナリティのプロファイリング:

• 入力データソースの大規模なデータ・プロファイリング

• 変数の尺度と役割に、インテリジェントな推奨値を提示

• サンプリング:ランダムおよび層別のサンプリング、希少イベントのオーバーサンプリング、 サンプリングしたレコードの目印となる変数をサポート

データ探索、特徴量生成、次元削減• t分布型確率的近傍埋め込み(t-SNE)

• 特徴量のビン化

• ハイパフォーマンスなデータ補完により、特徴量に含まれる欠損値をユーザー指定値、非欠損値の平均値、疑似中央値、ランダムな値で補完

• 特徴量の次元削減

• 大規模な主成分分析(PCA)(ムービング・ウインドウPCAやロバストPCAを含む)

• クラスター分析や混合変数クラスタリングを含む、教師なし学習

図4: オープンソースコードノードを利用すると、PythonまたはRのユーザーはModel Studioのフロー内で直接、独自のオープンソース・ アルゴリズムを組み込むことができます。

Page 6: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

データ準備、データ探索、特徴量生成の統合分析用データを準備する作業は長時間に及びがちですが、その点も克服できます。データ・エンジニアはドラッグ&ドロップ操作のインターフェイスを用いて、統合されたビジュアルなパイプラインの中で、変換処理の作成と実行、データの拡張、データの結合などを素早く実行できます。全てのアクションはメモリ内で実行され、一貫したデータ構造が常に維持されます。高度なアナリティクス手法を用いてデータ自体の問題を発見・修正することができます。潜在的な予測変数の速やかな特定、大規模なデータセットの次元削減のほか、元データから新たな特徴を作成する作業も容易に行えます。

テキスト分析の統合SAS Visual Data Mining and Machine Learningは、フリーフォーム・テキストから導出した特徴量を予測モデルに組み込みたいユーザー向けに統合型のテキスト・アナリティクス機能を標準搭載しており、テキスト解析や トピック検出、カテゴリカル・ターゲット変数のためのブール演算子型ルールの自動生成、 トピック抽出のためのスコアリングなどが行えます。

ビッグデータを念頭に置いて開発されているため、大量に収集されたテキスト文書を調べることができます。テキストデータを、一部ではなく全体を探索することで、未知のテーマや関連性について新たな洞察を獲得できます。構造化データとテキストデータを組み合わせて使用することで、これまで見つけることができなかった関係性を明らかにし、分析モデルの予測力を さらに向上させることが可能です。

テキスト分析の統合• 32のネイティブ言語を標準でサポート:英語、アラビア語、中国語、クロアチア語、チェコ語、デンマーク語、オランダ語、ペルシア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、インドネシア語、イタリア語、日本語、韓国語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、タガログ語、トルコ語、タイ語、ベトナム語

• 自動化された解析、トークン化、品詞タグ付け、見出語化をサポート

• 事前定義済みコンセプトにより、一般的なエンティティ(名前、日付、通貨価値、各種の測定値、人物、場所など)を抽出することが可能

• 機械学習で生成されたトピックを用いた自動特徴抽出(特異値分解(SVD)および潜在的ディリクレ配分法(LDA)を利用)

• 同一プロジェクト内で機械学習/ルールベースのアプローチを組み合わせて活用

• BoolRuleによる自動ルール生成

• ディープ・ラーニング(リカレント・ニューラル・ネットワーク)を用いて、より正確にドキュメントを分類

モデルの評価• 教師あり学習モデルの精度統計量を自動計算

• 間隔ターゲットおよびカテゴリカル・ターゲット用の出力統計量を生成

• 間隔ターゲットおよびカテゴリカル・ターゲット用のリフトテーブルを作成

• カテゴリカル・ターゲット用のROCテーブルを作成

モデルのスコアリング• モデル・スコアリング用のSAS DATAステップコードを自動生成

• 学習データ、ホールドアウトデータ、新規データにスコアリング・ロジックを適用

SAS® Viya®インメモリ・エンジン• CAS (SAS Cloud Analytic Services) がメモリ内で処理を実行し、クラスター内のノードに 処理を分散

• ユーザーの要求(手続き型言語で表現されたもの)は分散環境での処理に必要なパラメータを設定したアクションに変換される。結果セットとメッセージは、ユーザーによる後続アクションのために当該プロシジャに返される

主な特長(前ページより続く)

図5: ベストプラクティスが盛り込まれた特徴量生成テンプレートは、機械学習モデルで使用すべき予測変数や変換処理、抽出された特徴量の最良の組み合わせを特定することに役立ちます。

Page 7: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

リネージビューアリネージビューアは、意思決定、モデル、データの間の関係を視覚的に表示します。様々なオブジェクト間のリネージを明確にするためのリレーションシップを作成することができ、リレーションシップはモデル間を結ぶアーク(弧)として表示されます。

SASのリネージビューアはビジネス面および 技術面の両方のメタデータを提示するため、ユーザーはソースからレポートへのリネージを追跡したり、コンテンツを検索したり、メタデータ・リポジトリにコンテンツを追加したりすることができます。

モデルの評価とスコアリング複数のモデリング・アプローチを1回の実行でテストすることや、標準化された方法で複数の機械学習アルゴリズムの結果を比較して自動的にチャンピオン・モデルを特定することも、容易に行えるようになりました。

その後は、真の価値創出に向け、自動生成されたSASスコアコードを用いて、あらゆる種類の環境(分散型、従来型)で素早くアナリティクスを業務実装/運用できます。

1回のクリックだけで、モデルの登録やパブリッシュ、あるいは、APIの生成を実行することが可能です。

アクセス性とクラウド対応モデル作成者やデータ・サイエンティストは、

Python、R、Java、Lua、Scalaのどれを使用 する場合でも、好みのコーディング環境から

SASの機能を利用できます。また、SAS Viya REST APIを通じて、SASのパワーを他のアプリケーションに追加することも可能です。

さらに、SAS Visual Data Mining and Machine Learningは導入展開の柔軟性も 高く、オンサイト、Cloud Foundryなどのテクノロジーによるプライベート・クラウド、

Amazon Web ServicesやMicrosoft Azureなどのパブリック・クラウドから、組織のニーズに最も適した形態を選ぶことができます。

また、SASが提供する展開済み/設定済みのマネージド型SaaS(software-as-a-service)の形態で、このソフトウェアをご利用いただくことも可能です。

主な特長(前ページより続く)• データはブロック単位で管理され、必要に応じてメモリ内にロードされる

• テーブルのサイズがメモリ容量を超える場合は、サーバーがブロック単位でディスクにキャッシングする。データと中間結果は、必要に応じて(ジョブやユーザーの境界をまたいで)メモリ内に保持される

• 極めて効率的なノード間通信。ジョブに最適なノード数はアルゴリズムによって判断される

• 通信レイヤーはフォールト・トレランス機能をサポートしており、処理実行中でもサーバーからノードの削除/追加が可能。高可用性のために全てのコンポーネントを複製することができる

• レガシーSASコードをサポートしており、また、SAS 9.4 M5クライアントとの直接の相互運用に対応している

• マルチテナンシー展開をサポートしており、共用ソフトウェア・スタックにおいて個々の独立したテナントをセキュアにサポートすることができる

SAS® プロシジャ(PROC)とCASアクション• IT担当者や開発者はプログラミング・インターフェイス(SAS Studio)を利用することで、

CASサーバーへのアクセス、CASサーバーからのデータのロードと保存、CASサーバーでのローカル/リモート処理のサポートを行える

• Python、Java、R、Lua、Scalaのプログラマーや IT担当者は、CASサーバーに対してデータアクセスや基本的なデータ操作を実行できる。また、PROC CASを用いてCASアクションを実行できる

• REST API群を通じて、SASのパワーを他のアプリケーションに追加することが可能

導入展開オプション• オンサイト型導入:

• シングルマシン・サーバーは中堅・中小規模の企業/組織のニーズをサポート

• 分散サーバーは、データの成長、ワークロードの増大、スケーラビリティの要件に柔軟に 対応

• クラウド型導入:

• エンタープライズ・ホスティング

• プライベートまたはパブリック・クラウド(例:AmazonのBYOL方式)のインフラを利用

• SASが管理するSaaS(software-as-a-service)を利用

• PaaS(Platform as a Service)のCloud Foundryを利用して、複数のクラウド・プロバイダーをサポート

図6: モデル評価機能は、複数のアルゴリズムの結果を比較し、チャンピオン・モデルを自動的に特定します。

Page 8: SAS Visual Data Mining and Machine Learning...概要 SAS Visual Data Mining and Machine Learningは、データのアクセスやデータ・ラン グリング(データのぶつけ合い)から高度なモ

SAS Institute Japan株式会社 www.sas.com/jp [email protected]本社 〒106-6111 東京都港区六本木6-10-1 六本木ヒルズ森タワー 11F Tel: 03 6434 3000 Fax: 03 6434 3001大阪支店 〒530-0004 大阪市北区堂島浜1-4-16 アクア堂島西館12F Tel: 06 6345 5700 Fax: 06 6345 5655

このカタログに記載された内容は、改良のため予告なく仕様・性能を変更する場合があります。あらかじめご了承ください。SAS、SASロゴ、その他のSAS Institute Inc.の製品名・サービス名は、米国およびその他の国におけるSAS Institute Inc.の登録商標または商標です。その他記載のブランド名および製品名は、それぞれの会社の商標です。Copyright © 2018, SAS Institute Inc. All rights reserved. 108275_G81144.0718_JP2018_FK

さらに詳しい情報は »

SAS Visual Data Mining and Machine Learningの詳細、スクリーンショットの確認、関連資料の閲覧については、sas.com/vdmmlをご覧ください。

図8: 1回のクリックだけで、モデルの登録やパブリッシュ、あるいは、APIの生成を実行できます。

図7: SAS Visual Data Mining and Machine Learningでは、全てのモデリング・ノードで、LIME、ICE、PDプロットを含む、標準装備の解釈可能性レポートが提供されます。