sar精度70% その先へ
TRANSCRIPT
SAR精度 70% その先へ
@fmkz___
自己紹介
• 色々やります• インフォマティクスとビジュアライゼーションに興味がある
• 梅雨のエヴァコラボでモンストに飽きたけど最近のエヴァコラボ第二弾で復活w
その先へ☆
Deep Learningの何がアツイか?• 特徴の抽出をやってくれる
• (画像認識だと SIFTとか )cLogPとか職人がよく考えて構築した特徴量を使わなくても、もっとプリミティブなデータからうまく特徴量を学習してくれるのが一番大きいと思う。
画像認識だと
http://www.slideshare.net/fullscreen/takmin/building-highlevelfeatures/1
特徴量抽出を簡単に説明すると
次元の圧縮
詳しくはこれを読むといい
Merck Molecular Activity Challenge
Kaggleのコンテスト
特徴量の抽出やってない…
SVMと精度変わらんし、、、
特徴量抽出で大きく精度改善するのかな?
データ見てみよう
データを見る
一万次元以上あるけどやたら疎
多分これ
AP and DP• AP–ペア(下の)–元素名、隣接した重原子の数、 π電子数により識別された原子
• DP–カチオンとかアニオンとかドナーとアクセプターの 7種の識別
情報結構落ちてるんじゃないの?
この状況下で特徴量の抽出したとして精度が向上するかは非常に疑
問
改めて SARにおける認識とは• 画像認識は画像の画素のベクトル (RGB)が与えられ認識する
• SARにおける認識は、化合物が与えられた場合にそれを何らかのベクトル表現として与え、それから認識する
• また、ヒトが似ている似ていないを判断するのではなく認識するのはタンパク質であるところも異なる
分子認識
• 分子が認識するための特徴量抽出のための情報をインプットとして入力する必要があるんじゃないのか?
• グラフ情報でいいのか?
重ね合わせの問題
• 実際にはタンパク質と化合物の結合状態を考慮する必要があるが
• 学習させる過程で解決するのか• インプットの段階でよろしくやっておくのか
• という問題も残る
プリミティブな記述子?
• 量子化学計算から出てきた軌道の型とその係数をそのまま使うというのはどうだろうか?
• コンフォメーションの問題は残るが…–結合空間の静電場が特殊で、真空中では取らないコンフォメーションで結合していたりする
SARでDeepLearningするには• Inputをどうするか?–重ね合わせの問題–効果的な特徴量抽出のできるような
• どういうモデルにするか–深さとか
まとめ
• SARにおける DeepLearningは夢があると思う
• 次回は TensorFlowとか Chainerのハンズオンでもやりたい
• 誰かよろしくw