Download - 冴えないデータセットの育て方
ミクミンP@ksasao
オタク機械学習勉強会 #1 2017/2/4
https://github.com/ksasao/Gochiusearch
ごちうサーチ (Gochiusearch)
ご注文はうさぎですか?のスクショから何羽・何分何秒かを高速検索
Windows/Mac/Linux 対応
1期・2期 全フレーム の画像約100万枚のインデックスを約3MBに圧縮して保持
艦娘認識
http://bit.ly/1VEaO2H
飯テロ判定bot @no_meshitero 飯テロ画像を判定するbotだが、それ以外の画像も判定
OCR
録音
データ修正&
タグ付け
再利用
OCR精度はそこそこ高い 話者名をタグ付け 音声の区切りとテキストの区切りの対応関係を定義
実再生時間の約1.3倍程度で作業完了
C#で専用ツールを作成
見つけた画像を即データ化 C#で専用ツールを作成
仮想ディスクと物理ディスクの速度はほぼ同じ
音声・画像・動画は ZIP で圧縮してもファイルサイズはあまり変わらない
全体のコピー時間が圧倒的に高速 特にネットワーク越しの場合 大きな1つのファイル << 細切れのファイル
Windows なら .vhdx/可変サイズ 一択 必要なツール群も一緒にまとめておく
大きくなりがちなファイルを効率よく管理
ディスク容量の最大値は物理ディスクより大きく指定してもOK(足りなくなりそうになってから物理を追加)
VHDX が使えるのはWindows 8 以降
可変サイズにしておくと最初は小さい*最大1TB設定で300MB
Windows 10 なら右クリックでマウント・アンマウントできる
マウント後は通常のディスクドライブと同様の使い勝手
設定済みの空の仮想ディスクをコピーして使いまわすと便利
データセットを自分で作っておくと、都合の良い学習器の作成などが捗る
データセット作成のためのツールも作れるようになっておくと何かと便利
データセットは仮想ディスクで管理