冴えないデータセットの育て方

16
ミクミンP @ksasao オタク機械学習勉強会 #1 2017/2/4

Upload: p-kazuhiro-sasao

Post on 13-Apr-2017

1.684 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 冴えないデータセットの育て方

ミクミンP@ksasao

オタク機械学習勉強会 #1 2017/2/4

Page 2: 冴えないデータセットの育て方

https://github.com/ksasao/Gochiusearch

ごちうサーチ (Gochiusearch)

ご注文はうさぎですか?のスクショから何羽・何分何秒かを高速検索

Windows/Mac/Linux 対応

1期・2期 全フレーム の画像約100万枚のインデックスを約3MBに圧縮して保持

Page 3: 冴えないデータセットの育て方

艦娘認識

http://bit.ly/1VEaO2H

Page 4: 冴えないデータセットの育て方

飯テロ判定bot @no_meshitero 飯テロ画像を判定するbotだが、それ以外の画像も判定

Page 5: 冴えないデータセットの育て方
Page 6: 冴えないデータセットの育て方

OCR

録音

データ修正&

タグ付け

再利用

Page 7: 冴えないデータセットの育て方

OCR精度はそこそこ高い 話者名をタグ付け 音声の区切りとテキストの区切りの対応関係を定義

実再生時間の約1.3倍程度で作業完了

C#で専用ツールを作成

Page 8: 冴えないデータセットの育て方

見つけた画像を即データ化 C#で専用ツールを作成

Page 9: 冴えないデータセットの育て方
Page 10: 冴えないデータセットの育て方
Page 11: 冴えないデータセットの育て方
Page 12: 冴えないデータセットの育て方
Page 13: 冴えないデータセットの育て方

仮想ディスクと物理ディスクの速度はほぼ同じ

音声・画像・動画は ZIP で圧縮してもファイルサイズはあまり変わらない

全体のコピー時間が圧倒的に高速 特にネットワーク越しの場合 大きな1つのファイル << 細切れのファイル

Windows なら .vhdx/可変サイズ 一択 必要なツール群も一緒にまとめておく

大きくなりがちなファイルを効率よく管理

Page 14: 冴えないデータセットの育て方

ディスク容量の最大値は物理ディスクより大きく指定してもOK(足りなくなりそうになってから物理を追加)

VHDX が使えるのはWindows 8 以降

可変サイズにしておくと最初は小さい*最大1TB設定で300MB

Page 15: 冴えないデータセットの育て方

Windows 10 なら右クリックでマウント・アンマウントできる

マウント後は通常のディスクドライブと同様の使い勝手

設定済みの空の仮想ディスクをコピーして使いまわすと便利

Page 16: 冴えないデータセットの育て方

データセットを自分で作っておくと、都合の良い学習器の作成などが捗る

データセット作成のためのツールも作れるようになっておくと何かと便利

データセットは仮想ディスクで管理