冴えないデータセットの育て方

Post on 13-Apr-2017

1.684 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ミクミンP@ksasao

オタク機械学習勉強会 #1 2017/2/4

https://github.com/ksasao/Gochiusearch

ごちうサーチ (Gochiusearch)

ご注文はうさぎですか?のスクショから何羽・何分何秒かを高速検索

Windows/Mac/Linux 対応

1期・2期 全フレーム の画像約100万枚のインデックスを約3MBに圧縮して保持

艦娘認識

http://bit.ly/1VEaO2H

飯テロ判定bot @no_meshitero 飯テロ画像を判定するbotだが、それ以外の画像も判定

OCR

録音

データ修正&

タグ付け

再利用

OCR精度はそこそこ高い 話者名をタグ付け 音声の区切りとテキストの区切りの対応関係を定義

実再生時間の約1.3倍程度で作業完了

C#で専用ツールを作成

見つけた画像を即データ化 C#で専用ツールを作成

仮想ディスクと物理ディスクの速度はほぼ同じ

音声・画像・動画は ZIP で圧縮してもファイルサイズはあまり変わらない

全体のコピー時間が圧倒的に高速 特にネットワーク越しの場合 大きな1つのファイル << 細切れのファイル

Windows なら .vhdx/可変サイズ 一択 必要なツール群も一緒にまとめておく

大きくなりがちなファイルを効率よく管理

ディスク容量の最大値は物理ディスクより大きく指定してもOK(足りなくなりそうになってから物理を追加)

VHDX が使えるのはWindows 8 以降

可変サイズにしておくと最初は小さい*最大1TB設定で300MB

Windows 10 なら右クリックでマウント・アンマウントできる

マウント後は通常のディスクドライブと同様の使い勝手

設定済みの空の仮想ディスクをコピーして使いまわすと便利

データセットを自分で作っておくと、都合の良い学習器の作成などが捗る

データセット作成のためのツールも作れるようになっておくと何かと便利

データセットは仮想ディスクで管理

top related