学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf ·...

43
+ 学習データ構築サービスのご案内 株式会社バオバブ

Upload: others

Post on 20-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

+

学習データ構築サービスのご案内

株式会社バオバブ

Page 2: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

  ツールを使った学習データの作成および収集

  BAOBABでは画像・音声データ作成および収集のため、さまざまなツールを準備し、お客様の

  ニーズにマッチした高品質な学習データを安定的かつスピーディーにご提供しています。

  当資料でご紹介するツールを使い、トレーニングを受けたバオバブの作業者(=Baopart)が

  データ作成および収集を行います。

  ※ 以下にご紹介するツールは全てBaopart専用ツールです。

  作業ルール、マニュアルの作成のお手伝い

  データ作成・収集時のルール・マニュアル作成からお手伝いをいたします。

  品質管理

  Baopartには、作業前に各プロジェクトのルールに沿ったトレーニングを行っています。

  また、いずれのツールも管理画面からバオバブの管理者およびBaopartリーダーがデータの

  チェックを行い、厳しくデータの品質管理を行っています。

BAOBABがご提供するサービス

1

2

3

Page 3: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

学習データ構築サービスツールのご紹介

※ 以下にご紹介するツールは全てBaopart専用です。

Page 4: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

画像・動画キャプション付けツール

Baobab-Caption

Page 5: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 画像・動画にキャプション付けができるWebツール

Baobab-Caption とは

( Baobab-Caption 作業者用画面 )

Page 6: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 最大8名のBaopartが、1つの画像・動画に対し同時にキャプション付けすることが可能

  (最大8キャプション/画像・動画)

❖ 日本語キャプションの他、英語、中国語など、各種言語に対応

男性が立っている

白い服を着た男性

男性がかき氷を作っている

男性がテーブルの横に立っている

女性が男性を見ている

屋外でかき氷を売っている

Baobab-Caption でできること

Page 7: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ CSV形式での納品

Baobab-Caption の納品データ

Image File Caption Text

 xxxx(ファイル名) .png  男性が立っている

 xxxx(ファイル名) .png  白い服を着た男性

 xxxx(ファイル名) .png  男性がかき氷を作っている

 xxxx(ファイル名) .png  男性がテーブルの横に立っている

 xxxx(ファイル名) .png  女性が男性を見ている

 xxxx(ファイル名) .png  屋外でかき氷を売っている

(CSVファイル)

Page 8: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

画像収集・タグ/キャプション付けアプリ

Moringa-i

Page 9: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 画像収集および提供された画像にタグ付け・キャプション付けができる

  スマートフォン用アプリ

Moringa-i とは

( アプリ・プロジェクトリスト画面 )

Page 10: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 画像収集(jpeg形式・海外での画像収集も可能)

❖ 収集した画像へのタグ付け、キャプション付け

❖ お客様より提供された画像へのタグ付け、キャプション付け

❖ 日本語の他、英語、中国語(簡体字・繁体字)対応 ※タグは英語のみとなります。

Moringa-i でできること

( キャプション付け画面 )最大100文字、3キャプションまで付与可能

( タグ付け画面 )最大20タグの付与可能

Page 11: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 収集画像データはjpeg形式

❖ タグ・キャプションのデータはCSV形式での納品

Moringa-i の納品データ

filename latitude longitude country address tag1 tag2 caption1 caption2 caption3

file_00001.jpg xx.xxxxxx xxx.xxxxxxx Japan Japan, 〒xxx-xxxx Tokyo, Chiyoda-ku, Yurakucho

outside landscape 青い空に鳥が飛んでいる

file_00002.jpg xx.xxxxxx xxx.xxxxxxx England England, Bloomsbury, London WC1B 3DG

outside city three people are standing on the sidewalk.

(CSVファイル:画像収集&タグ・キャプション付けした場合)

※ GPSデータは、Baopartが同意した場合にのみ取得可能となります。

filename tag1 tag2 caption1 caption2 caption3

file_00001.jpg outside landscape 青い空に鳥が飛んでいる

file_00002.jpg outside city three people are standing on the sidewalk.

(CSVファイル:ご提供いただいた画像にタグ・キャプション付けした場合)

Page 12: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

音声収集・タグ付けアプリ

Moringa-v

Page 13: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 音声収集および収集した音声にタグ付けができるスマートフォン用アプリ

Moringa-v とは

( アプリ・プロジェクトリスト画面 )

Page 14: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 音声収集(WAV形式、海外での画像収集も可能)

❖ 収集した音声へのタグ付け

❖ 日本語の他、英語・中国語など各種言語対応 ※タグは英語のみとなります。

Moringa-v でできること

( 音声収集画面 )最大30秒の音声が収集可能

( タグ付け画面 ) 最大20タグの付与可能

Page 15: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 音声データはWAV形式

❖ キャプションのデータはCSV形式での納品

Moringa-v の納品データ

(CSVファイル)

filename tag1 tag2 tag3 tag4 tag5 tag6

filename_00001.wav noises crowd morning      

filename_00002.wav people stormy city night      

filename_00003.wav noises night        

Page 16: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

特徴点・領域指定・タグ付ツール

Baobab Pose Annotation

Page 17: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 対象物の特徴点付け・領域指定(Polygon/Rectangle)・タグ付けができるWebツール

Baobab Pose Annotation とは

( Baobab Pose Annotation 作業画面 )

Page 18: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 対象物の特徴点付け・領域指定(Polygon/Rectangle)・タグ付け

  例えば、人間や動物の顔(目鼻耳口)、身体(肩、肘、手首、腰、膝、足首)

  などの特徴点を指定し、対象物を領域指定することが可能

Baobab Pose Annotation でできること

特徴点のみ特徴点+領域指定

( Rectangle )特徴点+領域指定

( Polygon )

( 特徴点・領域指定の作業画面 )・1画像に対して、複数の対象物について作業が可能

・タグは複数付与が可能 (例:Type: Cat, Color: Mixなど)

・特徴点は顔関節以外にも、指定のポイントに付与することが可能

 (例:部品の特定のポイントなど)

Page 19: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ CSV形式での納品

Baobab Pose Annotation の納品データ

(CSVファイル:特徴点,領域指定(Polygon)した場合)

(CSVファイル:特徴点,領域指定(Rectangle), タグ付けした場合)

Image File Name Key Points Segmentation

sample_image.JPG

[[{"name":"nose","position":[458.18,421.23]},{"name":"left eye","position":[413.84,338.09]},{"name":"right eye","position":[349.18,437.86]},{"name":"left ear","position":[302.99,219.85]},{"name":"right ear","position":[155.19,406.45]},{"name":"left shoulder","position":[515.45,360.26]},{"name":"right shoulder","position":null},{"name":"left elbow","position":[696.51,530.23]},{"name":"right elbow","position":[580.12,637.39]},{"name":"left wrist","position":[714.98,803.66]},{"name":"right wrist","position":[530.23,859.09]},{"name":"left hip","position":[1030.91,356.57]},{"name":"right hip","position":null},{"name":"left knee","position":[1102.96,521]},{"name":"right knee","position":null},{"name":"left ankle","position":[1265.54,563.49]},{"name":"right ankle","position":[1115.89,587.51]}]]

[[{"segment":[[55.43,349.18],[125.63,339.94],[199.53,341.79],[227.24,258.65],[229.09,216.16],[208.77,133.02],[219.85,109],[291.91,142.26],[327.01,175.51],[376.89,212.46],[447.1,253.11],[478.5,299.3],[554.25,286.36],[698.36,254.96],[790.73,253.11],[877.56,266.04],[982.87,293.75],[1029.06,299.3],[1029.06,245.72],[1060.46,221.7],[1115.89,221.7],[1130.67,319.62],[1123.28,351.03],[1152.84,415.69],[1173.16,450.79],[1219.35,460.03],[1237.83,476.66],[1291.4,567.18],[1339.44,668.8],[1354.22,726.07],[1337.59,755.63],[1315.42,772.26],[1289.56,764.87],[1245.21,729.76],[1224.89,689.12],[1226.74,600.44],[1182.4,589.35],[1208.27,659.56],[1191.64,711.29],[1158.38,727.92],[1104.81,663.25],[1095.57,604.13],[908.97,618.91],[803.66,600.44],[748.24,585.66],[746.39,679.88],[744.54,775.95],[751.93,831.38],[763.02,886.8],[748.24,908.97],[718.68,945.92],[674.34,958.85],[654.02,912.67],[618.91,884.95],[637.39,822.14],[631.85,763.02],[626.3,727.92],[605.98,783.34],[600.44,864.63],[585.66,942.23],[589.35,984.72],[563.49,993.96],[548.71,1030.91],[487.74,1010.58],[465.57,955.16],[485.89,896.04],[493.28,849.85],[506.22,803.66],[487.74,729.76],[410.15,665.1],[323.31,580.12],[314.08,530.23],[245.72,506.22],[173.67,469.27],[70.21,430.47],[42.49,378.74]]}]]

Image File Name Key Points Segmentation

sample_image.JPG

[[{"name":"nose","position":[456.64,430.04]},{"name":"left eye","position":[412.31,350.24]},{"name":"right eye","position":[354.67,434.48]},{"name":"left ear","position":[297.04,217.24]},{"name":"right ear","position":[157.39,421.18]},{"name":"left shoulder","position":[560.83,376.84]},{"name":"right shoulder","position":[383.49,534.23]},{"name":"left elbow","position":[709.35,532.01]},{"name":"right elbow","position":[576.35,640.63]},{"name":"left wrist","position":[696.05,811.32]},{"name":"right wrist","position":[536.45,875.6]},{"name":"left hip","position":[1046.29,345.81]},{"name":"right hip","position":null},{"name":"left knee","position":[1090.62,558.61]},{"name":"right knee","position":null},{"name":"left ankle","position":[1241.36,518.71]},{"name":"right ankle","position":null}]]

[[{"segment":[[1363.12,1041.76],[1363.12,115.16],[42.85,115.16],[42.85,1041.76]],"label":"Cat"}]]

Page 20: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

ピッキングポイントのアノテーションツール

Bin Box Annotation Tool

Page 21: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 対象物への領域指定及びピッキングポイント付与ができるWebツール

Bin Box Annotation Tool とは

( Bin Box Annotation Tool 作業画面 )

Page 22: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ アイテムの領域指定及びピッキングポイント付け

  ピッキングをするアイテムへの領域指定、ピッキングポイントの付与の他、

  アイテムの箱(Bundle Box)、またアイテム自体が格納されている箱(Bin Box)

  に対する領域指定が可能

Bin Box Annotation Tool でできること

( Bin Box Annotation Tool 作業画面 )

Page 23: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ CSV形式での納品

Bin Box Annotation Tool の納品データ

(CSVファイル)

Image File Name Item Boxes Picking Points Bundle Boxes Segmentation

sample_image.JPG

[{"x":401.6,"y":353.59999999999997,"width":110.39999999999998,"height":115.20000000000005},{"x":472.00000000000006,"y":435.20000000000005,"width":52.7999999999999,"height":123.20000000000005}]

[{"x":442.34000396728516,"y":381.2,"width":43.31999206542969,"height":60},{"x":474.34000396728516,"y":470.8,"width":43.31999206542969,"height":60},{"x":475.9400039672852,"y":470.8,"width":43.31999206542969,"height":60}]

[{"x":544,"y":652.8,"width":129.60000000000002,"height":137.60000000000002},{"x":686.4,"y":641.6,"width":120,"height":163.19999999999993},{"x":550.4,"y":584,"width":126.39999999999998,"height":70.39999999999998},{"x":686.4,"y":606.4,"width":121.60000000000002,"height":40},{"x":686.4,"y":518.4,"width":120,"height":92.80000000000007},{"x":556.8,"y":505.6,"width":137.60000000000002,"height":86.39999999999998},{"x":569.6,"y":444.8,"width":123.19999999999993,"height":64},{"x":568,"y":345.6,"width":116.79999999999995,"height":94.39999999999998},{"x":820.8,"y":334.4,"width":129.60000000000002,"height":187.20000000000005}]

[{"x":401.6,"y":353.59999999999997,"width":110.39999999999998,"height":115.20000000000005}]

Page 24: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

セマンティックセグメンテーションツール

Semantic Segmenter

Page 25: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ Semantic Segmentation ができるWebツール

Semantic Segmenter とは

(Semantic Segmenter 作業画面 )

Page 26: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖対象物の領域指定(Polygon)をし、ラベル付けをすることが可能

 領域指定の色は、対象物ごとに指定することが可能

Semantic Segmenter でできること

( オリジナル画像 ) ( アノテーション後 )

  使用例:

  ・道路・標識・乗り物・人間などの道路画像の塗り分け

  ・雲・空・などの気象画像の塗り分け

  ・山・川・海など航空写真の塗り分け

  ・重機や自動車のパーツの塗り分け

Page 27: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ CSV形式での納品

Semantic Segmenter の納品データ

(CSVファイル)

Image File Name Segments

IMG_7262.JPG

[{"polygon":[[482.2,1680.86].[475.49,1672.24].[477.27,1595.66).(516.45,1579.63).(552.07,1483.47].[799.61,1471].[808.95,1475.521.[822.47,1543.13).[893.27,1541.54).(917.13,1547.11).(1029.28,1547.11],[1045.19,1553.7).(1049.17,1548.7)(1065.87.1547.9).(1069.06.1559.04).(1083.37.1560.63).(1096.9.1559.84).[1101.67.1548.7].[1164.51.1565.4).(1168.48,1557.45).(1162.12.1545.52).[1168.48,1545.52).(1173.26.1556.65).(1174.05,1540.4).[1171.67,1535.97).(1178.03.1528.811.11179.62,1523.25).(1179.62,1419.84).[1182.01.1405.52).[1189.96,1405.52).[1194.73,1418.25).[1195.53,1425.41).(1193.14,1436.54].[1193.94.1528.02).(1197.92,1537.56).[1198.711573.36].[1310.07,1605.17].[1281.44.1498.59).[1277.46,1493.81).(1274.28,1485.06).[1262.34,1484.27).(1267.91,1477.91).(1261.55,1469.95).[1271.89.1444.5].[1293.37,1393.59).[1298.93,1381.66].[1294.16,1368.93).[120.98,1363.36).[1354.61,1354.61],[1422.23,1352.23).(1430.98,1361.77).[1427.79,1364.16).[1423.82,1366.55).(1415.86,1372.91).(1353.82,1430.98].[1321.21,1465.97].[1316.43.1469.16).(1314.05.1477.11],[1304.5,1479.5),1318.02,1524.84),(1345.86,1613.92].[1372.91,1621.08].[1384.84,1660.06).[1400.75.1664.04).[1410.29.1665.63).[1411.09.1658.47).[1421.43,1654.49).[1440.52.1664.04).(1449.27,1664.04).[1450.07.1658.47).(1468.36,1697.67).(1469.95.1664.83].[1478.7.1669.6).(1485.86,1675.17).[1490.63.1665.6398.12).(1587.68,2025.96).(1583.7.2037.09).[1586.88,2056.18).(1579.72,2060.16).(1578.13,2080.05).(1572.56,2099.14).(1549,49,2108.68).(1545.52.2110.27).(1543.93.2117,43).(1535.18,2115.84).(1529.61,2115.84).(152643,2127.77).[1520.06.2135.73).[1490.63,2142.09).[1484.27,2127.77).(1481.09,2111.86].[1481.09.2097.54).(1419.84,2108.68).[1419.84,2129.36).[1283.82.2162.77).[1283.82,2176.29).[1278.25,2187.431.[1273.48,2200.95](1014.17,2265.38).[1000.65,2259.02],[989.51,2243.9.1969.3,2216.86).[741.34,2247.88).(696,2254.24].[691.23,2235.95).[680.09,2216.86).[665.77,2195.38).[628.39,2173.91).(588.62.2167.54).[544.87,2171.52).(524.98,274.7).[475.67.2185.84).[466.92,2188.22).[461.35,2162.77).(472.8,2167.54).[468.51,2154.82).(468.51.2134.93).(465.33.2119.02).(463.73.2107.09).(470.89,2122.2).(474.87.2111.86).(471.69,2100.73).(470.1,2088).[464.532077.66).[454.99,2067.32).(459.76,2057.77).[466.92,2049.02).(477.26,2040.27).[484.42.2029.93).[499.53,2028.34).(501.92,2020.39).[497.14.2011.64).(506.69,2006.07).(513.79,1994.97).(518.56,1980.07).(509.62,1975.3]507.83,1972.32).(512.01.1966.36).(515.58,1954.44).(523.93,1944.31).(512.01.1927.02.(500.68,1910.33).[489.95,1903.18].[482.8.1900.2].[471.47.1891.26).[459.55,1884.111.[450.61,1881.721.[451.21,1857.29).[445.25.18!4.9).[430.35,1854.31).[423.79.1845.96).1422,1831.06).[422,1821.52).(423.19.1800.07].[423.19.1776.22).[424.39.1751.19).[422.6,1735.69).[424.39,1730.33).[425.58,1711.25).[436.31,1702.311.(453,1700.53).[478.63,1701.2]],"label":"Train","color":"#00ff99").("polygon":[[0.93,1762.81].[54.1,1760.01).[245.3.1779.6).[245.3,1800.12).(252.76.1806.64).(252.76,1816.9).[245.3.1816.9).[238.77.2010.91).(209.86,2017.44],[208.93.2023.03).[220.122023.03)(220.12,2028.63].[235.97,2029.56],[231.31,2051.01].[222.92,2051.01).(220.12,2060.34).(190.27,2058.47).(189.34,2066.87],[183.74,2066.87).(182.81,2083.66).(179.08,2097.651.(170.68,2115.37).[151.1.2116.3).32.44,2118.17],[124.98,2101.38).[124.05.2089.25).(119.39,2080.86).(115.66,2094.85].[110.06.2094.85).[108.19,2080.86].[96.07,2082.72].[80.21.2084.59),(69.95,2091.12).(53.16,2092.98].[34.51,2088.32].[32.64.2096.72]0.93.2102.31]],"label":"Truck","color":"#0033cc"},{"polygon":[[2045.06,2044.52).(2043.98,2054.78],[2036.43,2061.25).(2021.32,2057.47],[2017.54,2046.14).(2015.93.2033.73).(2012.15.2016.46].[2014.31,2001.36],[2018.61994.88).(2020.78,1984.63).(2027.8.1977.07).(2024.02.1973.3).(2023.48,1965.2).(2033.19.1965.2).(2037.51.1964.66).(2048.3.1950.63).(2059.09.1937.68).(2068.81,1927.97][2073.12.1920.96).(2080.14.1916.1).(2090.931915.56],[2101.72,1915.56].[2109.81.1917.18].[2114.67.1918.26).[2137.

Page 28: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

学習データ構築サービスサポートおよびデータ品質管理

Page 29: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

学習データを作成する場合、

学習データの仕様の重要性

モデルにあった学習データであること

そのために、どのような学習データを構築するべきかを明確にすること

この2点が精度の高いデータを作成する上で、大変重要です。

バオバブでは、どのようなモデルを作成されるかをヒアリングし、

学習データの仕様作りからお手伝いいたします。

Page 30: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ 顔の範囲の定義

  ➤ 耳、額、髪の毛先を入れるか?

  ➤ サングラス、帽子、ピアスなどのアクセサリーは?

❖ アノテーション対象の定義

  ➤ 後ろにぼやけて写っている人は対象になるのか?

   ► ぼやけていても、目鼻口が認識できれば対象?

   ► ぼやけて小さく写っている場合は?

  ➤ 顔の一部が隠れている場合は?

  ➤ 顔の一部が隠れていても対象になる場合

   ► 耳しか見えていなくても対象になるのか?

   ► 顔のX%以上が見えているものだけが対象か?

  ➤ 顔が一部隠れている場合、隠れている部分の大きさを

   推測してアノテーションをするのか? ・・・・など

学習データの仕様作り(例)人の顔への Bounding Box 付の場合

必要な学習データによって明確に定義することが重要です。

Page 31: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

❖ アノテーション作業は、プロジェクトを管理するBaopart Captainのもと、日本、ベトナム、タイ、中国、  インドネシア、マ

ケドニア、その他英語圏などに在住する、いくつかのチームで行っています。

❖ 各チームはBaopart リーダーと呼ばれる、チームリーダーがBaopartの管理・トレーニングを行います。

❖ Baopart CaptainはBaopartリーダーと連携し、進捗管理やBaopartのトレーニングに関わる他、Baopart

  の作業を直接チェック、Baopartからの作業に関わる質問に回答などプロジェクトを円滑に進めます。

作業の管理体制

Page 32: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

バオバブでの学習データ作成のプロセス

学習データの定義

作業用ガイドラインの作成

Baopartの作業用ガイドライン学習

Baopartによるアノテーション作業

Baopartリーダーによるデータ確認・修正

Baopart Captainによるデータ確認・修正

納 品

Page 33: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

Baopartの作業プロセス

作業ガイドラインの学習 作業ガイドラインを学習し、作業ルールを理解します。

練 習

本番作業に準じた練習問題などを利用し、作業の練習を行います。

ここで、BaopartリーダーまたはBaopartキャプテンより練習作業

結果について確認を受けます。

作業に不向きだと思われるBaopartは、除外されます。

作業開始 ガイドラインを確認しながら、作業開始。

不明点の質問

作業の不明点をBaobabが用意するQ&Aの掲示板で質問

  ・Q&Aは他のBaopartとも共有されます。

  ・必要に応じて、ガイドラインの改定を行います。

作業スピードUP! 作業をより理解し慣れることにより、作業スピードが上がります。

Page 34: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

Baopartの作業プロセス

❖ ファッションアイテムのアノテーション作業

  作業内容: 画像に写るファッションアイテム毎のBounding Box 付+ラベル(10種類)付

作業スピード変化の例

作業を習得し、速度が安定

作業のコツを掴み、慣れ始める質問が多く出る時期

作業開始直後

( 作業スピードの変化 )

Page 35: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

Baopartの作業スピード(例)工場内フォークリフト タグ付け

他社(海外C社) BAOBAB

画像数 9,500 画像 6,000 画像

タスク数 14,000 タグ付け 39,219 タグ付け

作業期間 5ヶ月(約 150 日) 3 日 ➤ 1/50

1日あたりのタスク数 93 タグ付け 13,073 タグ付け ➤ 140 倍

作業人数 730 名 3 名 ➤ 1/243

※ ダブルチェック期間含む

Page 36: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

画像アノテーション 主な実績

作業内容 使用ツール 分量作業日数

ガイドライン作成および作業チェック期間は除く

乗り物および人物へのBounding Box付+Label付Baobab Pose Annotation Tool

I:80,000B+L:513,191

35日

道路のマークへのBounding Box付Baobab Pose Annotation Tool

I:9,908B:12,681

3日

自動車パーツの画像収集 Moringa-i I:1,000 24日

食材のLabel付 Excel I:1322 5日

猿へのBounding Box(Polyline)付+Keypoint付Baobab Pose Annotation Tool

B+K:10,000 9日

動画(6秒)キャプション付作業 お客様よりご提供 400,000 120日

❖ 作業の難易度(対象物の明確度、画像の鮮明度、ルールの詳細さ)によって、作業日数は変わります。

Page 37: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

その他-テキスト・NLP関連学習データ 主な実績例

作業内容 詳細 分量

ショッピング多言語シナリオ作成ショッピング環境における店員・訪日観光客の対話シナリオ作成および実証実験

120 シーン

感情アノテーション 文・文章への感情アノテーション作業 6,000 件

キャプション付 6秒の動画に日本語キャプション付与 400,000 件

発話データアノテーション 発話検索意図データにアノテーション 4,750 件

日常会話データセット 家庭内日常会話データセット販売 5,000 文

固有表現タグ付与 固有表現抽出データセット 3,000 文

ツイートラベリング作業 日本語ツイートにラベル付与 10,000 ツイート

対話データ作成及びアノテーション 対話データアノテーション及びラベル付与 100,000 文

対話シナリオ作成 機械翻訳用日英対話シナリオ作成 30,000 文

❖ 他 機械翻訳用大量コーパス作成実績( NTT、NICT、東京大学等 )多数ございます。

2010年創業、NICT共同研究契約締結・機械翻訳エンジン向け大量対訳データ作成・機械エンジン翻訳評価に始まり、テキストへのアノテーション・多言語シナリオ作成を数多く承っております。

Page 38: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

BAOBAB を選ぶメリット

❶ 高品質なデータ作成

➤ 学習データの仕様作成、作業ルール作成をサポートいたします。

  ・精度の高いデータ作成のために欠かせない作業です。

  ・Baopart Captainが直接お客様からヒアリングを行います。

  ・作業を進める中で、必要に応じてルールの更新をいたします。➤ 作業ルールを理解したBaopartが作業をします。 

  ・作業の開始前に、ルールの確認をしっかりと行います。

  ・Baopartの大半が、アノテーション作業熟練者です。➤ Baopartの作業サポートを行います。

  ・作業中に迷った場合、Baopart Captainがお客様と連携し、Baopartの質問に答えます。

  ・作業に関わるQ&AをBaopart全員と共有します。➤ 納品前にデータのチェック作業を行います。

  ・Baopartリーダーによるデータチェックのほか、Baopart Captainもデータのチェックを行います。

❷ 様々なツールをご用意しています。

➤ ご希望のデータ作成にマッチしたツールをご用意しています。

➤ 自社開発のツールで作業をするため、セキュリティが保全され、生産スピードが上がり生産性が

  向上します。

Page 39: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

BAOBAB を選ぶメリット

❸ 小ロットから承ります。

➤大規模にデータ作成をする前に、少量のデータでテストをしたいというようなご要望にお応えします。

❹ Baopartの多様性

➤Baopartの居住エリアは、日本、ベトナム、タイ、中国、台湾、そのほか英語圏などに満遍なく

 広がっています。

❺ 海外のサービスを利用する場合と比べて、コミュニケーションコストが低くなります。

➤例えば、Mechanical TurkやFiture Eight(旧CrowdFlower)などの海外のサービスを利用する

 場合、ニーズにあったタスクの雛形がないために、Forumなどで確認したり、進捗を管理したり、

 担当者と英語でのやりとりをする必要がありますが、皆様の窓口になるBAOBABのスタッフは

 日本語ネイティブです。

 必要なツールや作業者の手配、作業進捗管理など、必要な手続きはバオバブで全て行います。

➤お客様にご用意いただくのは、作業用のデータおよび学習データの仕様のみとなります。

Page 40: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

主な顧客実績

 国立研究開発法人法人 情報通信研究機構

 株式会社Preferred Networks

 パナソニック システムネットワークス株式会社

 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

 東京大学

 日産自動車株式会社

 株式会社NTTドコモ

 クックパッド株式会社

 ヤフー株式会社

 株式会社リクルートコミュニケーションズ

 凸版印刷株式会社

 NHK

 カーネギーメロン大学

  等

 ※順不同・敬称略

Page 41: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

顧客実績- クライアントからの声

「バオバブに研究用のデータ作成を何回も頼んでいますが、少し変わった 依頼でも快く、柔軟に対応していただき、大変助かっています。 ぜひおすすめします。」 カーネギーメロン大学 言語技術研究所 ( CMU-LTI ) 助教 Graham Neubig

「高クオリティで様々な要求に応じた画像アノテーションデータ・セット を作成していただいております。 またアノテーターも一人ひとり管理されているため、機密性が高いデータ のアノテーションもお願いしております。」 株式会社 Preferred Networks 代表取締役副社長 岡野原 大輔

Page 42: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

代表者

相良 美織( Miori Sagara )

2010年 バオバブ創業

2011年4月〜2014年3月 (独) 情報通信研究機構 勤務

成田空港/DoCoMo等への研究成果の実用展開、音声認識技術/音声合成技術を採用した障聴者と健聴者とのコミュニケーション支援アプリ「こえとら」の研究開発に携わる。

2012年 (独) 情報通信研究機構 成績優秀表彰(個人)

2013年 AAMT(Asia-Pacific Association for Machine Translation ) 長尾賞受賞

2015年言語処理学会 代議員就任総務省 多言語音声翻訳技術の研究開発及び社会実証 外部有識者委員就任

2016年 グローバルコミュニケーション開発推進協議会

2017年総務省情報通信審議会 情報通信技術分科会 技術戦略委員会 次世代人工知能社会実装WG 構成員就任

Page 43: 学習データ構築サービスのご案内 ツール・作業紹介資料2.0.pdf · 画像収集(jpeg形式・海外での画像収集も可能) 収集した画像へのタグ付け、キャプション付け

+

他 多言語対訳シナリオ作成・評価など

ご紹介したツールを使った作業以外にも

学習データ作成でなにかご要望がありましたら、

お気軽にご相談ください。

株式会社バオバブ