みんなビックデータビックデータって言ってるけど...
TRANSCRIPT
みんなビックデータビックデータって言ってるけど名寄せとかどうしてんの?
13年10月5日土曜日
自己紹介
酒井一晃( send | かずあき )
最近はソーシャルメディア関連の分析ツールの R&D やプロトタイピングが主な仕事
13年10月5日土曜日
はじめに
13年10月5日土曜日
名寄せって何?
13年10月5日土曜日
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のものだっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のものだっけ?
このデータはどういう意味のものだっけ?
名寄せとは?
13年10月5日土曜日
このデータはどういう個人のものだっけ?
このデータはどういう意味のものだっけ?
名寄せとは?
今回のお題はこれ!
13年10月5日土曜日
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もできないよね
なんで必要なの?
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もできないよね
なんで必要なの?データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もできないよね
なんで必要なの?
コード化
データ解析
13年10月5日土曜日
データから何かを知ったり見つけたりしたい!
人間では大変すぎるので機械にやらせたい
機械がわかる形に翻訳しないとなあ
その前にデータを整理整頓しないと翻訳もできないよね
なんで必要なの?
コード化
名寄せ
データ解析
13年10月5日土曜日
主な名寄せの内訳
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものをまとめたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものをまとめたい
コード化されてない文字データをコード化していきたい
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものをまとめたい
コード化されてない文字データをコード化していきたい
コード統合
13年10月5日土曜日
主な名寄せの内訳
違う形でコード化されてるものをまとめたい
コード化されてない文字データをコード化していきたい
コード統合
辞書化
13年10月5日土曜日
さて本日の内容は?
13年10月5日土曜日
13年10月5日土曜日
「コード統合」って具体的には?
13年10月5日土曜日
「コード統合」って具体的には?
「辞書化」ってどういうこと?
13年10月5日土曜日
「コード統合」って具体的には?
13年10月5日土曜日
例えば性別コード
13年10月5日土曜日
性別コードあるある
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
13年10月5日土曜日
性別コードあるある
コードが 0 からはじまったり、1
からはじまったり
内容が男性からはじまったり、女性からはじまったり
13年10月5日土曜日
標準規格とかないの?
13年10月5日土曜日
実はあります
13年10月5日土曜日
実はありますISO 5218
0: not known
1: male
2: female
9: not applicable
13年10月5日土曜日
実はありますISO 5218
0: not known
1: male
2: female
9: not applicable
JISX 0303(廃止)
1: 男
2: 女
13年10月5日土曜日
なんでみんな使わないの?
13年10月5日土曜日
なんでみんな使わないの?システム都合
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
13年10月5日土曜日
なんでみんな使わないの?システム都合
男性先頭にしたい、女性先頭にしたい
規格を知らない
コード標準あるかもなんて考えたこともないや
無関心・怠惰
要件にデータ解析するとかないし適当でいっか
複数のデータソースを扱うときによくある問題
13年10月5日土曜日
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
実務的には医薬系システム以外は社会的な性
どう統合しよう?
13年10月5日土曜日
基本的は ISO 5218
目的と定義を明確に
ISO 5218「The use of this standard and associated codes
may be referred to by the designation “SEX”.」
社会的/生物学的な性
実務的には医薬系システム以外は社会的な性
ISO 5218 互換なんだけど定義がちがったりコード種が多かったりでもいい
どう統合しよう?
13年10月5日土曜日
その他のコード問題
13年10月5日土曜日
その他のコード問題
「洗い替え」
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
13年10月5日土曜日
その他のコード問題
「洗い替え」
コードの内容・意味が変わるときに起こる
関連するデータを正しい内容に書き換える作業
統廃合などで発生(例: 郵便番号、企業コード)
時代の変化等で発生
13年10月5日土曜日
「辞書化」ってどういうこと?
13年10月5日土曜日
違う表現同じ意味
13年10月5日土曜日
全角半角
ひらがなカタカナ
記号
誤字脱字変換ミス
単語の出現順序
略称
業界用語専門用語
類義語
文脈
etc...
違う表現同じ意味
13年10月5日土曜日
機械に同じ意味だと教えたい!
13年10月5日土曜日
実際の処理の流れ
13年10月5日土曜日
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
未整理のデータ
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
未整理のデータ
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
未整理のデータ
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
未整理のデータ
同義語辞書
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
未整理のデータ
同義語辞書
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
辞書による処理辞書を引いて同義語があるかチェック
未整理のデータ
同義語辞書
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
辞書による処理辞書を引いて同義語があるかチェック
未整理のデータ
同義語辞書
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
辞書による処理辞書を引いて同義語があるかチェック
未整理のデータ
同義語辞書
13年10月5日土曜日
変換・丸め処理全角半角記号排除丸め処理等
類似度算出同義語の候補をリストアップ目視で辞書化
辞書による処理辞書を引いて同義語があるかチェック
未整理のデータ
同義の内容を丸めこんだ
データ
同義語辞書
13年10月5日土曜日
実装はどうなってるの?
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
13年10月5日土曜日
実装はどうなってるの?以前はほぼ全部実装
フィルタリング・丸め・変換処理
形態素解析/N-Gram
類似度計算(TF-IDF)
辞書処理
今は Apache Solr 様々
設定書くだけ!ほとんどコーディングレス!
13年10月5日土曜日
課題点
13年10月5日土曜日
課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要
13年10月5日土曜日
課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
13年10月5日土曜日
課題点類似度で候補が出せないような略語や類義語は別の手段で辞書の作成が必要
類似度でサジェストする際に誤爆は避けられない
高いスコアでも自動で辞書化できない
文脈がわからないと意味が決定できないものなどは辞書でも対処できない
機械学習系でなんとかカバー出来るかも??
13年10月5日土曜日
本日のまとめ
13年10月5日土曜日
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統合」と「辞書化」
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をすることが目的
13年10月5日土曜日
「データ解析」における「名寄せ」は「コード統合」と「辞書化」
「コード統合」は複数のデータソース、「洗い替え」は長期間データを扱う際に高確率で起こる
「辞書化」は「コード化」するための準備をすることが目的
「名寄せ」の目的は、データをどう使いたいかというニーズに対する手助け
13年10月5日土曜日
おわりに
13年10月5日土曜日
本当は「俺こんな感じでやってるんだけど、君
んとこどうしてんの?」とか「一緒に仕事してみない?」みたいな話
に繋げたかったんですが。。。
13年10月5日土曜日
おしまい
13年10月5日土曜日