10分くらいでわかるgoogle refineのrdf拡張
DESCRIPTION
第1回LinkedData勉強会 http://kokucheese.com/event/index/6845/ の発表資料 補足の再現ムービーは http://www.youtube.com/watch?v=_I0mLFDXlUkTRANSCRIPT
Google Refine
• データをきれいにする作業用ツール
• きれいにする = 構造化
• 構造化 = テーブル(表)
11年1月24日月曜日
データをきれいにする
• 文字種 単語種 データ型
• & を & に
• Okamoto, Taro を Taro Okamoto に
11年1月24日月曜日
元 Freebase Gridworks• パブリックデータをFreebaseで公開するための作業用ツール
• パブリックデータは、紙のOCR、PDF
の表のコピペ、高度なhtml table、Excel、CSV、など多彩
• それをきれいに構造化する作業用
11年1月24日月曜日
良い実装• スケール性 ローカルServer-client
• in-memory データストア
• マルチプラットフォーム Java
• なじみのGUI HTML
• スクリプティング可能性 JSON, Jython
11年1月24日月曜日
基本機能
• Importing
• Filtering / faceting
• Editing cells, columns, rows
• Exporting
• History
11年1月24日月曜日
TSV, CSV, ...ExcelXML, RDF/XMLJSONGoogle Spreadsheets
TSVCSVExcelHTML table
.zip, .tar.gz, .tgz, tar.bz2, .gz, .bz2
Importing / Exporting
TemplatingYAML
MediaWiki Table
11年1月24日月曜日
Editing cells
• "Taro Okamoto"
• value.split(" ").reverse().join(", ")
• "Okamoto, Taro"
11年1月24日月曜日
Google Refine Expression Language (GREL), Jython
• Editing に利用できる言語
• GREL はJavaScriptぽい
• 正規表現は Java と互換
11年1月24日月曜日
History
• データ操作をJSONとしてログ
• Undo/Redo
• ログは実行可能
11年1月24日月曜日
Reconciliation• セルの値をキーにして外部データソースからデータを取得し、データを拡張する機能
• Freebase, ...
• Reconciliation Service API
• a RESTful JSON API
https://code.google.com/p/google-refine/wiki/ReconcilableDataSources
https://code.google.com/p/google-refine/wiki/Reconciliation
11年1月24日月曜日
Extensions
• Stats extension
• RDF extension
http://code.google.com/p/simile-butterfly/
11年1月24日月曜日
RDF extension
• テーブルデータをRDFにするためのGUI
• 語彙/オントロジー管理
• RDF/XML, Turtle での出力
• かんたん
http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/11年1月24日月曜日
実演http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/#example
• 再現ムービーをご覧下さい:http://www.youtube.com/watch?v=_I0mLFDXlUk
11年1月24日月曜日
くわしくは
• http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/
• https://code.google.com/p/google-refine/
• https://code.google.com/p/google-refine/wiki/FAQ
• https://code.google.com/p/google-refine/wiki/DocumentationForUsers
11年1月24日月曜日