omegat プレゼンテーション 2012
DESCRIPTION
2012/6/29 に行われたダブリン計算言語学研究セミナーにおける Didier Briel 氏の発表資料日本語訳です。オリジナル (PDF) は http://www.didierbriel.com/news/dclrs.html より入手可能です。日本語版作成に当たり、PDF の埋め込みフォントには Migu 1P (http://mix-mplus-ipa.sourceforge.jp/) を使用させていただきました。ありがとうございました。TRANSCRIPT
OmegaT
ダブリン計算言語学研究セミナーDidier Briel
2012年6月
この文書は、原著者 Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。著作権は Didier Briel が保有しています。査読協力 Jean-Christophe Helary (感謝!)。
Original document in English, copyright Didier Briel
2012年6月
目次
• OmegaT のワークフロー• 主要機能• プラグイン• 対応可能なファイル形式• 他の翻訳支援ソフトとの互換性• OmegaT プロジェクト• 入手方法• サポート
ダブリン計算言語学研究セミナー
OmegaT
OmegaT のワークフロー主な特徴
ファイルの翻訳
実演
2012年6月
OmegaT のワークフロー主な特徴
• 完全なスタンドアロン– 外部のソフトウェア(たとえば Microsoft Office)がインス
トールされているかどうかに、まったく依存しない
• Java 1.5 以上に対応するすべてのプラットフォーム上で動作
• 中間形式ファイル不要– 準備不要
• インポートまたは変換
– 「後始末」不要
– プロジェクトの変更(文書の追加/変更/削除)は動的に即時反映
• データベース不要– すべてのデータはメモリ上で処理される
– 非常に高速
– データ量には制限あり
• 翻訳の自動反映(Automatic propagation)
ダブリン計算言語学研究セミナー
2012年6月
OmegaT のワークフローファイルの翻訳
• プロジェクトを新規作成
• もし必要であれば、原文ファイルを変換
• 用語集と翻訳メモリをインストール(ファイルコピー)
• 翻訳
• 訳文ファイルを生成
• もし必要であれば、訳文ファイルを変換
ダブリン計算言語学研究セミナー
OmegaT
主要機能
RTL と bidi 対応
2012年6月
コンセプト
主要機能
• 参考訳文• 翻訳の自動反映(Automatic propagation)• 用語集• プロジェクトや参照している翻訳メモリ、文書を対象とした
検索• プロジェクト内にフォルダーやファイルを無制限に配置可能• 右から左への横書き(RTL)および文字表記方向混在(bidi)
入力• タグ検証(妥当性検証)• 綴り確認(Hunspell または JMySpell)• 国語および多国語辞書(StarDict または Lingvo DSL 形式)• 機械翻訳(Google Translate, Apertium, Belazar)
ダブリン計算言語学研究セミナー
2012年6月
コンセプト
主要機能: RTL と bidi 対応
• 翻訳支援ツールには LTR と RTL 言語の混在表示が求められる– 英語からアラビア語へ– ヘブライ語から英語へ
• OmegaT は分節の表示方向を自動的に切り替える– 各分節の先頭にある Unicode マーカーで表示方向を設定– 向きは手動で指定することも可能(Shift+Ctrl+O)
• RTL 言語の分節の途中で、LTR への切り替えが必要な場合がある– 外国語の名前– 電話番号
• José García-Verdugo(スペイン、カスティーリャ・ラ・マンチャ大学 アラビア語-スペイン語教師)– ”わたしは OmegaT を選びました。右から左方向へ、そして左から右
方向への表記をうまく処理してくれたからです。完璧というわけではありませんが、実際のところ多くの高価な商用製品よりも、はるかに良かったのです ”
– http://tech.groups.yahoo.com/group/OmegaT/message/19344
ダブリン計算言語学研究セミナー
OmegaT
プラグインライセンスの互換性
アーキテクチャ
スタブ
利用可能なプラグイン
トークナイザー
スクリプト
2012年6月
プラグイン
ライセンスの互換性
• 主として法的な理由により、プラグインはOmegaT 本体と別個に配布されている– OmegaT のライセンスは、ライブラリに JAXB を含むた
め、厳格な GPL v2– 多くのプラグインは Apache コンポーネントを利用して
いる– Apache ライセンスは GPL v2 と矛盾する– Apache ライセンスは GPL v3 と矛盾しない– OmegaT のごく一部(スタブ )は GPL v3 で再ライセン
スされている• これが可能なのは、OmegaT のソースコードに次のように
書かれているからライセンスはバージョン 2 か、あるいは(必要なら)それよりも後のバージョンを適用
ダブリン計算言語学研究セミナー
2012年6月
プラグイン
ライセンスとの互換性
• GPL v3 と矛盾しないライセンスなら、プラグインで利用可能– Apache ライセンス– 修正 BSD ライセンス
• 三条項 BSD ライセンス
– …– http://www.gnu.org/licenses/license-list.ja.html
#GPLCompatibleLicenses
• GPL と相容れない一部のライセンス(たとえば BSD)は、他のソフトウェアに同梱されるときに、ソースコードの配布を必要としない– 寛容な非コピーレフト(Permissive non-copyleft)
ダブリン計算言語学研究セミナー
2012年6月
プラグイン
アーキテクチャ
• 外部プラグインは実行時に plugins フォルダーから読み込まれる
• プラグインは主にインターフェイスを介してOmegaT と連携する。これらのインターフェイスを参照するために、スタブ が必要になる
• スタブ は「空」のソースコードで、必要なオブジェクトとメソッドの宣言のみを含む
• 実行時に、これらの空のメソッドは実物と置き換えられる
• プラグインの作り方は、OmegaT のソースのdocs_devel フォルダに文書化されている– サンプル プラグイン プロジェクト一式を含む
ダブリン計算言語学研究セミナー
2012年6月
プラグイン
利用可能なプラグイン
• OmegaT 製– LanguageTool
• 言語構文チェック
– トークナイザー• 参考訳文と用語集の認識精度向上
– スクリプト• OmegaT 内でスクリプトの実行を可能に
• サードパーティー製– Okapi
• ファイルフィルターの追加• http://www.opentag.com/okapi/wiki/index.php?title=Okapi_Filters
_Plugin_for_OmegaT
– Glossum• オンライン用語集• http://www.glossum.com/omegat
ダブリン計算言語学研究セミナー
2012年6月
プラグイン
トークナイザー
• トークナイザーは Lucene (Apache) を使って開発
• 24 種類の言語で利用可能– Lucene 2.9.0 に基づく
• OmegaT はこれを3つの目的で使用– トークン(字句)の解析
• 綴り確認の性能改善• CJK 言語における “ 単語” 認識の性能改善
– 参考訳文からストップワード を排除– 見出語(lemmas)の解析
• 参考訳文と用語集の両方で使用• 一部の言語では利用できない
– チェコ語• ストップワードのみ
– 中国語、日本語、韓国語(CJK )• 字句解析のみ
ダブリン計算言語学研究セミナー
2012年6月
プラグイン
スクリプト
• OmegaT のメモリ上に保持されているデータを操作できる• グラフィカルなインターフェイスや対話式の機能を作成でき
る• 初期状態で多くのスクリプト言語を使用可能
• NetRexx
• XSLT
• Groovy
• JavaScript
– 他のスクリプト言語も簡単に追加できる
• Jacl (Tcl/Tk)
• Jython (Python)
• サンプルスクリプトを同梱– 検索と置換
– スクリプトによる GUI 作成
– …
ダブリン計算言語学研究セミナー
OmegaT
対応可能なファイル形式ネイティブ形式
Okapi プラグインカスタム コーディング
Okapi Rainbow
2012年6月
対応可能なファイル形式
ネイティブ形式
• 文書用ファイル形式– プレーンテキスト(ユニコードを含む、Java が対応する全エンコー
ディング)– (X)HTML(Web サイトのディレクトリ構成をそのまま保持できる)– StarOffice、OpenOffice.org、LibreOffice および OpenDocument– Open XML(Microsoft 2007/2010)– ヘルプとマニュアル– HTML Help コンパイラ– LaTeX– DokuWiki– CopyFlow Gold for QuarkXPress– DocBook– Typo3 LocManager– Iceni Infix (PDF)– XLIFF source = target– TXML Wordfast source = target
ダブリン計算言語学研究セミナー
2012年6月
対応可能なファイル形式
ネイティブ形式
• 地域化用ファイル形式– Android リソース– Java リソースバンドル– 「キー=値」 形式ファイル– Mozilla DTD– Windows リソース(RC)– WiX ローカリゼーション– ResX– Flash の XML 出力– Windows 用 Camtasia– Magento CE locale CSV – PO(Portable Object File)(既存の翻訳も取り込み)– SubRip 字幕形式(SRT)– SVG 画像
ダブリン計算言語学研究セミナー
2012年6月
対応可能なファイル形式Okapi プラグイン
• InDesign IDML• JSON• Qt TS• Trados TagEditor TTX (既存の翻訳も取り込み)• Transifex プロジェクト• Wordfast Pro TXML(ベータ版)(既存の翻訳も取り
込み)
ダブリン計算言語学研究セミナー
2012年6月
対応可能なファイル形式
カスタム コーディング
• ソースコードを少し変更するだけでファ
イルフィルターを作成できる
• 手順は文書化済み
– http://www.omegat.org/en/howtos/new_filter.html
• 特定の XML フィルターを作るのがあま
りにも簡単なので、汎用の XML フィル
ターは存在しない
ダブリン計算言語学研究セミナー
2012年6月
対応可能なファイル形式Okapi Rainbow
• Okapi Rainbow は OmegaT 用のプロジェクトファイルを生成できる。さらに…– ファイルフィルターの追加
• 追加できるファイル形式
– MIF (Adobe FrameMaker)
• 形式によっては既存の翻訳も取り込む
• 汎用の XML フィルター
• タグによる翻訳用テキスト指定
– ITS (Internationalization Tag Set)
– 機械翻訳による事前翻訳
ダブリン計算言語学研究セミナー
OmegaT
他の翻訳支援ソフトとの互換性翻訳メモリ
二ヶ国語文書
用語集
2012年6月
他の翻訳支援ソフトとの互換性
• 翻訳メモリ– 翻訳メモリの個数は無制限– TMX バージョン 1.4b レベル 1 および 2 に対応
• 取り込み• 出力
– テキストの整形情報は、書式用プレースホルダーとして保持される
• 二ヶ国語文書(unclean documents とも呼ばれる)– PO– XLIFF(Rainbow 経由で既存の翻訳も取り込める)– TTX(Okapi プラグイン 経由)– TXML(Okapi プラグイン 経由で既存の翻訳も取り込める)
• 用語集– 用語集の個数は無制限– 用語集は、複数のファイル形式に対応
• TSV(タブ区切り)• CSV(カンマ区切り)• TBX (TermBase eXchange)
– 書き込み可能な用語集は一種類だけ• TSV 形式のみ
ダブリン計算言語学研究セミナー
OmegaT
OmegaT プロジェクト沿革史
スタッフ
理念
普及率
資金調達
2012年6月
OmegaT プロジェクト沿革史
• 開発を開始– 2000年 C++ で書かれた
• 最初の一般公開– 2001年 Java で書かれた
• 文単位の分節化– 2005年 OmegaT 1.6 から
• 綴り確認機能– 2008年 OmegaT 1.8 から
• 参考訳文のオンデマンド照合による、プロジェクトの「瞬間」読み込み– 2009年 OmegaT 2.0 から
• 最初のプラグイン– 2009年 OmegaT 2.0 から
• 複数訳文が可能に– 2011年 OmegaT 2.5 から
• チームプロジェクト– 2012年 OmegaT 2.6 から
ダブリン計算言語学研究セミナー
2012年6月
OmegaT プロジェクトスタッフ
• 最初の開発者– Keith Godfrey(アメリカ/イギリス)
• プロジェクト責任者兼ウェブサイト管理者– Marc Prior(ドイツ)
• 過去の開発担当– Maxym Mykhalchuk(イタリア/ウクライナ)– Henry Pijffers(オランダ)
• 現在の開発チーム– 開発担当
• Didier Briel(フランス)
– 開発リーダー• Alex Buloichik(ベラルーシ)
• 地域化担当兼ユーザーグループオーナー– Jean-Christophe Helary(日本)
• 文書化担当– Vito Smolej(ドイツ)
ダブリン計算言語学研究セミナー
2012年6月
OmegaT プロジェクト理念
• OmegaT は非公式の組織– 法律的な組織の実体を持たない
• ユーザーからの協力を求めている– プログラミングのスキルは要求されない
• 翻訳
• チュートリアルビデオの作成
• 地域の翻訳者コミュニティに対する啓蒙活動
• …
ダブリン計算言語学研究セミナー
2012年6月
OmegaT プロジェクト普及率
• 正確な統計は存在せず– OmegaT は使用状況を追跡していないため
• 2010 年の調査によると– Wordfast、Deja Vu、MemoQ ユーザーの
1/3、また最も利用されている Trados ユーザーの 1/8 が OmegaT を使用している(出典: Wikipedia)
– http://www.translationtribulations.com/2010/07/results-of-june-translation-tools.html
ダブリン計算言語学研究セミナー
2012年6月
OmegaT プロジェクト普及率: ダウンロード数
• Sourceforge 利用開始以来のダウンロード数
• Java Webstart の利用は加算されていないダブリン計算言語学研究セミナー
2012年6月
OmegaT プロジェクト資金調達
• OmegaT プロジェクトにおける作業のほとんどがボランティアによる
• 寄付は歓迎– OmegaT プロジェクトはそれを特定の目的に使
用する• 開発リーダーのための Mac 購入予算
• その他開発経費
• 開発してほしい機能があれば、そのスポンサーになる方法もある– 開発チームは、機能仕様とその開発費について
スポンサーと打ち合わせをする
ダブリン計算言語学研究セミナー
OmegaT
入手方法ダウンロード/Java Webstart
ソースコード
2012年6月
入手方法
ダウンロード/Java Webstart
• OmegaT は2つのバージョンが提供されている– 通常版 (Standard)
• 取扱説明書完備(少なくとも英語版で)
– 最新版 (Latest)• 新機能の取扱説明は無し
• 新機能は安定性にやや欠ける
• 4つのプラットフォーム向け– Windows– Linux– 汎用(Java アーカイブのみ)– Mac
• Java Runtime Environment 付きと JRE 無し
• さらに、OmegaT は Java Webstart からも使える– インストール不要(ユーザーの観点から)– アップデート版は自動更新– プラグインは使えない
• 全バージョンが omegat.org からダウンロード可能
• プラグインは別のウェブサイトにある– https://sourceforge.net/projects/omegat-plugins/
ダブリン計算言語学研究セミナー
2012年6月
入手方法
ソースコード
• 全リリース分のソースコードが提供されている
• /trunk ソースを公開– Subversion
• svn co https://omegat.svn.sourceforge.net/svnroot/omegat/trunk omegat
– Tarball• http://omegat.svn.sourceforge.net/viewvc/omegat/?v
iew=tar
• プロトタイプはときどき Git で公開– http://omegat.git.sourceforge.net/git/gitweb.cgi
• プラグインの /trunk ソースは Git で公開– http://omegat-plugins.git.sourceforge.net/git/gitweb-index.cgi
ダブリン計算言語学研究セミナー
OmegaT
サポートユーザーおよび開発者向けサポート
バグおよび機能拡張トラッカー
コントリビューション
2012年6月
サポート
ユーザーおよび開発者向けサポート
• ユーザー向けメーリングリスト
– http://groups.yahoo.com/group/omegat– 1750 メンバー(訳注:2012/10 時点で 1800 人超)– 24 時間 365 日活動– 英語中心だが、他の言語(日本語、ロシア語、ドイツ語、
フランス語等)でもサポートを受けられる– 母国語での投稿を推奨
• 開発者およびパワーユーザー向けメーリングリスト
– https://sourceforge.net/mailarchive/forum.php?forum_name=omegat-development
– 125 メンバー– 英語– 技術的な話題
ダブリン計算言語学研究セミナー
2012年6月
サポート
バグおよび機能拡張トラッカー
• バグレポート– https://sourceforge.net/tracker/?group_id=68
187&atid=520347– 2002 年 11 月以来、500 件のバグが報告– 2012/6/13 時点で 47 件がオープン– オープンで最古は、2006 年 7 月のバグ
• 機能拡張リクエスト(RFE)– https://sourceforge.net/tracker/?group_id=68
187&atid=520350– 2002 年 11 月以来、795 件のリクエストが登録– 2012/6/13 時点で 340 件がオープン– オープンで最古は、2004 年 6 月のリクエスト
ダブリン計算言語学研究セミナー
2012年6月
サポート
コントリビューション
• 実際にコントリビューションを送る前に、それについて話し合う機会を持つと有益– 機能拡張リクエストを送る– ユーザー向けメーリングリストで話し合う– 開発者向けメーリングリストで話し合う– 開発担当に非公開で相談する
• Subversion へのコミット権限を持つのはコア開発者だけ
• コントリビューションは開発担当へ送る
• 受け付けるもの– Zip 圧縮ファイル
• パッチ
• 変更した全ソースファイル
• 必要であればテストデータも
– パッチの目的の説明
ダブリン計算言語学研究セミナー