文字情報検討 wg - ipa...correspond to the same glyphic subset, registrants are strongly...

13
平成 25 年度 1 文字情報検討 WG 日時 平成 25 5 31 日(木)16001800 場所 文京グリーンコート センターオフィス 16 3 会議室 <議事次第> 1. 開会 2. IRG#40 香港出席報告 3. 文字情報基盤成果物バージョンアップについて 4. Moji-Joho コレクション(仮称)の IVD 登録について 5. その他 <配布資料> 資料 0:議事次第 資料 1:委員名簿 資料 2ISO/IEC JTC 1/SC2/WG2/IRG #40 の出席報告 資料 3:文字情報基盤成果物バージョンアップ計画案 資料 4Moji-Joho コレクション(仮称)の IVD 登録について 参考資料 1:平成 24 年度第 4 回文字情報検討 WG 議事録案 ----------------------------------------------------------------------------------------------------------------- 文字情報基盤整備事業サイト: http://mojikiban.ipa.go.jp/ 資料 0

Upload: others

Post on 10-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

平成 25 年度

第 1 回 文字情報検討 WG 議 事 次 第

日時 平成 25 年 5 月 31 日(木)16:00~18:00

場所 文京グリーンコート センターオフィス 16 階 第 3 会議室

<議事次第>

1. 開会

2. IRG#40 香港出席報告

3. 文字情報基盤成果物バージョンアップについて

4. Moji-Joho コレクション(仮称)の IVD 登録について

5. その他

<配布資料> 資料 0:議事次第

資料 1:委員名簿

資料 2:ISO/IEC JTC 1/SC2/WG2/IRG #40 の出席報告

資料 3:文字情報基盤成果物バージョンアップ計画案

資料 4:Moji-Johoコレクション(仮称)の IVD 登録について

参考資料 1:平成 24 年度第 4 回文字情報検討 WG議事録案

-----------------------------------------------------------------------------------------------------------------

文字情報基盤整備事業サイト: http://mojikiban.ipa.go.jp/

資料 0

Page 2: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

平成 25 年度

文字情報検討 WG 委員名簿 (2013 年 5 月 31 日現在)

主査 高田 智和 人間文化研究機構国立国語研究所 理論・構造研究系准教授

委員 氏原 基余司 文化庁 文化部国語課 主任国語調査官 織田 哲治 日本アイ・ビー・エム株式会社 ソフトウェア開発研究所グロー

バリゼ-ション技術アドバイザリ-S/Wエンジニア 小西 聡 日本電気株式会社システムソフトウェア事業部 フォントグル

ープ マネージャ 笹原 宏之 早稲田大学 社会科学部・社会科学総合学術院 教授 関口 正裕 富士通株式会社 ミドルウェア事業本部 商品企画室 次期開発

企画部 マネージャー 田中 恭弘 株式会社モリサワ 本社フォント開発部二課 係長 三橋 洋一 大日本スクリーン製造株式会社 商品開発統括部ソフトウェア

商品開発部フォント課 課長 山本 知 株式会社日立製作所 情報・通信システム社 IT プラットフォー

ム事業本部 開発統括本部 ソフトウェア本部 生産技術部主任技師

小林 龍生 情報処理推進機構 国際標準推進センター専門委員

事務局 田代 秀一 情報処理推進機構 国際標準推進センター長 沼田 秀穂 情報処理推進機構 国際標準推進センター専門委員 池田 佳代 情報処理推進機構 国際標準推進センター研究員 武藤 圭祐 情報処理推進機構 国際標準推進センター 山中 悠馬 情報処理推進機構 国際標準推進センター

資料 1

Page 3: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

1/2

����������������� ���� ����������

������ �� ����

�����

�� ���� �

����������

����� ��������������

�� �����

� !" ��� #$%��&'()*+,-.-/0��� 123456 ��"7�89:;/<5

6 �=0>?@4AB(/C0DE8�FGHI&JK;)07�8LCMNOO;/<�PQR

" ���STU&I()=0VWEX"Y�Z[A\]^_/`"8ab&7�cMdeTf&gC

MNO8�h;0]C.-/<�

� #$%��ij" ����X"kl8m)Q^n-/�Po."pqrsOtu8vw&0����������

��������������ix0�����"7�8y(0�Po."pqrsOtu=0z{|}n-/<�

� ~���"a���&�M56 "��T8\];0!��&��cMNOO;/<�

� �!= ����� ��� ������o. �������X0��X9�n-M<�

�� �����

�"�#�$�#%�����#X"@4����"����

� �Po." "�#�$�#%�����#"��O;)0VWEZ�Z�O�� "¡U¢£¤¥&¦/§)@4

����"¨©Aª�n-/NOA@4����"¨©O;)��n-/<�

�&��'������ ��#��"«¬��

� &��'������ ��#��A!"(��)���*��+­o. �, (�-'���+­&«¬;/<�

����123456 ��

� v®STU �4��. �/0��..��0����1�0�����10����.��O 2&�STU �4���3 ��"¯ 1

4856 o.°±cMNOO0²s³£STU �4��.�" �"´µ8¶¤cMNO82·;0

!��&��cMNOO;/<�

����123456 �¸2��

� �PSTU �14O �"&STU 1/4"QR¹ºx»8¼];/<�

� -4�"&��1330�-4�"&��1 �0�-4�"&��3� 0�-4�"&�����" /48°F0�"&STU"4½¶¤8

¼];/<�

� ¾®o."¿ÀÁTpqrs8kl;0ÂÃ8ÄM/C&ÅÆÇ�ÃAÈ��Éu48 5 ÊËs&

ÌcNOX2·;/<�

� 56 �¸28 ����Í ����o. � �Î�X /0���4 Ï�O ���� /ÐiÑ /0���4 Ï�

O&JKcMNOX2·;/<�

� �PSTU&I()=0ÒÓÅÆ&Ô§)ÕÖ×ØÙEAÚÛcM34 ��� 480�Í&ÜÝ.

Þcß) ��&,-MNO8�h;���(� / �0¼]n-/<�

� 56 ��¸2"àj"¿ÀÁT� 8�"Ôá&2·;/<�

����6�36��7����$����8�(� /�90���:#��;�#���;%�#'�����'��<� ��#����

����6��6��7���*;���;����:=��'��<����#��:�#��:�;*�#���**��#:�#��#'�����'��<� ��#���

����6� 6��7����:�����#�����**��#:0���:#��;�#���;%�#'�����'��<� ��#����

�� ������������������������ ������ ������������������������ ����

���� !"#$%& '�()��*+ �,-*+ ���./0#$����()�*+ �.����12#$�3�����

��45,-*+ � 12 6���

�� ��������������������������� 789:�";% ��� <=>?��

k-mutou
テキストボックス
資料2
Page 4: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

2/2

����6� 6��7���*;���;����:=��'��<����#��:� #��:�;*�#� <���;��>�������:�����#���� #�� #'�� ��

�'��<� ��#���

����6� 6�37����<��*������:�����#�����**��#:0���:#��;�#���;%�#'�����'��<� ��#����

����6��6��7���;*�##��:� #��:�;*�#���:���:�:�#�� #'�����:�����#�����**��#:�#�� #'�����'��<�

��#���<�����:��::���:��#���/��

�âãFä_@4"åæç��

� âãFä_@4=èéåæçcMßFX=�(Oê®o.·ëAQ^n-/<N-&I()=0¾q

rìA ����?��?��X&ãíX·ë8Q^;0�! ��/�X�ÃcMNOX2·;/<N"u�

=0@4����îïO"ðݺAñ(/C0òó&ôõcMÈ�A�M<�

������

� ����$��1��"ö�÷s&I()0�Pøê®o.Q^n-/pqrs�/0���4ùú0�ûeTe�

ü�8�Ã;0�Po."pqrs=z{|}n-/<�

� à!"�Ã8ý�þ)ö�÷s8�Ëf�Ts;0¾qrìA ����?��?��X&ãíX·ë8Q^

;0�! ��/�X ����$��18\�cMNOX2·;/<�

�2�@���

� à!"��XQ^n-/¥��" 2�@ �Us&I()0����?1?�� �X&¿ÀÁTpqrs8Q

^cMNOX2·;/<�

�2(����

� 2&�o."2(�QR�� 4�&I()0����?��?��X&¿ÀÁTpqrs8Q^;0�! ��/�

X�ÃcMNOX2·;/<�

i��

3 ��!��"#����$�����%�&����%��� @����� <=>?������AB�CDEFGDH IJ�KL������

�� �'��%#(�)�������*����%�� @��MN OPQ.RS����TU ���� VWXY��Z[ \]Q ^_`a�b;���

Page 5: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

1

���������� ��������

���� � � � �� ��

��������

�� �����������

�� �� �� � � ������������������ ���� �����

���� ��������� �����!"#�������� �����

$��#���

�����������������

�� ����%&�'(�)���

�� *+�,�!"($-.�/0��12 � ���3�

� ���45�)���

�� -6� ���45�789:��)���

�� �� �;<=>�?. ���@A�BC�D>���������!"#

� ����EFG.�-6���1H�)���IAJ3�K�LM�!G

�����45$=N��

�� ���45�OPQL�)���

��� 45�OPQL��R��STUVW�XY#�Z��4[@A\�]^

_�`$��#���

�� aYb�(�cd��������

�� efYb�g(1��hi=6jg(klb��(3�cd������

��

� mnopqrstuvwxyz{|����}w~,!"#� ��� ��

�#����

�� �������� ����cd����������

�� ���� ��1�p�����3�cd����������

�� ������

� RTUVW�XY#�Z��4[@A`�]^_��

� �

k-mutou
テキストボックス
資料3
Page 6: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

2

�� ���u45�

�� ������)���

���� ��������(�$=N,G�(���9����E����

��� ��!"#�.������u��u�xz@�$=N��

�� �����x�w�

����451��������������3�

��  ¡¢£�¤w¥¦�f�

��  ¡¢£�

§¨¤w¥¦�� ¡¢£$��� ©�,#���

�� §¨¤w¥¦�f�

� �� !"ª«���u #$������

% ����%&�'( #$���� �

Page 7: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

1/7

文字情報コレクション(仮称)の IVD 登録について

2013年 5月 31日

文字情報基盤事務局

IVD 登録にあたってのHanyo-Denshi コレクションからの継承について

Moji-Joho コレクション(仮称)を IVD 登録するにあたり、文字情報基盤整備事業

(以下、文字情報基盤)が継承している汎用電子情報交換環境整備プログラム(以下、

汎用電子)の成果である IVD の Hanyo-Denshi コレクションをどのように継承するか

について審議していただきたい。

MJ 文字情報一覧表に含まれる MJ 文字図形のすべてが、固有の UCS 符号位置もし

くは IVS によって表現できることは、本事業の根幹であり、最終的なゴールでもある

(本事業における標準化のミッション)。

また、事務局としては、文字情報基盤が公式に汎用電子の成果物を継承したうえで進め

られていることもあり、Hanyo-Denshi コレクションについても、可能な限りその成果

を継承することが望ましいと考えている。

そのために、検討しなければならない具体的な問題は、次のようなことである。

【前回の議論のまとめ】

Hanyo-Denshiコレクションとの IVS共有の方法

UTS#37 は、下記のような記述で、複数のコレクション間での IVS の共有を、登録主

体間での合意を前提に強く推奨している。

If there are sequences that correspond to the same glyphic subset, it becomes a

burden for implementers, which can make a collection less likely to be

implemented. As a result, in an effort to minimize the number of sequences that

correspond to the same glyphic subset, registrants are strongly encouraged, but

not required, to share sequences where sequences in a submission are similar to

those in an existing collection. Furthermore, as part of the registration process, the

registrar shall alert the registrant to the potential of sharing sequences. The sharing

of sequences across collections may occur if there is mutual agreement among the

registrants for the affected collections.

k-mutou
テキストボックス
資料4
Page 8: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

2/7

Hanyo-Denshi コレクションとの IVS 共有の可能性は、3 通りある。

a) Hanyo-Denshi コレクションの中に必要とするグリフが無いと判断したものにつ

いて、当該グリフをMoji-Joho コレクションとして登録する。

b) Hanyo-Denshi コレクションのうち共有すべきと判断したものを Moji-Joho コレ

クションに登録し、さらに、新たな IVS を追加する。

c) Hanyo-Denshi コレクションとは独立に、すべての IVS を新たに定義し、

Moji-Johoコレクションとして登録する。

Page 9: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

3/7

Hanyo-Denshi コレクションには、文字情報基盤では対象としていない登記統一文字

に起源を持つ文字が多く含まれている。不要な混乱を避けるためには、a)の方式は避け

るべきであり、c)については、作業としては容易であるが、Hanyo-Denshi コレクショ

ンの継承という点でも、UTS#37 の趣旨という点でも望ましくないとの考えから、前

回の WG(2 月 28 日)において、b)の方法が良いとの結論となっている。

【審議事項】

1. Hanyo-Denshiコレクションの IVSとMJ文字図形との対応付け]

Hanyo-Denshi コレクションと Moji-Joho コレクションで IVS を共有するに当たって

は、UTS#37に記載されている Glyphic Subsetについて検討する必要があるが、この

問題については、最後に検討していただくこととし、まず、個々の IVS を共有する際

の問題点をまとめる。

[Hanyo-Denshi コレクションの IVS と MJ 文字図形の対応の前提]MJ 文字情報

一覧表において、一つの UCS に対して複数の MJ 文字図形が対応しているものに

ついて、平成明朝体グリフ名を参考に Hanyo-Denshi コレクションの IVS との対

応を取った(まず、機械的に紐づけ作業を行い、必要に応じて目視確認のうえ、

主査にご確認いただいた)。

① [UCSの確定]汎用電子で付与された UCS 符号位置につき、文字情報基盤事業と

して再度精査した結果、UCS 符号位置を変更したものや対応する UCS 符号位置

を削除したものがある。文字情報一覧表の MJ 文字図形のうち、最終的に対応する

UCS 符号位置が存在しないと判断したものについては、すでに情報規格調査会

SC2 専門委員会を経由して、ISO/IEC JTC1/SC2/WG2/IRG に対して、統合漢

字拡張 Fの候補として提案済みである。

② [Hanyo-Denshiコレクションの IVSの重複:いわゆる作り分け]主に汎用電子に

おいてデザイン統一のために一旦統合したグリフを、文字情報基盤ではさまざま

な理由(主として総務省からの要請)によって、異なる文字図形として追加作り

分けしたものがある。そのため、文字情報一覧表では、複数の MJ 文字図形が同一

の平成明朝名グリフに対応している場合がある。

Page 10: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

4/7

図 1: 作り分けの例

《MJ 文字情報一覧表には、汎用電子の整理番号と平成明朝名が参考情報として記

載されている。一方、IVD の各 IVS 欄には、Source として、平成明朝名のみが記

載されている。汎用電子の整理番号と平成明朝名の対応関係については、汎用電

子側から最終的な情報として“汎用 UCS対応最終版(高田氏作成、20120210 版)”

をご伝達いただいている。この情報をキーとして、MJ 文字情報一覧表と IVD の

Hanyo-Denshi コレクションの対応関係を取ると、平成明朝名で直接対応付けし

た場合と、汎用電子の整理番号を経由して対応付けした場合が異なる。》

③ [MJ 文字図形の字形を変更した例]MJ 文字図形は、Ver.001.01(正式版)を公

開した以降も、継続的にメインテナンスを行っている。その過程で、さまざまな

理由で文字図形の字形修正も行っている。これらの修正については、個別に履歴

情報を記録すると共に、バージョン 2.0 に更新した。

上記の問題につき、事務局では、次のような手順で Moji-Joho コレクションのうち、

Hanyo-Denshi コレクションと共有する IVS 候補の絞り込みを行った。作業にあたっ

ては、下記の資料を用いた。

IVD_Charts.pdf , IVD_sequences.txt (20120302 版)1

汎用 UCS 対応最終版(高田氏作成、20120210 版)

1 http://www.unicode.org/ivd/data/2012-03-02/

Page 11: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

5/7

以下の 1)から 3)について、ご確認にいただきたい。

1) [UCSの変更]0の Hanyo-Denshi コレクションにすでに IVS が登録されている

ものでも、別紙 2に示す文字情報基盤で UCS 符号位置を削除し、拡張 F提案した

ものについては、IVS を共有しない。(別紙 2: 文字情報基盤で UCS 符号位置を変

更又は削除し、Hanyo-Denshi IVS を共有しないもの)

2) [平成明朝体グリフの重複:いわゆる作り分け]一つの IVS に複数の MJ文字図形

が対応するものについては、目視の上、視覚表現がより近いものを対応付けし、

他方に新たな IVS を付与する。何らかの問題による例外については、IVS の共有

を行わず、共に独立した IVS を付与する。(別紙 3: 作りわけによって生じた IVS

共有が難しいもの)

3) [MJ文字図形の変更]文字情報基盤側で文字図形の修正を行ったものについては、

視覚確認の上、著しく字形が異なるなど、問題があるものについては、IVS 共有

を行わない。(別紙 4: バージョン 2.0の MJ 文字図形で Hanyo-Denshi IVS を引

用しないこととするもの)

作業手順で、目視確認による判断が介在しているものについては、高田主査にご確認い

ただいたが、別途資料を用意したので、委員各位にもおいても精査していただいた上で、

忌憚ないコメントをお寄せいただきたい。

また、IVD 登録にあたっては、パブリックレビューも行われるので、その段階でも一

般からの積極的なコメントは歓迎したい。

2. [Glyphic Subsetについて]

UTS#37 には、Glyphic Subset について、下記のような記述がある。

A glyphic subset for a given character is a subset of the glyphs that are appropriate

for displaying that character.

The purpose of the Ideographic Variation Database (IVD) is to associate an IVS

with a unique glyphic subset. An IVS which is present in the database is a

registered IVS; one can determine reliably the intent of such IVSes when they

occur in text by consulting the database, thus those IVSes are suitable for use in

text interchange.

Page 12: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

6/7

ある IVS は、複数の視覚表現(UTS#37では glyph)の集合体である Glyphic Subset

に対応すると考えられる。そして、複数のコレクション間での IVS の共有に当たって

は、コレクション同士で Glyphic Subset が共通しているとの共通認識が必須とされて

いる。一方、あるコレクション内で、複数の IVS に対応する Glyphic Subset の範囲が

重なっていたり、一方の Glyphic Subset が他方のまさに部分集合となることは妨げて

いない。しかし、Glyphic Subset の部分集合を用いた場合、理論的には以下のような

ケースが起こりうる。

図 2: Glyphic Subset を共有した場合に起こりうる問題

この Glyphic Subset の問題を、厳密に適用しようとすると、文字情報基盤で作り分け

た文字図形を含む UCS符号位置や、Hanyo-Denshi コレクションに登記統一文字起源

の IVS を含む UCS 符号位置については、安全を期して、IVS 共有を見合わせ、すべて

の文字図形に対して独立した IVS を付与する、という選択肢がありうる。

(Hanyo-Denshi 2000B E0101の部分集合#2を新規登録)

Glyphic Subsetを共有して定義する場合

E0101

E0103

住基:J+AAA2

住基:J+AD05

戸籍:---

戸籍:000320

MJ030320

MJ030319

(Hanyo-Denshi 2000B E0101を共有)

Moji-Johoコレクションの例示字形 あるフォント実装

住基:J+AAA2戸籍:---

このグリフも実装できる 同一グリフが

実装される可能性

Moji-Joho 2000B_E0101

Moji-Joho 2000B_E0103

部分集合#1

部分集合#2

Page 13: 文字情報検討 WG - IPA...correspond to the same glyphic subset, registrants are strongly encouraged, but not required, to share sequences where sequences in a submission are similar

7/7

図 3: Hanyo-Denshi とは独立した IVS を付与する場合

しかし、IPAmj 明朝フォントで、すでに多くの Hanyo-Denshi コレクションの IVS を

実装していることもあり、サードベンダーは、そのようなフォント市販しても市場で受

け入れられにくいことは、容易に想像が付くと思われる。

したがって、事務局としては、Glyphic Subset の考え方については、十分に理解した

上で、IVD に記載されている Hanyo-Denshi コレクションの IVS の個々の《例示字形》

と MJ 文字図形との対応関係がはっきりしているものについては、積極的に IVS の共

有を申し入れたいと考えている。

[登録についての進め方]

WG 委員のコメントを反映させた上で、早急に Moji-Joho コレクション案を作成し、

WG のメーリングリストに流した上で、SC2 専門委員会に提出し、Hanyo-Denshi コ

レクションとの IVS 共有についての了解を得た上で、SC2 専門委員会から Unicode

Consortium に提出していただきたい。その際、形式的な Registrant を SC2 専門委員

会にお引き受けいただくことで、費用は議論なく無償となる。IPA が Registrant にな

ったうえで無償とすることも可能ではあるが、一定の交渉が必要となろう。

Hanyo-Denshiとは独立してIVSを付与する場合

E0103

E0104

住基:J+AD05戸籍:000320

MJ030320

MJ030319

Moji-Johoコレクションの例示字形

あるフォント実装

住基:J+AAA2戸籍:---

Moji-Joho 2000B_E0103

Moji-Joho 2000B_E0104