大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

96
ÃƮȠ8äČdŪpwzy ÕȡňǢƳć - ňǢťŁHwĿł}ˤFy - Ķî ʧʽ ƁƚÆÒ*!** '!*+,*-,-* -''()*!**%) ÙİÃď ğďąȨʖǍ4ŏʂƻǫeŞˉaāˡ

Upload: yuya-unno

Post on 16-Jul-2015

4.601 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÃƮȠ�8�äČdŪpwzy ÕȡňǢƳć

- ňǢťŁHwĿł}ˤFy -�Ķî1ʧʽ�

ƁƚÆÒ�* ! ** ���'!*�+,*-�,-* 1�-''(�)* ! ** �%)�

��������ÙİÃď�ğďąȨʖǍ4ŏʂƻǫeŞˉaāˡ�

Page 2: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÆÒˇȆ��* ! ** ���'!*�+,*-�,-* ���'��������! ĩò: 2006Ä3Ö ! ÚĦ: ÙěŅƉěƎÇʃ ! ɃÍüij: ċ40È ! ²��ºÁ:

ėŏʂeƻǫ}ėɫDZ`āĈăUy�

Page 3: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Əɺc�Á� �3DzȒÓIơEǼǦ�

!  TopCoder’s Red Coder : 3È !  ICPCĿłÃÆËÚ�: 7È !  ICFP�Á���Ə÷Ó !  ɘɞª¿����: 5È !  Publications: ACL, SIGKDD, NAACL, ALENEX, SODA, FOCS,

STOC, DCC, SDM, ICDM, SPIRE, ESA, ICPR, MLJ, JMLR, NIPS, ECML/PKDD, Bioinformatics, Nucleic Acids Research

!  Ex. SONY, IBM Research, Yahoo! Japan, Sun, Accenture, Microsoft, mixi, FAST Search&Transfer, TOPPAN Printing, NOMURA Security, GREE, KUMON, Google interns

Page 4: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĚcÑÍ�

! ŠÍĵN�¨����eýÜȄķ !  Ěd2ŠÍĵNeŘʹ�Á�Á2¾�´Á��Á�Á2�8�ţʴ�Á�Ácb

! ʜȬŠÍeDzȒýÜ�Á�½��Á� !  íƻǫeĊısLJáe��£��sØȖD !  ƙàāŽāǵ�

e�

Page 5: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕʇˇȆ�

Ķî�ʧʽ

!  -2008 ÙÃťŁćŨȾƣ !  ÕȡňǢƳć

!  2008-2011 ÂÇ��3¦83�³:Ɓ;ÙěŞˉDz !  ����±� Á�2ÕȡňǢƳćeDzȒýÜ

!  2011- :Ɓ;ª¼¨�8��Á¨»��»��¶8 !  ÕȡňǢƳć2ťŁŘʹ2Ĕˑďɢ2����±� Á�cbeDzȒýÜ

!  DzȒýÜȶşŢ2�Á�½��Á�

NLPǀØeÆƙàŬüÎ:2014-;

f�

Page 6: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ʐȖ4NLPǀØeÆ:YANS;�

!  YANS�Á°��³:9Ö;

!  ǀØDzȒÓ:40ǣɘȭLwD;eǀØDzȒÓI2ÕǘeDzȒ}ĮpyYpeơmx

!  ďÝsŠÍ�Á� �eƭĻqˈɰ !  ùÄfÔɸ`SY6

!  YANS˒:3Ö; !  ňǢƳćďÆĉÅÃÆęçÉd˒ȑÆ}SmU !  ɒcyʪnÆ`U�"

g�

Page 7: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

���Á��

!  1ì4ňǢťŁHwĿł}ˤFy !  �8�eƨă�!  �£��eƨă�!  ƻǫeƨă�

!  2ì4¬Á�¶8ŠÍeDzȒýÜ !  [uP\aZN

h�

Page 8: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕȡňǢƳćaf�

ÕȡňǢ:ÈeĸUňǽ;}�Á§¸8�`ƳćRWyYpeƻǫ

!  ĚcưĈ4ÂÇǢáô2Ĕˑˢ˃2ÕĐĜċcb

!  ňǢď2Ĕˑďɢ2ėɐă2ƾōcbeƻǫañ|xIȓD

i�

! �������$#�� _������������������

Page 9: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

3]eȳĬHwÍĨdGNyÕȡňǢƳć}mapy�

1.  �8�eƨă 2.  �£��eƨă 3.  ƻǫeƨă

j�

Page 10: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

1. �8�eƨă�

Page 11: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕȡňǢ�8�}ĕxʢLĢľ�

! ŒȎă !  Ȏ7c�8�ɠ !  ŒňǢ

!  ƃJňǽ3ĸSňǽ3¡���»Á�

! ÃƮȠă !  �Á�8¡��2WWWeÜȁ

!  ¡�� ¸8�2ʔŲʆsBlog !  SNScbe��¸�½c�����8�eɵÜ

bb�

Page 12: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ļĈÑȃfb~b~ŒȎă�

āÒÆ`���IbevEdƅ|z_DyeH}ˇȆUy�

!  ǶȪ3«½����!  Ǚǯ�!  ���!  Ɖʙ3ƞɡ�!  ÒêťŁ�!  SNSţʴ

!  űž�!  úĨ�

bc�

Page 13: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Ǚǯ �! ĩōȦ2ìƒÌ˔

!  ÅsŨÚʑdàTìƒdɜcyśæIƔD_Dy

! ȩȷ˝ʀsŗɁşcbeêìƉƃ !  klÕƤƉ`2¨�8±��qȎ7

! ēɎÔŁž !  �8½�Á�8ieĢDÔ|WeƃJNJPS

!  ¼�8½}ɘȡdǂKYD

bd�

ƾÌRz_DcDťŁɠ�

Page 14: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

EC �! ǙƒŘʹ�

!  ȵǮc˅xŜnŘʹIƢĜce`2ȉÕdůxPoPaIŒD

!  íSDǙƒ×ɈeËī:¾�Á�\_cd333;

! ǙƒťŁeţʴ !  ǙƒǝøHw2���sɛǜcbeťŁ}ĕxYD

!  ���dq2Ÿ˗2ê˗2ÎR2cbȎ7

! ʫǧ˝ʀeţʴ !  <Peƹƒ}ǧ\_DyÈfPzqǧ\_DmU=

���±��eƢĜĥ�

Page 15: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Ɖʙ3ƞɡ �! ˄zeɡRzcDƞɡŘʹ

!  ñąƉƃqUj_Ċjye`2ǹvxq˄zIcDPaIŪpwzy

!  ːǰIˀY�8À8�2ƉƃqÜÛSYD

! ʶÃUKyƬƉŘʹ !  ťŁeƵõ���IöI\YYpdƬƉeijIɵÜ

!  ƃHzYêźeţʴs2ʲÓeǿȗôeţʴcbqŪpwzy

ʶÃcƉƃaÞDƀīƱ�

Page 16: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

űž�

!  ¹8�8eʋĥ×ʴ !  ª¿¨�8½sʫǧ˝ʀHw2ĥƑ2Äɹ2ƪȚ2ˌȫ2ŇɂǏħ2˧ȅcbI×ʴ`Jy

!  CyƹƒIbevEcÈd��_Dy2ģz_DyaD\Y±8���Á�×ʴieļĈ

!  űže���³aɚĉdƾÔRzy:ȃ4Google;

!  ĹġÓǓį

&�� �ptl�Z�

&���s�>�1ut�(�������1uwl���

űž�

PeÈcw2PeűžfÞƊƱ`ɔUHw2Þȍ`áɑ6�

M�O[�

ƩcDťŁHwÞɨû`eȥèIŪ

pwzy�

Page 17: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Intimate Merger�

!  2013/06/19 ¨¼8����aeÔȽÆÒ}ĩò !  űžǓįeYpd2Ǔįŏ¹8�8ťŁeÃƮȠ�8�}ţʴ�

bh�

Page 18: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Ìň`ňǢƳćaň\_qɐĈãúfȎ7�

!  ÍȚdv\_ɜcyĜŪ !  ŘË˄zIcDPaIŋĜcÚÔa2çǡDIƩcDPaIŋĜcÚÔ

!  H\[xSYƉƃHw2ȤxƃJeƉƃm` !  ťŁ}Û]Ny2ǑćUy2ėɐăUy33

!  1]eƻǫZN`fţóScDPaqŒD !  Řʹ2ɈˀƉƃ2ťŁ˘Ë2etc. !  ƴǚă2UI2äȶʄţʴ2ƾō×ʴcbɜcyƻǫaeʼnnÔ|WIƢĜcÚÔqCy�

bi�

Page 19: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ňǢĂɠeÃƮȠ (1/2) �

!  SNS !  Twitter : 2.3Ō active user *1

!  Facebook : 11.9Ō active user *2

!  LINE : 2.0Ō�user*3

!  ƬƉ !  Peer reviewed Journal ` 135ĝ article / Ä*4

!  ÄƱ 4910%eŖĻ, 15Ä`2ɴd !  conference proceedings cbfɤdÞDŖĻƱ

bj�

*1 http://weekly.ascii.jp/elem/000/000/084/84331/ *2 http://www.prnewswire.com/news-releases/facebook-reports-third-quarter-2013-results-229923821.html *3 http://en.lineblog.naver.jp/archives/30767259.html *4 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909426/�

Page 20: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ňǢĂɠeÃƮȠ (2/2) �

!  ȮǥŇUwĉ_eťŁdʦzyPafʒǭ !  ñąUyǻǴqƷȐdȺÃS_Dy

!  SNS, Ŕë�¶8�½cbťŁÜįƂôfƷɕdŖFYI2ÈeƳćƂôfƷɕdŖFcDe`�����8½IƢɽ !  ÃǷeťŁHwƢĜcťŁen}ơpy !  ťŁ¨�½�¼Á��8½ !  ťŁĜċ�8½

!  SNS}ÉŤdťŁf¼�½��³`ÜÝUy !  ǔçijƸ9ĝ, PzweŝƆdſư`JyH

ca�

Page 21: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ťŁ¨�½�¼Á��

!  ��®��Řʹ4��¼IĐé2âǛƉƃIɭé !  Googlecbe��©ŘʹcbD|tyʕõeŘʹ

!  ťŁ¨�½�¼Á�4��¼Iɭé2âǛƉƃIĐé !  ūÄe�¸¾8�ºÁ�ª¼IPzweƻǫdū^D_Dy

������ �����&��� ���pull"�

����%� �� ��� ���push"�

ƉƃIĐé : ¸8�2twitter;�

ťŁ¨�½�¼Á� �¸¾8�ºÁ�ª¼�

ƉƃIɭé:��©­8�2ǙƒťŁ;�

��®��Řʹ :��©ŘʹcbÌɱeŘʹeːǰfPz;�

Page 22: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4ɲƲâŃ�

cc�

ßǴ2�§��2äç`ťŁ}¨�½�¼Á��

Page 23: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4¹8�8ʋĥ¨�½�¼Á��

cd�

ƫ¹8�8ʋĥddñąUytweeten}˘ËUy�

Page 24: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4 ¸8��¸¾8�ºÁ�

ce�http://gunosy.com� https://www.smartnews.be/�

Page 25: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�8�eƨămap�

!  ɐưǻǴeŖÃa�8�eŒȎă !  ÕȡňǢe�8�fCwty¦�¡�ǻǴ`ļĈRz_Dy !  CwtyǻǴ`2Pzwe�8�×ʴe 8�fÞm\_Dy !  âǛǻǴQad�8�eǡDencwV2ĜŪĺƛsƢĜcƻǫqmy`ɜcy

!  �8�eÃƮȠăa¨�½�¼Á�ƻǫ !  ÃƮȠă2ŒȎăIƷȐdĮ~`D_2ÈçeƳćƂô}Êï\_J_Dy

!  ťŁ}ĕˍÿƑUyțʼnnIƢĜaRz_Dy

cf�

Page 26: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

2. �£��eƨă�

Page 27: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

őƩUy¤��Á2ŖĻUy�±8�¨�Á�

N�H$-24%'B+�Y�F:�� http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc122310.html�

Page 28: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�±8�¨�Ádc\_HwǠĀRzƋpYÕȡňǢƳćƻǫ�! ÕȡňǢƳć}ƇĈSYƻǫIƷdǠĀ}ChyvEdcy

! ǹINJP\_DyeH5�

ci�

Page 29: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Ʌǐ�Á�8¨���: Siri2Srj\_�Á��½2Ʌǐ�����

cj�

https://www.apple.com/jp/ios/siri/� http://v-assist.yahoo.co.jp/�

https://www.nttdocomo.co.jp/service/information/shabette_concier/�

Page 30: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

 ¸8��¸¾8�ºÁ4Gunosy, SmartNews�

da�http://gunosy.com� https://www.smartnews.be/�

Page 31: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�±8�¨�ÁäČd©¾8�SYƻǫ:1/2;�

! Ŏɾáô !  1970ÄČdf����IC\YI2PCĵNdfʕɍScH\Y

!  ȨɄŔĸeʕɍdÔ|W_ʕɍ

! Ʌǐáô !  Ʌǐáô�¨�f2000ÄæådÌʺdÜķRzYI2ŝƿ�8¯8�}ƖJȿFcH\Y

!  aP{I2�±®HweɅǐŘʹsɅǐ�Á�8¨�8�dc\_ǺýL

db�

Page 32: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�±8�¨�ÁäČd©¾8�SYƻǫ:2/2;�

! ťŁƗơƻǫ !  RSS¼8�8}fTp2ťŁƗơ�ª¼f2000ÄŻæŴdfȢƥSY

!  Ã7édʕɍUyvEdc\Yef]Dėū

! Ĕˑˢ˃:PzHw5; !  Ĕˑˢ˃�¨�f2000ÄæådÌʺdÜķRzYI2ŝƿʕɍScH\Y

!  Ɯ×cˢ˃¼�8�ešwzcDʓÏ�8Ácb`Ƽdò]fV

dc�

Page 33: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�£��eƨăaƞǜeƨă�

dd�

��{ PC'�

��{ PC'� �)* # *

ēÕƤcáËô� D]qņ\_D_UMſưUy�

Page 34: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƨădC\Y�¨����eƢĜĥ�

! ēÕƤcáËô}�°8�`JyH5 !  �8¯8�s±��evEc�£��fƅFcD !  Ãƕż`ÃǷeťŁ}ŰŲUyPaf`JcD

! D]`qņ\_DyPa}ƇHWyH5 !  ǔɒŕ`õŧUyƢĜeťŁ}ŰȂ`Jy !  bPdD_qťŁd����`Jy

de�

Page 35: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

©¾8�SYƻǫf�£��eƞʠ}ˤF_Dy�

!  Ŏɾáô !  ēÕƤcȨɄŔĸeáô�Á�8¨�8�

!  Ʌǐáô !  ēÕƤcȨɄŔĸeáô�Á�8¨�8� !  ÎDƉʸvx2ŘʹcbeɫD��¼8eáô}�°8�

!  ťŁƗơƻǫ !  ɥHDŘʹƧŢ}áôUyefǭSDYp2ÕĐ`ťŁ}ƗơS_ʥSD

!  ýDYäçdļĈUyÑIŖF_2øƊcĀé}ņ\_ťŁ}ʝUPaIő\Y

!  Ĕˑˢ˃ !  äç}HN_IJƊcˢ˃}Uyvx2ÂǎÝƇdGNyėǖLjeˢ˃IƢĜc�8Á`eļĈ

df�

Page 36: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

IoTs���»©½aD\Y�8À8�Iĸľd�

dg�

Page 37: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

���»©½�£��`f�Á����}ʉoƢĜICy�

!  ɥHDƧŢeáôfvxʒǭdcy !  ļĈÓeƽș}ĔˑIʉnĕ\_2ljɚUyƢĜICy

!  Google NowIs{EaS_Dyãĵĥ�

dh�

�@�

� �

.1]�

7^�

Page 38: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�Á����}ʉoYpd2ÕȡňǢƳćsŧȧƳćeƻǫeŋĜûfÞmyZ{E�

!  ʌije˨˥cťŁçeñƌ}øwHdUyƢĜICy !  ÚÔdv\_fÕȡƉ`ƃHzYťŁ}ʤEƢĜICy�

di�

Gˎæd9� <12:00�

Ğə`9� ÙěŅĞə�

86y����� ��Gy,�� Ey�,�^{2U�

ǨĐäç:25×�

Page 39: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�Á�8¨�8�aS_eÕȡňǢ�

!  ��£fÈçdťŁ}ȖFyŋĜc�8½ !  �Á�8eÝ�8�fÈçdfʉpcD !  Ʌǐeɇȇ�8�f2ƉȊdGPS_ńp_ćţ`Jy !  ɬʛťŁemm`fŘʹqmmcwcD

!  ¥�eȢƥUyLjxŋĜĥfƨ|wcD !  Èçae�Á�8¨�8�aS_ƢĜĥIcLcyPafcD !  ɩd¥�IʞȸRz_ÕĐăRz_DLǻǴ`f2��£eŋĜûIöIyƴƂĥqCy

dj�

Page 40: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�£��eƨă3map�

!  �£��eƨădÔ|W_ƻǫeŋĜûfƨ|y !  �±8�¨�ÁeËī`ǺýDYƻǫfƦðCy !  �£��dÔ\Yª¿���IƢĜ

!  ˛7dµ¢àƣIsxaxUyĿłdƨăUy !  ����Hw2Ʌǐsɬʛ2�Á�8eÝ�8� !  Āéq2¥�dvy×ʴHw2ĔˑdvyÕĐăIĀédcyZ{E

!  ����fÈçae�Á�8¨�8�aS_eŋĜĥfʍȡaS_ƨ|wcD

ea�

Page 41: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

3. ƻǫeƨă�

Page 42: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕȡňǢƳćfưĈǻǴce`Ȏ7cƻǫañ|xIȓD�

ÕȡňǢƳć�

Ĕˑďɢ� ňǢď�

ťŁŘʹ��8�¬8��

ƾō�

ÈŨŧƂ�

ėɐă�

Page 43: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕȡňǢƳćfģeƻǫ}dzáSsUD�!  Ĕˑďɢ

!  1993: ƾōéĔˑˢ˃ [Brown+93] !  1996: ėÃ�Á�¿§8ú [Berger+96] !  2001: ƧŢƔJƊƱÚ [Lafferty+01]

!  ¬��ƾō !  2003: Latent Dirichlet Allocation [Blei+03] !  2006: Pitman-Yor language model [Teh06]

!  ėɐă !  2006: ǑijDŽȇōƕú [Clarke+06][Riedel+06] !  2010: ʗâ×ţ [Koo+10][Rush+10]

!  ȓɳďɢ !  2003: Neural language model [Bengio+03] !  2010: Recurrent Neural Network [Mikolov+10] !  2012: Skipgram Model (word2vec) [Mikolov+13] ed�

Page 44: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȓɳďɢ�

ee�

Page 45: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȓɳďɢ©8³}bEÛyH5�

! PPijÄ2ğďȈp_Ãƨc©8³ !  ñąS_2ÈŨŧƂqÃƨc©8³dc\_Dy

! ɒcyÌäe©8³ceH5

! Pzm`}ȜxǕxcIwƩSŵF_ny�

ef�

Page 46: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

1. ȓɳďɢIų7dÞɨû}ȁħ�

!  2011: ɅǐŦȧ`�»8ƱI30%Ż�# 20%Ż !  2012: ƕʛƳćeÌɱřþŦȧ���`�»8ƱI26% # 16% !  Xeå22013: 11% # 2014: 6.7%�

eg�http://image-net.org/challenges/LSVRC/2012/ilsvrc2012.pdf�

Page 47: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

2. ÊÍdvyĽĂ2ÈɛǒʎĖ�

!  2012/3: GoogleIHintonwDNNresearch}ǧƗ !  2012/4: BaiduIInstitute of Deep Learning}ĩò

!  2012/8, 10: Yahoo!IIQ EnginesaLookFlow}ǧƗ !  2012/12: FacebookIAI LabĩòS2LeCunIĦÎd

!  2014/1: GoogleIDeepMind}ǧƗ !  2014/5: Andrew NgIBaidui�!  2014/8: IBMISyNAPSE��ª}Üđ

eh�

ĚĜcȓɳďɢeDzȒÓeka~bIŠÍi�

Page 48: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

3. ´���IÃ7édĕxÊOy�

!  2014/1 ÂĎ�Á§¸8� ƞơ<>Ĕˑďɢ?ǬǾ=

!  2014/10 ÂĎ�Á§¸8� ƞơ<¦���8�fÈŨŧƂdƍWY6=�

ei�

ɜȎcɏxÊIx�

Page 49: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĶîeĚȳécȓɳďɢdâUyɿǛ�

! ´���eĕxÊOãIUQD !  Ɲȟd©¾8��½8aň|zYƻǫdƺj_2´���eĕxÊOãIɧɝédÃJD

!  ɋưUyvEdʜȬŠÍeſưsęǤIÃJD

! ĕxÊOãdf˕ǪqȈmz_Dy !  īāédfʿȢe���}ùm`aŵFwzcDkbÞɨûdţNY2aDEqeIŒD

!  ĢľĩèXeqeIƨ|yĸaDEefƩcD

!  q[{~2XPd�¶¾Á�Uy�½8ªfCy�ej�

Page 50: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÕȡňǢƳćdGNyȓɳďɢfbEH5�

! ©¾8��½8ZaDEDzȒfmZƩcD !  ǏƉţʴsȰœ×ʴ`2ÎÄ�¸8 Á�RzYɨûa<àȏû=eɨû}ȁħSY

!  ėū2GoogleIĔˑˢ˃`Þɨû}ȁħSYeIĸľdc\Y

! ňǢƳć`fmZPzHw5:Ěȳ`U; !  ʌʭcƮɣeƢĜZ\YĠȫƳćcbe×î`ƇʨSXE

!  ĢľeèƚăeǭSH\YǻǴ:ȃFgǢǍ˨˥ĥţDž;dâS_2íSDĢľeèƚăIËīSXE

fa�

Page 51: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Neural Network Language Model (NNLM) [Bengio+03] �

!  N�»³ňǢµ�½}NNă

!  ąĭN-1ƉȊHw2ųeƉȊ}Ę_yƊƱµ�½e ¸8»½¡��}ǏʈUy�

fb�

Page 52: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Recurrent Neural Network Language Model (RNNLM) [Mikolov+10] �

!  t-1ƉȊʉ~ZaJe<ƽNj=}¬��½ăS_2tƉȊĀ}Xe<ƽNj=HwĘ_y !  NNLM`fŸæNƉȊe¬��½Hwų}Ę__DY

!  Ÿæm`eƉ˜ťŁIʟpŜmz_Dy˚ɻĪ

!  http://rnnlm.org �

fc�

ƉȊ2ɒǢ�

äʊ�,���eʣzɳ�

ʣzɳ� ųeáôeŎɾ�

�§8�

Page 53: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Skip-gramµ�½ (word2vec) [Mikolov+13] �

!  ɆȼɒǢ}ŎɾUyµ�½ !  ɆȼɒǢHwŎɾUyµ�½:CBOW;qŰşS_Dy

!  Analogical reasoningeɨûIʾédĵÊ

!  āɦ:word2vec;IĒýRz_ÌĪdĸľd

fd�

Page 54: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĠȫeÔħ}Ïʄ`đīUy (MV-RNN) [Socher+12] �

!  ƫɒǢdf¬��½aÏʄIâưUy !  ȾʳRzya2GʘDeÏʄ}čØe¬��½dʵN_2RwdɌDŽȇcƨȿ f }ȝɊédÏE

!  Rootm`ɼxǕUaƉeđī¬��½Išwzy fe�

Page 55: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Dynamic Convolutional Neural Network [Kalchbrenner+14] �

!  CNN}ƅ\_ɒǢemamx}ʼnnÊO_DL !  ǏƉŀ`fcDI2ɈˀeȋƆIšwzy5�

ff�

Page 56: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Long Short-Term Memory (LSTM) �

!  RNNdũ˓evEcqe}qYWYµ�½ !  Ĕˑˢ˃`Þɨû}ȁħSY�!  ŶÄåŴdƵÏIƋm\YI2ėńdŰşRzYefijƜÄæ

fg�

�')-,�"�, �

tanh

sigmoid

�-,)-,�"�, �sigmoid

sigmoid

�(*" ,�"�, �

Page 57: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȓɳďɢeĐĵ�

! ŒLeŠÍsDzȒÓIǠĀS_Dy

! ƻǫeƨăIfOSL21Äeç`q�¾Á�IǨxƨ|\_Dy

! ùfĽĂUy¨�8�2ijÄådÃJcħƆIīzy5

fh�

Page 58: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�¨����eŋĜĥ�

!  libsvm, liblinear !  ŷɉƈxďɢ�Á�Á

!  JUMAN, Chasen, MeCab !  ȇNjɪţʴ�Á�Á

!  Moses (GIZA++) !  ƾōéĔˑˢ˃�Á�Á

!  Stanford CoreNLP !  ÕȡňǢƳćeʮ˟éc�8½���

!  word2vec !  Skipgramµ�½

!  Theano, Caffe, cuda-convnet !  ȓɳďɢĵNe»�©»¼s�8½��� !  ňǢƳćĵNȓɳďɢe�8½ImZcD�

fi�

Page 59: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Caffe (http://caffe.berkeleyvision.org/) �

!  ȓɳďɢe¨¾8³À8� !  ¡��À8�eǏǯ}ũȞUyaďɢHw×Ɉm`āÏS_Lzy

!  ĚdƕʛƳć:Convolutional Neural Network;dƞă

!  CPUµ8�aGPUµ8�}ʬɒdƄxɟFwzy !  āŚdÉeāɦ}ŧwcL_q1Â`ƅFY

fj�

Ĥôc�8½eËīIƢĜ�

Page 60: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƻǫeƨămap�

!  ÕȡňǢƳćfƝȟdǹûqģìeƻǫ}ĕxŜ~`JY

!  ȓɳďɢqXeÉe1]ZI2ɏxÊIxãfɜȎ !  ƞd´���IPPm`ĕxÊO_DyefƩcD

!  �¨����eħ˙fŋĜ !  ƬƉdvyƻǫeĒýZN`fűIwcD !  �¨����eʕɍaħ˙IDzȒ}ȥSĮpy�8�IŖF_Dy

ga�

Page 61: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Ƙ|xd�

Page 62: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĿeÉe 8�eƨă2�£��cbeĔˑeƨă2ňǢƳć}ĕxʢLƻǫeƨăeDVzqɯHWcD�

Page 63: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

PFIf2010Äd�¸¾8�ºÁ�8¦�}Ï\YPaIC\Y�Xappy:2012Ä`ʚʼ;

!  2012ÄdGunosya�±8� ¸8�I¼¼8� !  ùkbťŁf˪z_DcD

!  ùkb�±8�¨�ÁIʕɍS_DcD

!  ƻǫZN`f�´2��²Á�IÔ|cDaDNcD�

gd�

Page 64: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

Xappyf��²Á�}ʅSYeH5�

!  ťŁɠeŖà !  ÃǷe¡�� ¸8�2Blog2ũÑ !  TwittersFacebook}ƋpaSYSNSeʕɍ

!  D]`qťŁ}ĕš`JyǼǦ !  ¡��À8�eĮă4ǎäȘĭ24G !  �£��eĮă4�±8�¨�Á2�©¾��

!  ťŁǑćeYpeƻǫ !  ÕȡňǢƳć2Ĕˑďɢ2ƾō2etc. !  GUIcbe�8½ʩ

ge�

��²Á�aƻǫI±���

Page 65: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

æŴemap�

!  �8�fŒȎă2ÃƮȠă !  Ȏ7cÍȚ`ƇĈRzyaàäd�8�fŒȎă !  �8�ǷqÃƮȠă2�8�e¨�½�¼Á�I�8

!  �£��eƨădÔ|WYƻǫIƢĜ !  PCHw�±®2���»©½i2�£��fƨăS_Dy !  ļĈ�8Áeƨă}ĠȧUyaíSDƴƂĥIÛFy !  µ¢àƣIœƶUyĿłdƨăSvEaS_Dy

!  ȓɳďɢeÇǻIÜʻUyefPzHw5 !  ňǢƳćdíSDƻǫIĽáRzyefD]qbGx !  PPm`ǠĀaęǤIơmyefƝȟ10ÄcD !  ňǢƳć`ÃJcħƆIËycwPzHw

gf�

Page 66: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

¬Á�¶8ŠÍeDzȒýÜ�

gg�

Page 67: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

40ĝ�vs 40�

Page 68: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĎʀGRwD�

2008-2011 !  ÂÇ��3¦83�³

!  ɃÍüij: Ŀł40ĝÈ !  ƼƓ: R&D

!  ȇNj: B2B !  ÍĨ: ����±� Á�2ÕȡňǢƳć

2011-īƥ !  PFI

!  ɃÍüij: 40È !  ƼƓ: R&D

!  ȇNj: B2B !  ÍĨ: ����±� Á�2ÕȡňǢƳć�

ÆÒƮȠĴģfŒLeĬ`ˀ_Dy�

Page 69: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

DzȒƪ�

gj�

Page 70: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ÌɱédDzȒƪ2¼�8�¶8aDEa333�

! ���²��ȶ !  ÃďsDzȒĦeŏÝ2DzȒü

! ŠÍDzȒĦȶ !  ƫŠÍeDzȒýÜìǥeÒü

! �Á�½�Á�ȶ !  AAŐDz

!  CmxDzȒƪafň|cDI2ˁƃf¼�8�¶8IŒD�

ha�

ʰˠcDzȒ�

ÍĨ�

Page 71: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ùm`eĎʀf333�

! ���²��ȶ

! ŠÍDzȒĦȶ

! �Á�½�Á�ȶ

hb�

IBMäČf���²��vxeŠÍDzȒÓ�

PFI:ù;`f�Á�½vxeŠÍDzȒÓ�

Page 72: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ŠÍDzȒüeĚcțÑ�

! íƻǫ}ÝnËU

! ʜȬdƻǫ}ʡNy

! ƻǫ}űpy

hc�

Page 73: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƯƪS_ȱJãIƨ|\Y�

! ėǀØHw� �i ! ɀȡe�½8ª¼8�82ÄÊfijÈ

! ÆÒĉþ}ÛȕWy ! GÐeĐJeĉþIÛFy

! ɯN_DyƼƓqÛFsUD

! c~`qsy ! ƢĜcwǹ`qswcDaDNcD

hd�

Page 74: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

q\aɥHLnya333�

! ŮÍàÏ ! ʜȬeĜȔe¥�¼Á�2čǸ ! ƬƉ2ʭ˂2�¨����cbeĊı ! íƮ����eʏË

! ʜȬŠÍaeāŽāǵ ! Ǚƒăæeª¿���ªýÜs2Ǚƒieſɬ ! ďǫÜđs�²�8`âģ�§8½

he�

ǹ`qsy�

Page 75: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

b[weãIvDțÑI`Jy55�

ÃJcțÑeÌìa2ĆRcțÑeÃì×`f2ˆʙɎÔdÃJcȀfcD

hf�

�?� �"?�

Page 76: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ďǫłeDzȒaĿeÉae�¶�ª�

! YD_DeĢDÔ|Wf90ÄČLwDdDzȒRz_DYvEc���

! aP{IʿȢețʼnnZaĉLţóScD

ǹ`555�

hg�

Page 77: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƻǫZN`fǃxcD�

! Ǚƒăeȷʱ !  ƻǫ}ŧwcDÈ`qƅFyvEd`JyH5

! ĿeÉeĜŪaďǫħƆeʁûƟeǡD !  <95@eIJţƱ}ȁħ6=

!  <5@qçǡ\_Yw�´Zv=

! äƵs��²Á�eĢľ

!  ǗUK_qɷUK_q�´

hh�

Page 78: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ŠÍ`DzȒýÜUy´¼���

!  8�dÔ\YƻǫeDzȒI`Jy ! ů\Yƻǫ}ƢĜaUyÈdŸȘʡNwzy ! ĆRcÆÒekEIƠã}ÛsUD�

hi�

���{03� ;5/Q{03�

`!?� �QD�

Page 79: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

DVzq

ŊF_Dyefƻǫô

hj�

Page 80: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƻǫô}bevEd ˖D_D\YwdžDH�

ia�

Page 81: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ĿeÉfĠģaƨ|y�

ȌIÃď1ÄÝZ\Y 12Äæaƺˊ�

ib�

Page 82: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4ȨɄŔĸ�

ic�

503i���� 1���10KB �

iPhone6 1���10MB��

12%�� ��

Page 83: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4CPU �

id�

Pentium III 500MHz�

Km����7zVutPC�

Apple A8 1.4GHz�

iPhone6zWuw��

12%�� ��

Page 84: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ȃ4°8�©½Ʌȯª¾�·8�

ie�

MD: 1=x60�o�l� iPod shuffle: 5009 �307^o�l��

12%�� ��

�I|lr�~wikipedia���

Page 85: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

íSDƻǫ}ůyPaPXDzȒýÜeŹʯˋ�

! Pzwfĉ_ƻǫýÜdv\_ÝmzY

! ŠÍ2Ǚƒ2�8¦�eǟǒôdŸŝUy

! ŰȂŏeʜȬeǟǒôdqŸŝUy

! ĿłI:ƩS;ƨ|y:Hq;

if�

Page 86: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ųe12Äådf3335�

! ĉLȇeɜcyȨɄʂnjIȻÚ ! ùe¤��ÁvxÞ�­��eȨɄŔĸ !  DVDsBlue-rayfqEcDHq�

ig�

ĿeÉfƨăSĭN_Dy ƻǫeƵÏqb~b~ƨăUy�

Page 87: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƻǫfďhĭNyPadŭȍICy�

! ƻǫeĺƛfŞÇédV\aÊIxĭNy

! ƻǫfUMdȹzy

! ǎdďhĭNwzyHeãIÃÑ

ih�

Page 88: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ŪpwzyíSD��ªeÈɛ�

!  ùq\_DyƻǫZN`fcL2ɯN_Dyƻǫ}˩ʥdĕxŜ~`DLPaIŪpwzy

I��< �v{�\�LnT}� �

T��< �X�\~ &oAoJuwl�pk�v{ �\�LnT}wl� �

π��< R4{�\�LnT}wl��

ȓR

ȣűR�

��������<�(Sz)qw�\� lvx~LnT}����<

ŪpwzyÈɛeƨ˦�

Page 89: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƻǫôf1ÂdS_cwV�

ɮĭédƻǫ}ÝnËWy ÆÒȲǁ}ˣħUy

! ƬƉʉnÆ4ɗBï

! Òê�²�8Ǔį4ɗBï ! ÒģˏĤÆ4ēèę�! Pzw}āƐUyYpd2Ǟ7ÈeɓôaÆÒe�°8�IƢĜ

ij�

Page 90: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

µ�¬8�ºÁ}ɶņUyYpdŨǩ}SvE�

! qeIĐL !  ȯSD6

! ȴȁaÌʷdsy !  ȯSD66

! ħƆIËyaſưIqwFy !  ȯSD666�

ja�

ɖȯ}ƙƈ`JyȴÈaďjyÃďaDEĔÆ}ÃÑdSvE�

Page 91: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

map�

! DzȒƪfíSDqeÝnËUƪÍ !  ĆRcÆÒZaƻǫZN`fcL2ǹ`qsyƢĜICy

!  Õ×Õǘeô`ĿeÉ}ƩSƨFyPaI`JyeIƻǫÓeȯSR

! ďhĭNyµ�¬8�ºÁ}qaE !  ƻǫ}˖JĭNwzyHIƻǫÓda\_ÃÑ !  ˞Defn~cÌʷ2µ�¬8�ºÁ}Ą]YpeŨǩ}SvE

jb�

Page 92: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

�()/*$"#,�0� ���� �����* ! ** ���'!*�+,*-�,-* ��&&��$"#,�� + *. ���

jc�

Page 93: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƭŵƉʙ (1/4) �

!  [Brown+93] Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, Robert L. Mercer. The mathematics of statistical machine translation: parameter estimation. Computational Linguistics Vol. 19 (2), 1993.

!  [Berger+96] Adam L. Berger, Vincent J. Della Pietra, Stephen A. Della Pietra. A Maximum Entropy Approach to Natural Language Processing. Computational Linguistics, Vol. 22 (1), 1996.

!  [Lafferty+01] John Lafferty, Andrew McCallum, Fernando C. N. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. ICML2001.

jd�

Page 94: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƭŵƉʙ (2/4) �

!  [Blei+03] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. JMLR Vol. 3, 2003.

!  [Teh06] Yee Whye Teh. A Hierarchical Bayesian Language Model based on Pitman-Yor Processes. ACL 2006.

!  [Clarke+06] James Clarke, Mirella Lapata. Constraint-Based Sentence Compression: An Integer Programming Approach. COLING/ACL 2006.

!  [Riedel+06] Sebastian Riedel, James Clarke. Incremental Integer Linear Programming for Non-projective Dependency Parsing. COLING/ACL 2006.

je�

Page 95: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƭŵƉʙ (3/4) �

!  [Koo+10] Terry Koo, Alexander M. Rush, Michael Collins, Tommi Jaakkola, David Sontag. Dual Decomposition for Parsing with Non-Projective Head Automata. EMNLP 2010.

!  [Rush+10] Alexander M. Rush, David Sontag, Michael Collins, Tommi Jaakkola. On Dual Decomposition and Linear Programming Relaxations for Natural Language Processing. EMNLP 2010.

!  [Bengio+03] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian Jauvin. A Neural Probabilistic Language Model. JMLR, 2003.

jf�

Page 96: 大規模データ時代に求められる自然言語処理 -言語情報から世界を捉える-

ƭŵƉʙ (4/4) �

!  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan "Honza" Cernocky, Sanjeev Khudanpur. Recurrent neural network based language model. Interspeech, 2010.

!  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. CoRR, 2013.

!  [Socher+12] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP2012.

!  [Kalchbrenner+14] Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom. A Convolutional Neural Network for Modelling Sentences. ACL2014.

jg�