korejsky korpus
TRANSCRIPT
- 1. Korejtina / Hangukmal / osnmal
2. sla
- 78 milin mluvch
3. Jin a Severn Korea 4. Emigranti: na, Rusko, Austrlie, Kanada, ... 5. Abeceda hangl
- Oficiln psmo
6. Z 15. stolet (krl Sedong) 7. 28/25 znak 8. 2-3 hlsky na slabiku, zpis do rmeku 9. A po 400 letech na ednch dokladech (amgul) 10. Handa
- nsk znaky
11. Pro sinokorejsk slova (50% slovn zsoby) 12. Ve kole 1800 znak (jen v Severn) 13. Jazyk
- Izolovan
14. Aglutinan
- Kasidiman... (Jde, ale...)
- ka- ( koen = jt ) si- ( zdvo. vpona ) -diman ( spoj. Sufix )
Honorika respekt k subjektu 15. rovn projevu respekt k publiku, 7 rovn 16. Rozdl mezi S a J (gram., vslov., slov. zsoba) 17. Zdroje dat
- Wikipedia
- Dostatek dat
18. Formt (XML) + syntaxe 19. Pidruen projekty (wikisource, wikibooks, wikiquote, wikinews, wiktionary) 20. http://download.wikimedia.org/ 21. Aplikace
- wiki2corpora.pl ko
- wget
22. explodeWikidump.pl 23. mediawiki2plain.pl 24. makeCorpora 25. makeCharList 26. makeTokenList wiki wikibooks wikisource wikinews 27. Frekvenn slovnk
- Jak nejefektivnj?
- Pro etinu: 302 872 195 dek, 632MB
sort | uniq -c | sort -nr
- Pli nadbyten prce
28. 4200s (70min) Perl / C++ / Python 29. Rzn implementace
- C++1 -O3: 433.4
30. C++2 -O2: 433.6 31. C++2 -O3: 434.2 32. C++1 -O2: 434.8 33. C++2 -O1: 437.6 34. C++1 -O1: 443.4
- Perl: 454.9
35. Python: 588.1 36. C++1 -O0: 630.8 37. C++2 -O0: 635.9 38. PHP: 883.7 39. Bash: 4200 40. Velikost
- Poet znak:
- 332M (wc)
Poet slov:
- 47M (wc)
41. 20M ( ,.;!?():!/|"'' -> = ~`^ "^ +& @ ) 42. Znaky
- 1. 51 812 574x
- The; position, rank, stomach, grade, top, surface, ...
2-81: latinka + spec.
- 82. - 8 635x
- Kim; Au, metal, cash
86. 7621x 43. Od 200. msta
- 25 2+ 25 3= 16 250 kombinac
44. 22 321 rznch znak 45. Slova I
- 1.121 614x
46. 2.91 830x 47. 3.82 402x 48. 4.67 558x 49. 5. 1 62 280x
- 6.53 356x
50. 7.46 866x 51. 8. 0 45 503x 52. 9. 2 44 866x 53. 10.2008 42118x
- Celkem: 19 912 950
54. Uniktnch: 2 315 728 55. Slova II
- Dlka slova - 8
- 9 5 172 207, 6 -4 794 843, 12 2 992 821
56. 3 1 792 858, 15 1 326 165, 4 663 545, 57. 7 595 202, 2 510 687, 5 431 491, 18 431 313 Vskyt slov
- 1 1 445 231, 2 317 961, 3 135 954, 4 80 685
58. 5 51 775, 6 37 358, 7 27 905 59. Zdroje
- http://cs.wikipedia.org/wiki/Korejtina
60. http://cs.wikipedia.org/wiki/Hangul 61. http://en.wikipedia.org/wiki/Korean_language 62. http://en.wiktionary.org/wiki/Appendix:Korean_grammatical_terms 63. http://www.dliflc.edu/academics/academic_affairs/dli_catalog/resident.htm 64. http://world.kbs.co.kr/learn_korean/lessons/e_index.htm