korejsky korpus

Download Korejsky Korpus

If you can't read please download the document

Upload: martin-majlis

Post on 18-Jun-2015

392 views

Category:

Education


9 download

TRANSCRIPT

  • 1. Korejtina / Hangukmal / osnmal

2. sla

  • 78 milin mluvch

3. Jin a Severn Korea 4. Emigranti: na, Rusko, Austrlie, Kanada, ... 5. Abeceda hangl

  • Oficiln psmo

6. Z 15. stolet (krl Sedong) 7. 28/25 znak 8. 2-3 hlsky na slabiku, zpis do rmeku 9. A po 400 letech na ednch dokladech (amgul) 10. Handa

  • nsk znaky

11. Pro sinokorejsk slova (50% slovn zsoby) 12. Ve kole 1800 znak (jen v Severn) 13. Jazyk

  • Izolovan

14. Aglutinan

  • Kasidiman... (Jde, ale...)
  • ka- ( koen = jt ) si- ( zdvo. vpona ) -diman ( spoj. Sufix )

Honorika respekt k subjektu 15. rovn projevu respekt k publiku, 7 rovn 16. Rozdl mezi S a J (gram., vslov., slov. zsoba) 17. Zdroje dat

  • Wikipedia
  • Dostatek dat

18. Formt (XML) + syntaxe 19. Pidruen projekty (wikisource, wikibooks, wikiquote, wikinews, wiktionary) 20. http://download.wikimedia.org/ 21. Aplikace

  • wiki2corpora.pl ko
  • wget

22. explodeWikidump.pl 23. mediawiki2plain.pl 24. makeCorpora 25. makeCharList 26. makeTokenList wiki wikibooks wikisource wikinews 27. Frekvenn slovnk

  • Jak nejefektivnj?
  • Pro etinu: 302 872 195 dek, 632MB

sort | uniq -c | sort -nr

  • Pli nadbyten prce

28. 4200s (70min) Perl / C++ / Python 29. Rzn implementace

  • C++1 -O3: 433.4

30. C++2 -O2: 433.6 31. C++2 -O3: 434.2 32. C++1 -O2: 434.8 33. C++2 -O1: 437.6 34. C++1 -O1: 443.4

  • Perl: 454.9

35. Python: 588.1 36. C++1 -O0: 630.8 37. C++2 -O0: 635.9 38. PHP: 883.7 39. Bash: 4200 40. Velikost

  • Poet znak:
  • 332M (wc)

Poet slov:

  • 47M (wc)

41. 20M ( ,.;!?():!/|"'' -> = ~`^ "^ +& @ ) 42. Znaky

  • 1. 51 812 574x
  • The; position, rank, stomach, grade, top, surface, ...

2-81: latinka + spec.

  • 82. - 8 635x
  • Kim; Au, metal, cash

86. 7621x 43. Od 200. msta

  • 25 2+ 25 3= 16 250 kombinac

44. 22 321 rznch znak 45. Slova I

  • 1.121 614x

46. 2.91 830x 47. 3.82 402x 48. 4.67 558x 49. 5. 1 62 280x

  • 6.53 356x

50. 7.46 866x 51. 8. 0 45 503x 52. 9. 2 44 866x 53. 10.2008 42118x

  • Celkem: 19 912 950

54. Uniktnch: 2 315 728 55. Slova II

  • Dlka slova - 8
  • 9 5 172 207, 6 -4 794 843, 12 2 992 821

56. 3 1 792 858, 15 1 326 165, 4 663 545, 57. 7 595 202, 2 510 687, 5 431 491, 18 431 313 Vskyt slov

  • 1 1 445 231, 2 317 961, 3 135 954, 4 80 685

58. 5 51 775, 6 37 358, 7 27 905 59. Zdroje

  • http://cs.wikipedia.org/wiki/Korejtina

60. http://cs.wikipedia.org/wiki/Hangul 61. http://en.wikipedia.org/wiki/Korean_language 62. http://en.wiktionary.org/wiki/Appendix:Korean_grammatical_terms 63. http://www.dliflc.edu/academics/academic_affairs/dli_catalog/resident.htm 64. http://world.kbs.co.kr/learn_korean/lessons/e_index.htm