pavouk - telugština

Post on 05-Jan-2016

33 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

David Mareček. Pavouk - telugština. Telugština. Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem. cca 70 miliónů mluvčích Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F ). Zdroj dat. Výchozí stránka: http://in.telugu.yahoo.com/ - PowerPoint PPT Presentation

TRANSCRIPT

Pavouk - telugština

David Mareček

Telugština

• Používaný v indickém svazovém státě Ándharapradéš, kde je úředním jazykem.

• cca 70 miliónů mluvčích

• Používá své vlastní písmo (v Unicode jsou to znaky 0C00 až 0C7F).

Zdroj dat

• Výchozí stránka: http://in.telugu.yahoo.com/

• Stránky, které nemají v hlavičce meta tag s kódováním utf-8, se zahazují.

• Program během stahování neopustil výchozí stránku.

Parsing

• Pro parsování stránky byl použit balík HTML::Parser.

• Pro dekódování entit balík HTML::Entities.

• Každá stránka rozdělena na odstavce.

• Bereme poze ty odstavce, které jsou uvnitř bloku <body> a zároveň nejsou uvnitř bloku <script>.

Zpracování textu

• Pro každý odstavec se podle vzorce z přednášky určí podobnost jeho jazyka

• Při dostatečné podobnosti (pro telugštinu více jak 0.6) se tento odstavec přidá do korpusu

• Hašování obsahu odstavců pomcí CRC (String::CRC), tím zamezíme výskytu shodných odstavců v korpusu

Zpracování linků

• Během průchodu stránkou se všechny linky převádějí na absoulutní a ukládají se do pomocného seznamu.

• Pokud se z této stránky vložil do korpusu alespoň jeden odstavec, seznam linků se přidá na konec fronty, v opačném případě se zahodí.

• Hašování linků pomocí CRC, do fronty se přidávají pouze nenavštívená url.

Korpus

• počet odstavců: 11 030

• počet slov: 511 022

• počet znaků (bez mezer): 3 603 193

• velikost 10,6 MB

top related