![Page 1: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/1.jpg)
Detekcia toho istého obsahu pri rozdielnej linke
Milan Martinkovič
![Page 2: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/2.jpg)
Problém a motivácia
Informačný rozmach = komplikovanejšie prehľadávanie, nižšia efektivita IR
Detekcia duplicít– možné zvýšenie efektivity IR algoritmov– detekcia plagiarizmov
![Page 3: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/3.jpg)
Podobné riešenia
Rôzne on-line detektory– Chránia si svoj princíp fungovania
Riešenia zamerané na získanie podstatného obsahu– Boilerpipe– PHP kód zo stránky w-shadow
![Page 4: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/4.jpg)
Opis riešenia
Implementácia– V jazyku PHP– Webová aplikácia
Hlavné kroky algoritmu– Získanie HTML kódu stránok– Odstránenie zbytočného obsahu– Prevod HTML na plain text– Porovnanie plain textov
![Page 5: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/5.jpg)
![Page 6: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/6.jpg)
![Page 7: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/7.jpg)
Určenie hraničnej hodnoty duplicity
Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti
1. 72,59 60 43,55
2. 75,83 66,66 50,56
3. 66,23 71,43 47,31
4. 57 87,5 49,87
5. 62,5 66,66 41,67
6. 75,1 71,43 53,63
7. 77,48 71,43 55,34
8. 72,69 71,43 51,92
9. 73,77 66,66 49,18
10. 70,33 87,5 61,54
Identické pracovné ponuky
![Page 8: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/8.jpg)
Určenie hraničnej hodnoty duplicity
Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti
1. 21,56 33,33 7,18
2. 20,18 28,57 5,76
3. 30,41 28,57 8,69
4. 18,75 33,33 6,25
5. 14,95 28,57 4,27
Rozdielne pracovné ponuky
![Page 9: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/9.jpg)
Určenie hraničnej hodnoty duplicity
Číslo merania Zhoda textu v % Zhoda title v % Skóre podobnosti
1. 16,2 0 1,62
2. 25,51 0 2,55
3. 14,53 0 1,45
Úplne rozdielne stránky
Hraničná hodnota duplicity– 35– Upozornenie na možné skreslenie kvôli title
![Page 10: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/10.jpg)
Vyhodnotenie
Porovnanie ľudského verdiktu (zhodné stránky) a verdiktu programuČíslo merania URL Verdikt algoritmu
1.http://kariera.zoznam.sk/sk/pracovna-ponuka/161503/servisny-technik-programator-
automobilovy-priemysel zhodnéhttp://www.profesia.sk/praca/cpl-jobs/O1379866
2.http://kariera.zoznam.sk/sk/pracovna-ponuka/160813/senior-unix-engineer-3rd-level-
zhodnéhttp://www.profesia.sk/praca/cpl-jobs/O1376486
3.http://www.profesia.sk/praca/adela-call/O1382727
zhodnéhttp://kariera.zoznam.sk/sk/pracovna-ponuka/162093/telefonicky-operator-pre-zaujimave-projekty
4.http://kariera.zoznam.sk/sk/pracovna-ponuka/162090/pomocne-prace-vo-vyrobe
zhodnéhttp://www.profesia.sk/praca/start-people/O1382121
5.http://kariera.zoznam.sk/sk/pracovna-ponuka/161999/mzdovy-uctovnik-cka-s-praxou-pozor!
zhodnéhttp://www.profesia.sk/praca/adecco-organizacna-zlozka/O1380735
6.http://kariera.zoznam.sk/sk/pracovna-ponuka/161998/praca-v-sklade
zhodnéhttp://www.profesia.sk/praca/adecco-organizacna-zlozka/O1381432
7.http://kariera.zoznam.sk/sk/pracovna-ponuka/161908/obchodny-zastupca-pre-oblast-ocnej-
optiky zhodnéhttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381379
8.http://kariera.zoznam.sk/sk/pracovna-ponuka/161906/programator-c-programovaci-jazyk-
zhodnéhttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381385
![Page 11: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/11.jpg)
Vyhodnotenie
Nezhodné pracovné ponuky
Číslo merania URL Verdikt algoritmu
1.http://kariera.zoznam.sk/sk/pracovna-ponuka/161966/recepcny-nocny
rozdielnehttp://www.profesia.sk/praca/aujob-personalna-agentura/O1381385
2.http://kariera.zoznam.sk/sk/pracovna-ponuka/162086/tw-operator
rozdielnehttp://www.profesia.sk/praca/webcentrum/O1377202?similar=2
3.http://kariera.zoznam.sk/sk/pracovna-ponuka/154073/technolog-vyroby
rozdielnehttp://www.profesia.sk/praca/monogram-technologies/O1376702?similar=2
4. http://kariera.zoznam.sk/sk/pracovna-ponuka/161905/it-technicka-podpora-s-nemeckym-jazykom rozdielne
http://www.profesia.sk/praca/ago-europe-ago-engineering-ago-group/O1253987?similar=2
5. http://kariera.zoznam.sk/sk/pracovna-ponuka/157079/team-leader-backup-ref-c-1-10-11875-zo- rozdielne
http://www.profesia.sk/praca/m7/O1376724?similar=2
![Page 12: Detekcia toho istého obsahu pri rozdielnej linke](https://reader035.vdocuments.pub/reader035/viewer/2022062314/56813cf6550346895da69b0c/html5/thumbnails/12.jpg)
Záver
Na základe vyhodnotenia môžeme prehlásiť, že riešenie je funkčné
Možné rozšírenie– Eliminácia STOP slov, za účelom presnejšieho
porovnávania