mire költik az adóforintodat?
Post on 21-Jun-2015
590 Views
Preview:
DESCRIPTION
TRANSCRIPT
kozbeszerzes.ceu.hu
Koren MiklosCEU MicroData
blog.microdata.iotwitter.com/korenmiklos
A projektet az Europai Kutatasi Tanacs(,,Networks” Starting Grant) tamogatta.
Problema
Hogyan jutunk el innen...
1
ide...
2
es ide?
3
Open data
Az open data elvek jegyeben a kozbeszerzesi adatbazis legyen:
1. Letoltheto
2. Online bongeszheto
3. Keresheto
4. Geppel olvashato
4
Peldaul
1. Letoltheto az eredeti dokumentum es a feldolgozott xml is.
2. Amikor egy tender nezek, a nyertes ceg nevere kattintvamegtalalom a ceg tobbi tenderet.
3. Megkeresek egy ceget a neve alapjan.
4. Letoltom egy ceg osszes tenderet Excelben.
5. Megjelolok egy rekordot, ha hibasan azonosıtja a nyertest.
5
Kihıvasok
1. Gyakran valtozo sema
2. Egyedi azonosıtok hianya
3. Szamok, szoveg gyakori elırasa
4. Duplikatumok
6
Feldolgozas
Feladatok
1. Semak azonosıtasa
2. Adatbeolvasas
3. Validalas
4. Entitasfeloldas
5. Minosegbiztosıtas
7
Entitasfeloldas
I ,,Gyor Megyei Jogu Varos Polgarmesteri Hivatala”” =466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny
I ,,Ablakcentrum Kft”” = 10304563 adoszamu gazdasagitarsasag
I elırasokI hibas cegformaI hibas cımI permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST
FOVAROS V. KER. ONKORMANYZATA”
8
Entitasfeloldas
I ,,Gyor Megyei Jogu Varos Polgarmesteri Hivatala”” =466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny
I ,,Ablakcentrum Kft”” = 10304563 adoszamu gazdasagitarsasag
I elırasokI hibas cegformaI hibas cımI permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST
FOVAROS V. KER. ONKORMANYZATA”
8
Minosegbiztosıtas (Precognox-reklam)
I 100 veletlenul kivalasztott tendert ,,kezzel” ellenoriztunk.I ceg- es intezmenytalalatokI osszegekI datumok
I Adatmezok pontossaga 89-95% kozott.
9
Webstack
Az adatbazis logikai semaja
10
Donteseink
I RDB es dinamikus website helyett statikus xml fajlok.I teljesıtmenyI konnyebb karbantartaniI ketfele dokumentum: entitas es tender
I Nincs szerveroldali logika: xml, xslt, csv es js fajlok AmazonS3-on
I sebessegI robosztussagI karbantartasI de nincs slicing/dicing, aggregalas, vizualizacio
I Minimalista UI.
I Egyetlen szuk keresztmetszet: keresomotor
11
Minimalista interfesz
12
Egyszeru API
/entity/t/10950676.xml
A Kozgep Zrt. alapadatai (az entitas xml-attributumaikent) es azaltala kiırt, megpalyazott es megnyert tenderek.
/tender/2002/28/5592.xml
Egy hıdepıto tender alapadatai (az entitas xml-attributumaikent)es a kiıro, megpalyazo es nyertes entitasok.
13
Egyszeru API
14
Kereses
Kereses
I Nem akartunk sajat keresot ırni: hosted ElasticSearchI found.noI qbox.io
I Ertelmes default indexalas es kereses: tf-idfI de szoveges relevancia 6= gazdasagi relevancia
I Jol terhelheto (,,index.hu cımlap”-teszt)
15
FAIL: a relevans talalat csak a 12.
16
Relevancia
I Irrelevans talalatok szuresere ket tuzoltas-jellegu megoldas:
1. feloldatlan nevekben ne keressen2. a kapcsolodo tender szama szerint rendezunk
I A relevancia-szurest mas helyeken is alkalmazni fogjuk (pl.entitasfeloldas).
17
Relevans talalatok
18
top related