mire költik az adóforintodat?

Post on 21-Jun-2015

590 Views

Category:

Data & Analytics

9 Downloads

Preview:

Click to see full reader

DESCRIPTION

A kozbeszerzes.ceu.hu bemutatása

TRANSCRIPT

kozbeszerzes.ceu.hu

Koren MiklosCEU MicroData

blog.microdata.iotwitter.com/korenmiklos

A projektet az Europai Kutatasi Tanacs(,,Networks” Starting Grant) tamogatta.

Problema

Hogyan jutunk el innen...

1

ide...

2

es ide?

3

Open data

Az open data elvek jegyeben a kozbeszerzesi adatbazis legyen:

1. Letoltheto

2. Online bongeszheto

3. Keresheto

4. Geppel olvashato

4

Peldaul

1. Letoltheto az eredeti dokumentum es a feldolgozott xml is.

2. Amikor egy tender nezek, a nyertes ceg nevere kattintvamegtalalom a ceg tobbi tenderet.

3. Megkeresek egy ceget a neve alapjan.

4. Letoltom egy ceg osszes tenderet Excelben.

5. Megjelolok egy rekordot, ha hibasan azonosıtja a nyertest.

5

Kihıvasok

1. Gyakran valtozo sema

2. Egyedi azonosıtok hianya

3. Szamok, szoveg gyakori elırasa

4. Duplikatumok

6

Feldolgozas

Feladatok

1. Semak azonosıtasa

2. Adatbeolvasas

3. Validalas

4. Entitasfeloldas

5. Minosegbiztosıtas

7

Entitasfeloldas

I ,,Gyor Megyei Jogu Varos Polgarmesteri Hivatala”” =466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny

I ,,Ablakcentrum Kft”” = 10304563 adoszamu gazdasagitarsasag

I elırasokI hibas cegformaI hibas cımI permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST

FOVAROS V. KER. ONKORMANYZATA”

8

Entitasfeloldas

I ,,Gyor Megyei Jogu Varos Polgarmesteri Hivatala”” =466004-es PIR szamon nyilvantartott koltsegvetesi intezmeny

I ,,Ablakcentrum Kft”” = 10304563 adoszamu gazdasagitarsasag

I elırasokI hibas cegformaI hibas cımI permutacio: ,,BELVAROS -LIPOTVAROS BUDAPEST

FOVAROS V. KER. ONKORMANYZATA”

8

Minosegbiztosıtas (Precognox-reklam)

I 100 veletlenul kivalasztott tendert ,,kezzel” ellenoriztunk.I ceg- es intezmenytalalatokI osszegekI datumok

I Adatmezok pontossaga 89-95% kozott.

9

Webstack

Az adatbazis logikai semaja

10

Donteseink

I RDB es dinamikus website helyett statikus xml fajlok.I teljesıtmenyI konnyebb karbantartaniI ketfele dokumentum: entitas es tender

I Nincs szerveroldali logika: xml, xslt, csv es js fajlok AmazonS3-on

I sebessegI robosztussagI karbantartasI de nincs slicing/dicing, aggregalas, vizualizacio

I Minimalista UI.

I Egyetlen szuk keresztmetszet: keresomotor

11

Minimalista interfesz

12

Egyszeru API

/entity/t/10950676.xml

A Kozgep Zrt. alapadatai (az entitas xml-attributumaikent) es azaltala kiırt, megpalyazott es megnyert tenderek.

/tender/2002/28/5592.xml

Egy hıdepıto tender alapadatai (az entitas xml-attributumaikent)es a kiıro, megpalyazo es nyertes entitasok.

13

Egyszeru API

14

Kereses

Kereses

I Nem akartunk sajat keresot ırni: hosted ElasticSearchI found.noI qbox.io

I Ertelmes default indexalas es kereses: tf-idfI de szoveges relevancia 6= gazdasagi relevancia

I Jol terhelheto (,,index.hu cımlap”-teszt)

15

FAIL: a relevans talalat csak a 12.

16

Relevancia

I Irrelevans talalatok szuresere ket tuzoltas-jellegu megoldas:

1. feloldatlan nevekben ne keressen2. a kapcsolodo tender szama szerint rendezunk

I A relevancia-szurest mas helyeken is alkalmazni fogjuk (pl.entitasfeloldas).

17

Relevans talalatok

18

top related