erjon zoto phd, fakulteti in ekonomise, departamenti i mat - stat - info

164
REPUBLIKA E SHQIPËRISË UNIVERSITETI I TIRANËS FAKULTETI I EKONOMISË DEPARTAMENTI “STATISTIKË DHE INFORMATIKË E ZBATUAR” DISERTACION Për marrjen e gradës shkencore “DOKTOR” CILËSIA E TË DHËNAVE NË SISTEMET E INFORMACIONIT NË KONTABILITET NËPËRMJET DATA MINING Tezë Doktorate Kandidati Udhëheqës Shkencor: Erjon ZOTO Prof. Dr. Dhimitri TOLE Tiranë, 2015

Upload: tranthien

Post on 08-Feb-2017

243 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

REPUBLIKA E SHQIPËRISË

UNIVERSITETI I TIRANËS

FAKULTETI I EKONOMISË

DEPARTAMENTI “STATISTIKË DHE INFORMATIKË E ZBATUAR”

DISERTACIONPër marrjen e gradës shkencore “DOKTOR”

CILËSIA E TË DHËNAVE NË SISTEMET E

INFORMACIONIT NË KONTABILITET

NËPËRMJET DATA MINING

Tezë Doktorate

Kandidati Udhëheqës Shkencor:

Erjon ZOTO Prof. Dr. Dhimitri TOLE

Tiranë, 2015

Page 2: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

REPUBLIKA E SHQIPËRISË

UNIVERSITETI I TIRANËS

FAKULTETI I EKONOMISË

DEPARTAMENTI “STATISTIKË DHE INFORMATIKË E ZBATUAR”

DISERTACION

Përgatitur nga: Z. ERJON ZOTO

Për marrjen e gradës shkencore “DOKTOR”

Tema:

CILËSIA E TË DHËNAVE NË SISTEMET E INFORMACIONIT NË KONTABILITET

NËPËRMJET DATA MINING

Mbrohet më dt 07.12.2015 para jurisë:

1. Prof. Dr. Kozeta Sevrani (Kryetar)

2. Prof. Dr. Sotiraq Dhamo (Anëtar)

3. Prof. Dr. Bashkim Ruseti (Anëtar)

4. Prof. As. Dr. Nevila Baci (Anëtar)

5. Prof. As. Dr. Besa Shahini (Anëtar)

Page 3: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

FALENDERIME

Punimi i doktoratës në vazhdim është fryti i një pune të vazhdueshme disavjeçare, në të cilën kanë dhënë kontributin e tyre dhe disa persona të tjerë, të veçantë për mua.

Së pari, do të doja të shprehja mirënjohjen time të thellë për udhëheqësin tim shkencor gjatë këtyre viteve, Prof. Dr. Dhimitri Tolen. Në fund të këtij rrugëtimi, ndihem mëse i lumtur që kam mundur të bashkëpunoj me një njeri me kaq njohuri të thelluara në fushën e statistikës, informatikës së zbatuar dhe kërkimit shkencor, dhe jam ndjerë vërtetë me fat që kam ndjekur orientimet dhe sugjerimet e tij hap pas hapi. Atij i takon sigurisht një pjesë e rëndësishme e meritës për këtë punë kërkimore të zhvilluar.

Më tej, do të doja të falenderoja shefen e Departamentit të Statistikës dhe Informatikës së Zbatuar, Prof. Dr. Kozeta Sevrani, e cila më ka mbështetur vazhdimisht dhe më ka orientuar drejt zgjidhjeve të suksesshme për disa nga problemet e hasura gjatë procesit të Doktoraturës. Ajo gjithashtu ka mirëkuptuar herë pas here angazhimin tim për përfundimin në kohë të punimit të doktoratës.

Një falenderim i veçantë shkon dhe për kolegët e Departamentit ku unë punoj prej më shumë se 7 vitesh tashmë. Jam i sigurt që, pa mbështetjen dhe këshillat e tyre gjatë këtyre viteve, nuk do ta kisha të lehtë të realizoja këtë punë në vazhdimësi. Po këtu, dua të falënderoj dhe kolegë e profesorë nga Departamentet e tjera në Fakultetin e Ekonomisë apo Fakultete të tjera që më kanë orientuar drejt në raste të ndryshme.

Përfundimi i studimeve dhe procedurave në kohë nuk do të kishte qenë i mundur pa mbështetjen dhe orientimet e Prof. Dr. Mimoza Kasimatit, e cila në detyrën e saj si përgjegjëse e Shkollës së Doktoraturës ka qenë e gatshme për të më ndihmuar në mënyrë të pakushtëzuar.

Përtej kolegëve të punës, mbështetjen më të rëndësishme për këtë punë të lodhshme dhe të gjatë kërkimore e kam ndjerë pranë familjes sime të mrekullueshme. Ndaj, këtë punim dua t’ja dedikoj në mënyrë të veçantë djalit tim, Dionit, sepse ka qenë burimi kryesor i frymëzimit për ta përfunduar me sukses këtë disertacion.

Erjon Zoto,

Tiranë, Qershor 2015

Page 4: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

i

PARATHËNIE

Në vitet e fundit ka pasur një zhvendosje të rëndësishme të fokusit të industrisë së Teknologjive të Informacionit nga Teknologjia tek Informacioni. Kështu, krijimi i sistemeve kompjuterike të përpunimit me fuqi të lartë, i kujtesave me kapacitet shumë të madh, aksesi gjithnjë e më i lirshëm në teknologjinë cloud të përpunimit, bashkë me përdorimin gjithnjë e më të përhapur të softuerëve si shërbim, nuk po bëjnë asgjë më shumë sesa lehtësimin e përdorimit të teknologjisë, duke e kthyer atë nga një produkt luksi në produkt të prekshëm nga të gjithë. Në këtë fazë, organizatat po kuptojnë se konkurrueshmëria e tyre nuk do të bazohet më në teknologjinë e përdorur, por thjesht dhe vetëm në të dhënat në përdorim, duke bërë që këto të fundit të jenë një nga asetet e tyre më të çmuara.Në këtë mjedis të orientuar drejt të dhënave, kompanitë po përdorin gjithnjë e më shumë teknika të përparuara për të marrë kuptime të rëndësishme nga të dhënat e tyre. Gjithsesi, rregulli GIGO ende ekziston. Kjo do të thotë se, pavarësisht nga zhvillimet më të fundit, teknikat e reja mund të bëhen të dobishme vetëm nëse të dhënat e analizuara do të jenë cilësore. Vendimet e marra nga përfundimet që mbështeten në të dhëna me cilësi të ulët mund të prodhojnë rezultate jo të mira që do të sillnin më tej humbje financiare apo edhe gabime të rëndësishme strategjike për vazhdimësinë e organizatës. Në një studim të vitit 2013 nga SAP dhe organizata të tjera partnere të saj në nivel global, vihet re se çështjet e lidhura me cilësinë e të dhënave në organizata janë endetë vështira për t’u trajtuar nga vetë personeli i tyre. Shumica e të intervistuarve pranuan se niveli i përgjithshëm i cilësisë së të dhënave në organizatat e tyre ishte i mirë ose shumë i mirë, ndërkohë që është shtuar numri i organizatave me një program të përcaktuar në lidhje me cilësinë e të dhënave. Gjithashtu, shumica e të intervistuarve përdornin konsulentë të jashtëm për problemet me cilësinë e të dhënave. Një problem i rëndësishëm mbetet përllogaritja e kostos me të cilën përballen organizatat që shfaqin nivel të ulët të cilësisë së të dhënave, bashkë me mungesën e përfshirjes së të gjithë strukturës organizative në programin e cilësisë së të dhënave brenda organizatës. Kjo situatë tregon se cilësia e të dhënave është çështje e ditësedhe në ditët e sotme. Vetë tendencat e reja të menaxhimit të të dhënave të organizatës nënkuptojnë që, në mënyrë të pashmangshme, të dhënat do të qarkullojnë në mënyrë të përhershme nga një pajisje në tjetrën (McKnight, 2013). Në çdo moment këmbimi të dhënash mund të shfaqen gabime të reja, të panjohura më parë.Cilësia e të dhënave është bërë e rëndësishme për suksesin e sistemeve të përfshira në këtë proces. Një shembull tipik i tyre janë dhe Sistemet e Informacionit në Kontabilitet (SIK). Ka një kërkesë gjithnjë e më të lartë për menaxhim cilësor të të dhënave, por ky menaxhim cilësor nuk mund të bëhet nëse nuk ka një strategji të mirëfilltë për cilësinë e të dhënave dhe nëse nuk njihen dhe trajtohen faktorët që ndikojnë cilësinë e të dhënave, duke u fokusuar në të dhënat që qarkullojnë brenda SIK.

Page 5: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

ii

Parathënie i

Kapitulli 1

Hyrje

1.1 Disa nga shkaqet kryesore të problemeve me cilësinë e të dhënave............... 1

1.2 Motivimi dhe qëllimi..................................................................................................... 8

1.3 Objektivat e studimit dhe hartimi i hipotezave..................................................... 9

1.4Rëndësia e mundshme dhe fushat e zbatimit të rezultatit të pritshëm të studimit.............................................................................................................................

11

1.5 Organizimi i studimit................................................................................................... 12

Kapitulli 2

Përmbledhje e literaturës

2.1 Hyrje.................................................................................................................................. 15

2.2 Cilësia e të dhënave...................................................................................... 17

2.3 Sistemet e Informacionit në Kontabilitet....................................................... 23

2.4 Data Mining................................................................................................... 26

Kapitulli 3

Metodologjia e kërkimit

3.1 Hyrje………................................................................................................... 31

3.2 Zgjedhja e metodologjisë dhe arsyetimi përkatës................................................. 31

3.3 Faktorët e përfshirë në literaturë.................................................................................. 32

3.4 Përgatitja e pyetësorit....................................................................................................... 36

3.5 Përcaktimi i zgjedhjes....................................................................................................... 37

3.6 Testimi paraprak................................................................................................................ 38

Page 6: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

iii

3.7 Forma përfundimtare e pyetësorit. ................................................................................ 38

3.8 Çështje të tjera.................................................................................................................... 41

Kapitulli 4

Analiza e rezultateve

4.1 Rezultatet e pyetjeve të përgjithshme.......................................................................... 43

4.2 Faktorët më të rëndësishëm............................................................................... 46

4.3 Faktorët më të realizuar............................................................................................. 48

4.4 Përgatitja e të dhënave…........................................................................................... 50

4.5 Faktorët më të mirë sipas regresionit logjistik……………………………... 53

4.6 Faktorët më të mirë sipas teknikës së pemëve të vendimit………………… 63

4.7 Faktorët më të mirë sipas rrjetave nervore artificiale……………………… 75

Kapitulli 5

Vlerësimi dhe ndryshimi i mëtejshëm i teknikave Data Mining

5.1 Vlerësimi i modeleve të studiuara………………………………………… 81

5.2 Metoda bagging…………………………………………………………… 89

Kapitulli 6

Analiza krahasuese dhe kontrolli i hipotezave

6.1 Analiza krahasuese midis rëndësisë dhe realizimit të faktorëve…………… 98

6.2 Analiza krahasuese midis të punësuarve në sektorin publik dhe privat……. 100

6.3 Analiza krahasuese e teknikave të Data Mining me metodat statistikore….. 102

6.4 Analiza krahasuese midis teknikave Data Mining të përdorura…………… 108

6.5 Analiza krahasuese e teknikave para dhe pas përmirësimit………………... 110

Page 7: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

iv

6.6 Përmbledhje mbi rezultatet e krahasimit dhe hipotezat e ngritura…………. 111

Kapitulli 7

Konkluzione Dhe Rekomandime

7.1 Përmbledhje e punimit……………………………………………………... 113

7.2 Arritjet e punimit…………………………………………………………… 115

7.3 Kufizimet e punimit....................................................................................... 125

7.4 Një arkitekturë e përshtatshme për cilësinë e të dhënave.............................. 126

Referenca.......................................................................................................................... 139

Shtojca.............................................................................................................................. 146

Page 8: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

v

LISTA E TABELAVE

Tabela 3.1. Shkalla e vlerësimit dhe vlera përkatëse......................................... 37

Tabela 4.1. Të dhënat mbi SIK të përdorur............................................................... 43

Tabela 4.2. Vlerësimi për nivelin e cilësisë së të dhënave dhe dimensionetpërkatëse................................................................. ..........................................

45

Tabela 4.3. Testimi i normalitetit...................................................................... 45

Tabela 4.4. Faktorët më të rëndësishëm, renditja në tërësi............................... 47

Tabela 4.5. Faktorët më të realizuar, renditja në tërësi..................................... 49

Tabela 4.6. Faktorët më të realizuar, renditja në tërësi (13 faktorë)................. 52

Tabela 4.7. Tabela e klasifikimit - Regresioni logjistik.................................... 56

Tabela 4.8. Të dhënat për rëndësinë e modeleve pa dhe me variabla shpjegues................................................................. ..........................................

57

Tabela 4.9. Të dhënat e parametrave të modelit të regresionit logjistik........... 58

Tabela 4.10. Të dhënat mbi vlerat e realizimit për çdo faktor dhe rëndësia përkatëse................................................................. ..........................................

59

Tabela 4.11. Tabela e klasifikimit - Regresioni logjistik, modeli alternativ.... 61

Tabela 4.12. Të dhënat për rëndësinë e modeleve me variabla shpjegues, modeli alternativ..............................................................................................

61

Tabela 4.13. Të dhënat e parametrave të modelit të regresionit logjistik, modeli alternativ................................................................. .........................................

62

Tabela 4.14. Tabela e klasifikimit - Modeli C4.5 me 7 faktorë....................... 67

Tabela 4.15. Renditja e variablave sipas raportit sukses/dështim nëparashikim.........................................................................................................

68

Tabela 4.16. Kombinimet e variablave që sjellin probabilitet 0/1.................... 70

Tabela 4.17. Tabela e klasifikimit - Modeli C4.5 me 20 faktorë....................... 72

Tabela 4.18. Tabela e klasifikimit - Modeli MLP............................................ 78

Tabela 5.1. Saktësia e parashikimit për secilën metodë vlerësimi sipas teknikave të përdorura.................................... ..................................................

88

Tabela 5.2. Saktësia e parashikimit për secilën metodë vlerësimi pas ndryshimit.........................................................................................................

96

Tabela 6.1. Faktorët më të rëndësishëm dhe më të realizuar........................... 98

Tabela 6.2. Ndryshimi midis rëndësisë dhe realizimit për çdo faktor............. 99

Tabela 6.3. Ndryshimi midis rëndësisë dhe realizimit..................................... 100

Tabela 6.4. Ndryshimet midis të punësuarve në sektorin privat dhe publik për 101

Page 9: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

vi

çdo faktor............................................................................................................

Tabela 6.5. Faktorët kyç - metoda statistikore kundrejt regresionit logjistik..... 103

Tabela 6.6. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë - metoda statistikore kundrejt regresionit logjistik...........................

104

Tabela 6.7. Faktorët kyç - metoda statistikore kundrejt pemës së vendimit....... 105

Tabela 6.8. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë – metoda statistikore kundrejt pemës së vendimit............................

106

Tabela 6.9. Faktorët kyç - metoda statistikore dhe perceptroni shumështresor (MLP).................................................................................................................

107

Tabela 6.10. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë – metoda statistikore kundrejt MLP................................................

107

Tabela 6.11. Faktorët kyç – regresioni logjistik kundrejt pemës së vendimit.... 108

Tabela 6.12. Faktorët kyç – krahasimi midis teknikave Data Mining............... 109

Tabela 6.13. Dallimi para dhe pas ndryshimit................................................... 110

Tabela 7.1. Rregullat e biznesit – shembuj........................................................ 131

LISTA E FIGURAVE

Figura 4.1. Pema e vendimit C4.5 për 7 faktorë............................................... 67

Figura 4.2. Pema e vendimit C4.5 për 20 faktorë............................................. 73

Figura 4.3. Modeli MLP me 6 nyje të ndërmjetme........................................... 78

Figura 7.1. Skema e gabimeve.......................................................................... 132

Figura 7.2. Tabela e auditit............................................................................... 134

LISTA E GRAFIKËVE

Grafiku 4.1. Rolet e të anketuarve në lidhje me SIK-un................................... 44

Page 10: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

1

KAPITULLI 1: HYRJE

Në ditët e sotme shumica e organizatave mendojnë se suksesi i tyre lidhet gjithnjë e më shumë me cilësinë e informacioneve që përdorin. Organizatat mbështeten në të dhënat në dispozicion për të marrë vendime të rëndësishme që ndikojnë në shërbimet ndaj klientëve të tyre, në përshtatjen me legjislacionin, në zinxhirin e furnizimit dhe në shumë fusha të tjera.

Me mbledhjen e gjithnjë e më shumë informacioneve mbi klientët, produktet, furnitorët, transaksionet dhe faturimin, ajo që bëhet shumë e rëndësishme lidhet me zbulimin dhe eliminimin e shkaqeve që nuk lejojnë garantimin e cilësisë së të dhënave. Kjo mund të bëhet përmes mjeteve të përshtatshme, që nuk bëjnë gjë tjetër përveçse eliminimit të problemit që në zanafillë dhe zgjidhjes së problemit në mënyrë përfundimtare. Këto mjete funksionojnë bashkë me njerëzit dhe proceset me synimin për të krijuar në fund informacione me cilësi dhe vlerë mjaft të lartë.

1.1. Disa nga shkaqet kryesore të problemeve në lidhje me cilësinë e të dhënave

Cilësia e të dhënave ndikohet nga shumë procese të ndërthurura midis tyre, të cilat mund të ndahen në 3 grupe të mëdha (Maydanchik, 2007):

Proceset që sjellin të dhëna drejt sistemit

Proceset që ndryshojnë të dhënat

Proceset që dëmtojnë të dhënatGrupi i parë përfshin të gjitha proceset që mbledhin të dhëna nga mjedisi i

jashtëm, që mund të hidhen nga përdoruesit ose me mënyra të tjera. Disa prej këtyre të dhënave mund të jenë jo të sakta që në burim, disa të tjera mund të shfaqin gabime gjatë proceseve të ekstraktimit apo ndryshimit të tyre. Sa më shumë të dhëna të mund të shkëmbehen në njësinë e kohës, aq më shumë shfaqen probleme të tilla.

Në proceset që ndryshojnë të dhënat, disa prej tyre janë rutinë, të tjera lidhen me përmirësime të mundshme të sistemit, përditësim të dhënash apo veprime të tjera të zakonshme. Shumica e këtyre procedurave duhet të bëhen në një kohë të shpejtë dhe me një staf jo të specializuar, çka shton mundësinë për probleme me cilësinë e të dhënave. Kjo bën që edhe një përpunim i thjeshtë të dhënash të mund të shkaktojë probleme të rëndësishme.

Grupi i tretë përfshin proceset që shkaktojnë probleme tek të dhënat me kalimin e kohës. Këto procese nuk ndryshojnë të dhënat, por ulin nivelin e saktësisë së tyre. Kjo zakonisht lidhet me përditësimin e munguar të të dhënave në kohë, ku ekzistenca e të dhënave të vjetra i bën ato të pasakta për periudhën në vijim.

Këto grupe përfshijnë 13 procese kryesore që shkaktojnë probleme me cilësinë e të dhënave dhe do të trajtohen në seksionin e mëposhtëm.

Page 11: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

2

1.1.1. Konvertimi i të dhënave

Bazat e të dhënave nuk janë asnjëherë bosh. Shpesh ato krijohen si pjesë e një procesi konvertimi të dhënash nga një burim të dhënash ekzistuese. Ky proces është shpesh burim i problemeve të shumta, që zakonisht rrisin kohën e vënies në punë të sistemit të ri, duke zënë më shumë se gjysmën e kësaj kohe.

Ka shumë raste të organizatave që trashëgojnë sot pasojat e një konvertimi të dhënash të gabuar të bërë përpara disa vitesh ose edhe dhjetëvjeçarësh. Nga ana tjetër, edhe burimi i të dhënave nuk është gjithnjë i përsosur. Të dhënat e pasakta mund të ndikojnë tek pjesa tjetër dhe kjo përbën problem.

Gjatë konvertimit të të dhënave, cilësia e të dhënave është në përpjesëtim të drejtë me kohën e harxhuar për të analizuar të dhënat dhe kuptimin e tyre. Në një raport ideal të ndarjes së kohës, 80% e saj duhet të harxhohet për analizën e të dhënave dhe pjesa tjetër për shkrimin e kodit të nevojshëm për procedurat e konvertimit.

Konvertimi i të dhënave është pra elementi më i vështirë gjatë vënies në punë të sistemit të ri. Si burim i zakonshëm i problemeve me cilësinë e të dhënave, ky proces duhet të trajtohet me rëndësinë e duhur.

1.1.2. Integrimi i sistemit

Bashkimi i bazave të të dhënave është një nga aktivitetet më të shpeshta në ambientin e TI-së. Këto procese realizohen kur duhet bërë kalimi nga sistemi i vjetër tek sistemi i ri ose kur ka bashkim midis të dhënave nga burime të ndryshme. Rasti më tipik lidhet me shkrirjet midis organizatave të ndryshme. Në këtë rast problemet shoqëruese janë të shumta, pasi shpesh kjo situatë është e paparashikuar dhe duhet të ndodhë brenda një afati shumë të shkurtër kohor, duke mbartur dhe pasojat e përplasjes midis departamenteve të njëjta të dy organizatave dhe pasojat e largimit të individëve me eksperiencë gjatë këtij procesi.

Integrimi i të dhënave përballet me të njëjtat sfida si tek rasti i konvertimit të të dhënave, por tashmë me pasoja më të rënda. Ky proces vetvetiu rrit shkallën e kompleksitetit tek të dhënat.

Kështu, të dhënat shpesh përfshihen një bazë të dhënash ekzistuese, struktura e të cilës mund të ndryshojë shumë pak ose aspak. Shpesh të dhënat e reja nuk mund të përshtaten. Nga ana tjetër, të dhënat në sisteme të integruara mund të mbivendosen. Ka shumë raste ku të dhënat ruhen në disa kopje, mund të ketë mbivendosje në historikun e të dhënave dhe këto krijojnë hapësirë për konflikt midis të dhënave të ndryshme. Kjo mbivendosje kërkon zgjidhje të mirë.

Një mundësi që e zgjidh këtë problem do të ishte krijimi i një matrice ku përcaktohet cili burim të dhënash do të zgjidhet si më i miri në rast konflikti. Megjithatë, kjo zgjidhje nuk i merr parasysh të gjitha rastet, çka bën që zgjidhja më e mirë të gjendet tek kombinimi i disa kushteve nivel pas niveli. Kjo strukturë e re për

Page 12: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

3

zgjidhjen shpesh bëhet shumë komplekse, aq sa mund të ndodhë që të mos kuptohet mirë as nga përdoruesit e saj.

Si përfundim, integrimi i të dhënave në sistem është një nga shkaqet kryesore të problemeve me cilësinë e të dhënave dhe duhet të merret parasysh.

1.1.3. Hedhja e të dhënave

Pavarësisht nga niveli i lartë i automatizimit, shumë të dhëna po hidhen në bazat e të dhënave nga njerëz të ndryshëm përmes formave apo ndërfaqeve të caktuara. Shkaku më i përhapur i pasaktësisë në të dhëna është i lidhur pikërisht me situatën kur një prej këtyre njerëzve që hedh të dhënat bën një gabim. Njerëzit hedhin të dhëna në mënyrë të gabuar shumë shpesh dhe kjo gjë do të ndodhë dhe në të ardhmen. Ata zgjedhin një fjalë të gabuar nga lista e përcaktuar apo hedhin të dhëna saktë, por në fushën e gabuar.

Norma e gabimit në procesin e hedhjes së të dhënave është shumë e lartë. Kjo normë shpesh rritet edhe për shkak të formularëve jo të përshtatshëm dhe shumë të komplikuar që përdoren për të mbledhur të dhënat. E njëjta gjë ndodh edhe me ndërfaqet në ueb. Kur formulari është i vështirë për t’u kuptuar bëhet shumë më e lehtë për të gabuar. Në raste të tilla, përdoruesit shpesh përpiqen të gjejnë mënyra për të plotësuar sa më shpejt formularin, çka sjell si pasojë gabime të bëra me ndërgjegje në të dhënat e regjistruara.

Një tjetër problem lidhur me hedhjen e të dhënave janë fushat e paplotësuara. Përdoruesit mund të lënë bosh një fushë që kërkon domosdoshmërisht një vlerë të caktuar, apo të plotësojnë një vlerë çfarëdo thjesht për të mos lënë fushën të paplotësuar. Po ashtu, zakonisht kur ka vlera të paracaktuara për një fushë të dhënë, ato nuk ndryshohen nga përdoruesi. Së fundmi, ka të dhëna që tregojnë se vlera e parë në një listë me opsione të ndryshme përzgjidhet më shumë se çdo vlerë tjetër.

Një formular i mirë për hedhjen e të dhënave dhe disa udhëzime të mira shoqëruese do të mund të zbutnin problemet me hedhjen e të dhënave. Në një botë ideale, hedhja e të dhënave do të ishte një proces shumë i thjeshtë, pasi fushat do të kishin emërtime dhe kategori të përcaktuara qartë, nuk do të kishte të dhëna të përsëritura dhe të dhënat nuk do të kërkoheshin në sistem nëse nuk do të ishin të gatshme për përdorim. Gjithsesi, realiteti flet ndryshe. Ndaj, do të duhet të pranojmë që hedhja e të dhënave nga njerëzit do të mbetet gjithmonë një shkak i rëndësishëm për problemet me të dhënat.

1.1.4. Grupimi i të dhënave

Zakonisht të dhënat shkëmbehen në grupe të caktuara midis sistemeve të ndryshme. Numri gjithnjë në rritje i bazave të të dhënave komunikon të dhëna përmes ndërfaqeve të krijuara enkas për këtë lloj shkëmbimi.

Çdo grup mban sasi të mëdha të dhënash, duke bërë që çdo problem i mundshëm në to të shkaktojë një rrëmujë të madhe, që zmadhohet me shkëmbimet

Page 13: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

4

pasardhëse edhe më shumë. Shkëmbimi i të dhënave në grupe mund të jetë arsyeja e shumicës së problemeve me cilësinë e të dhënave. Megjithëse një shkëmbim i vetëm nuk mund të shkaktojë shumë gabime, shkalla e problemeve rritet me rritjen e numrit të shkëmbimeve. Në fund, mundësitë për të rregulluar diçka janë shumë të ulëta.

Sistemi që dërgon të dhënat në grup mund të pësojë shndërrime strukturore apo dhe përditësime. Kontrolli i ndikimit të këtyre ndryshimeve në grupet e të dhënave që shkëmbehen me baza të ndryshme të dhënash është diçka e vështirë për t’u realizuar. Mungesa e procedurave që rregullojnë këtë gjë sjell në mënyrë të pashmangshme rritjen e problemeve me të dhënat sa herë që sistemi burim ndryshon.

Nga ana tjetër, ndërfaqet që mundësojnë shkëmbimin e të dhënave në grup kanë aftësinë të dërgojnë shpejt të dhënat, pavarësisht nga cilësia e tyre. Kjo do të thotë që nëse ka pasur të dhëna me probleme, ato kanë mundur të shpërndahen bashkë me të dhënat e tjera dhe të mos shfaqin probleme deri në një moment të caktuar. Sa më vonë të kapet problemi me këto të dhëna, aq më e lartë do të jetë kostoja e rregullimit të tij. Madje, mund të mos llogaritet asnjëherë në mënyrë të saktë.

1.1.5. Ndërfaqet në kohë reale

Të dhënat shkëmbehen në sasi të mëdha çdo ditë në çastin që ato krijohen përmes ndërfaqeve përkatëse midis sistemeve të ndryshme. Sapo të dhëna të reja bëhen pjesë të një baze të dhënash, kjo nxit realizimin e disa procedurave që mundësojnë dërgimin e tyre në baza të tjera të dhënash. Të dhënat do të mund të shpërndahen pa vonesa në të gjitha bazat e të dhënave të rëndësishme, duke qenë gjithnjë në hap me kohën.

Nga ana tjetër, fakti që të dhënat shpërndahen menjëherë sapo krijohen nxit probleme me vërtetësinë e tyre. Në raste të tilla ka shumë pak kohë në dispozicion për të kuptuar nëse të dhënat e dërguara janë të sakta apo jo. Edhe në ato raste kur kuptohet që të dhënat kanë probleme, nuk ka kohë të mjaftueshme për të rregulluar problemet e tyre. Të dhënat kështu mund thjesht të pranohen siç janë apo të mos pranohen fare për përdorim. Gjithashtu, të dhënat mund të vijnë të ndara në paketa për shkëmbimin e tyre, çka rrit mundësinë për gabime në vazhdimësi.

Ajo që vlen gjithashtu të theksohet është se cilësia e të dhënave shpesh nuk merret parasysh kur është çasti për të dërguar të dhëna në sasi të mëdha. Ndërfaqet që përdoren sjellin kosto më të ulëta për organizatën, ndërsa niveli i cilësisë së të dhënave bëhet shumë kritik.

1.1.6. Përpunimi i të dhënave

Përpunimi i të dhënave është thelbi i të gjitha sistemeve funksionale kompjuterike në ditët e sotme. Kjo fazë bëhet më e vështirë kur kupton se ka disa procese që duhet të përsëriten vazhdimisht, por kjo gjë nuk mund të ndodhë për sa kohë programet dhe të dhënat në to ndryshojnë shumë shpesh.

Page 14: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

5

Ndryshimi në përmbajtjen e programeve kompjuterike është vetëm njëra pjesë e problemit. Probleme të tilla me të dhënat shpesh bëjnë që këto të fundit të mos arrijnë të përditësohen në kohë.

Problemi tjetër lidhet me kohën e zbatuar për përpunimin e të dhënave të organizatës. Nëse kërkohet të përpunohen të dhënat në një kohë më të shpejtë, kjo do të rrisë mundësinë për probleme me cilësinë e të dhënave. Nëse të dhënat duhet të përpunohen në një kohë të mëvonshme, kjo mund të bëjë që ato të mos jenë mjaftueshëm të përditësuara për të vazhduar me procedurat e përcaktuara.

Përpunimi i të dhënave do të vazhdojë të jetë i rëndësishëm, por nga ana tjetër mund të sjellë probleme me cilësinë e të dhënave nëse nuk janë marrë masat e përcaktuara në kohën e duhur.

1.1.7. Pastrimi i të dhënave

Çështjet e lidhura me cilësinë e të dhënave janë përhapur shumë gjatë viteve të fundit. Në periudhat më të hershme, ky proces realizohej i gjithi nga njeriu, kurse sot ai mbështetet nga pajisje të fuqishme që mund të rregullojnë të dhënat në mënyrë të automatizuar. Metodat e përdorura kanë një vlerë shumë të rëndësishme, por sërish përdorimi i mjeteve të tilla mund të shtojë riskun dhe vështirësi të tjera në lidhje me pastrimin e automatizuar.

Pastrimi i të dhënave bëhet shumë i vështirë për shkak se edhe problemet me cilësinë e të dhënave kanë si burim të tyre të dhëna të shumëllojshme dhe shumë të lidhura midis tyre, kurse automatizimi i pastrimit të të dhënave nuk mund të bëhet nga një program dosido.

Kështu, mund të thuhet se pastrimi i të dhënave është si një shpatë me dy tehe, që mund të dëmtojë organizatën po aq sa mund ta ndihmojë atë, nëse nuk zbatohet siç duhet.

1.1.8. Fshirja e të dhënave

Të dhënat e vjetruara duhet të fshihen që të krijohet hapësirë për të dhënat e reja të sistemeve. Kjo është një procedurë normale, sidomos kur ka një kufi për ruajtjen afatgjatë të të dhënave, por mund të jetë dhe shumë e rrezikshme për cilësinë e të dhënave

Rreziku për cilësinë e të dhënave lidhet me mundësinë që një pjesë e tyre të mund të fshihet gabimisht. Kjo mund të ndodhë për një sërë arsyesh, si p.sh.: programi përkatës mund të mos funksionojë mirë, struktura e të dhënave mund të ketë ndryshuar, të dhënat e fshira janë më pak ose më shumë nga numri i duhur, etj.

Një element tjetër që i vështirëson gjërat lidhet me ekzistencën e të dhënave me gabime në bazën e të dhënave të organizatës. Këto të dhëna gabim mund të plotësojnë gabimisht kriteret për t’u fshirë nga sistemi, ndërkohë që mund të jenë të nevojshme edhe më tej.

Page 15: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

6

Fshirja e të dhënave është një proces që duhet të zbatohet me shumë kujdes. Fakti që p.sh. herën e fundit ka funksionuar mirë procesi i fshirjes nuk na siguron që do të jetë po kaq i suksesshëm dhe në vazhdim. Nuk është e vështirë të fshish të dhënat nga kompjuteri, por pasojat e një veprimi të nxituar do të bien mbi çdo bazë të dhënash.

1.1.9. Ndryshimet e pazbuluara

Të dhënat mund të vjetërsohen, çka gjithashtu çon në pasaktësi, thjesht sepse objekti i përshkruar prej tyre ka ndryshuar. Situata është shumë e njohur dhe sjell në mënyrë të pashmangshme dëmtimin gradual të të dhënave.

Thuhet se të dhënat janë të sakta plotësisht vetëm nëse ato përfaqësojnë në mënyrë të saktë objekte të botës reale. Gjithsesi, kjo supozon që proceset e mbledhjes së të dhënave do të jenë të përsosura, por në realitet kjo nuk ndodh, pasi shumë nga ndryshimet e objekteve në vite nuk kapen nga kompjuterët.

Nga shfrytëzimi i shumë ndërfaqeve midis sistemeve, mund të thuhet se ideja e përgjithshme është se një ndryshim i bërë diku do të pasqyrohet në të gjitha pajisjet e tjera. Kjo zakonisht nuk ndodh vetë, ndaj të dhënat vjetërsohen dhe bëhen jo të dobishme.

Personeli i TI-së mund të bëjë ndryshime duke përditësuar të dhënat e pandryshuara, që nuk do të mund të pasqyrohen në sistemet e ndërvarura. Pavarësisht nëse rasti lidhet me një procedurë të gabuar për mbledhjen e të dhënave apo me një ndërfaqe shkëmbimi të dhënash me probleme, situata me të dhënat e papërditësuara është shumë e shpeshtë.

Ky rast tregon sesi dëmtimi i vazhdueshëm i të dhënave mund të çojë në rënie të cilësisë së të dhënave.

1.1.10. Përmirësimi i sistemeve

Shumica e sistemeve me pagesë përmirësohen çdo 3-4 vite. Programet kompjuterike të krijuara nga vetë organizatat përditësohen disa herë në vit. Edhe pse përmirësimet nuk janë aq të dëmshme sa konvertimet apo integrimi i të dhënave, sërish ato mund të bëhen burim problemi për të dhënat në vazhdimësi.

Supozimi më i rëndësishëm është se të dhënat do të përputhen me atë çfarë ato përfaqësojnë nga ana teorike. Në realitet, të dhënat sot janë shumë ndryshe nga ajo çfarë përshkruhet nga modelet apo fjalorët e të dhënave. Fushat përdoren për qëllime të gabuara dhe shumë të dhëna mund të mungojnë ndërsa të tjera do të përshtaten me një formë të pranuar nga sistemi i vjetër. Gjithsesi, shumë të dhëna ende ekzistojnë si dëshmi të brezave të kaluar, por nuk lejohet të preken.

Përmirësimet i nxjerrin në pah të gjitha problemet. Shpesh ato janë projektuar dhe testuar kundrejt një grupi të dhënash sipas asaj çfarë pritej prej atyre të dhënave, jo çfarë ndodh në të vërtetë. Ndërkaq, sapo përmirësimet në sistem janë bërë, çdo gjë shkon sërish keq. Përmirësimet e sistemit zakonisht ndikojnë në cilësinë e të dhënave

Page 16: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

7

përmes procesit të dëmtimit të dhënave të shpjeguar më sipër. Këto procedura shpesh kërkojnë ristrukturim dhe përditësim të plotë për të dhënat ekzistuese. Ndryshime të tilla masive bashkë me mungesën e të dhënave shoqëruese të besueshme mund të çojnë në sasi të mëdha gabimi.

1.1.11. Përdorimet e reja të të dhënave

Cilësia e të dhënave mund të përkufizohet si “përshtatja me qëllimin e përdorimit”. Të dhënat mund të jenë të mira për një qëllim të caktuar, por të papërshtatshme për një tjetër. Ndaj, përdorimet e reja të të dhënave shpesh sjellin ndryshime edhe në nivelin e perceptuar të cilësisë së të dhënave, edhe pse të dhënat janë po të njëjtat. Kështu, në departamentin e Burimeve Njerëzore sistemet përkatëse nuk kanë pse të dallojnë lejen e dhënë për arsye shëndetësore apo për arsye të tjera personale, pasi për qëllimet e këtij departamenti leja për arsye shëndetësore mund të shkruhet edhe si leje për arsye personale dhe kjo nuk përbën gabim të rëndësishëm. Ama, nëse duhet të llogariten kontributet e punonjësve, lloji i lejes ka rëndësi.

Përdorimet e reja mund edhe të theksojnë më shumë nivelin e saktësisë së të dhënave, pa ndryshuar përkufizimin për cilësinë. Kështu, një normë gabimi prej 15% në listat e adresave të banimit të klientëve të ndryshëm mund të jetë e pranueshme për qëllimet e marketingut televiziv, por jo për qëllimet e faturimit.

Përtej saktësisë, aspekte të tjera të cilësisë së të dhënave mund të ndryshojnë në varësi të llojit të përdorimit. Shkalla e hollësisë për vlerat e të dhënave ose politika e ruajtjes së të dhënave për një kohë të gjatë mund të jenë të papërshtatshme për përdorimet e reja të të dhënave. Kështu, të dhënat e shpërblimit të punonjësve të ruajtura për tre vite me radhë mund të jenë të përshtatshme për administratën e burimeve njerëzore, por nuk mund të përdoren për të analizuar prirjet e shpërblimeve në të ardhmen.

1.1.12. Humbja e ekspertizës

Në projektet e lidhura me cilësinë e të dhënave duhet të ketë gjithmonë një individ me përvojë të gjatë në lidhje me të dhënat dhe problemet e ndryshme që i shoqërojnë ato.

Shumë nga të dhënat e përfshira në një bazë të dhënash të zakonshme janë krijuar prej kohësh. Ato mund të kenë qenë pjesë e një sistemi paraardhës ose mund të kenë ndryshuar formë dhe vlerë disa herë në të kaluarën. Kjo është lehtësisht e kuptueshme pasi përdorimi i fushave të të dhënave dhe vlerave përkatëse ndryshon përgjatë kohës. E njëjta vlerë në të njëjtën fushë mund të nënkuptojë gjëra të ndryshme në rekorde të ndryshme. Njohja me këto fakte i mundëson ekspertëve përdorimin e duhur të të dhënave, ndërsa mungesa e këtyre njohurive të dhënat mund të përdoren shumë pak dhe mbase në drejtimin e gabuar.

E njëjta logjikë vlen edhe për cilësinë e të dhënave. Përdoruesit ekspertë të të dhënave zakonisht dinë të dallojnë të dhënat e mira nga të tjerat dhe gjithashtu dinë si

Page 17: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

8

t’i përdorin ato në mënyrë të efektshme. Ata e dinë ku të kërkojnë dhe çfarë të kërkojnë. Pa këta ekspertë, shpesh ngrihen supozime të gabuara mbi cilësinë e të dhënave që rrezikojnë uljen e nivelit të saj në nivel organizate.

Gjithsesi, shumë nga njohuritë mbi të dhënat ekzistojnë të ruajtura vetëm në mendjet e njerëzve dhe jo në dokumente elektronike apo të shtypura. Në çastin kur këta individë do të zhvendosen, të lënë punën e tyre apo thjesht të harrojnë gjëra, të dhënat e organizatës nuk do të mund të përdoren më në mënyrën e duhur.

Në një situatë të tillë, do të duhet të ekzistojë një magazinë të dhënash e qëndrueshme dhe e projektuar mirë. Deri në çastin kur kjo infrastrukturë të jetë gati, do të na duhet të përballemi me pasojat e ekspertizës së humbur në formën e të dhënave të shkatërruara nga brenda.

1.1.13. Automatizimi i proceseve

Me përparimin e madh që ka arritur TI, punët dhe detyrat po automatizohen gjithnjë e më shumë. Çdo gjë nis nga zëvendësimi i formularëve të shtypur me ndërfaqe sistemi dhe më tej zgjerohet në çdo shtresë të shoqërisë. Programet kanë arritur të përpunojnë dhe shkëmbejnë porosi të ndryshme, polica sigurimi, etj. dhe gjithçka është bërë pa ndërhyrë njeriu.

Përparimi i madh i TI ka bërë që sot ne në njëfarë mënyre të varemi nga pajisjet kompjuterike dhe të jemi shumë të ekspozuar ndaj rrezikut që kompjuteri tëmund të realizojë veprime të gabuara në emër të një organizate çfarëdo.

Një individ i zakonshëm do t’i verifikonte të gjitha të dhënat përpara se t’i përdorë ato. Programet kompjuterike i marrin të dhënat me seriozitetin maksimal, por ndërkaq nuk mund të bëjmë një gjykim të saktë nëse këto të dhëna janë të sakta apo jo. Disa ekrane të mëdha mund të vendosen pranë proceseve të automatizuara, por këto do të dështojnë shpesh në gjetjen e veçorive të rëndësishme për kontroll. Kjo do të thotë që shpesh automatizimi shkakton dëmtim të të dhënave.

Një aspekt tjetër i zhvillimit të teknologjisë lidhet me shpërndarjen e më shumë të dhënave në grupe më të mëdha përdoruesish. Kështu, në dekadat e fundit është bërë e mundur që të shfaqen të dhëna të burimeve njerëzore përmes sistemeve zanore dhe më vonë intranet-it për të mundësuar aksesin e punonjësve që kanë emrat aty. Aksesi në sistem iu mundëson punonjësve informacione të dobishme në lidhje me shpërblimet, programet trajnuese, etj. Nëse kishte të dhëna gabim, edhe këto u shfaqën, duke shkaktuar shumë ankesa nga punonjësit. Të dhënat përgjatë kohës nuk ndryshuan, ato thjesht po shkatërrohen dalëngadalë.

1.2 Motivimi dhe qëllimi

Shumë nga problemet e mësipërme me të dhënat ekzistuese në organizata bëjnë që të ketë një efekt zinxhir në shumë veprimtari të përditshme që burimin e kanë tek të dhënat përkatëse. Në kohën ku jetojmë, çdo gjë mbështetet tek të dhënat dhe tek informacioni që krijohet prej tyre.

Page 18: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

9

Në këto kushte, kur varësia ndaj të dhënave specifike është kaq e lartë, edhe cilësia e tyre duhet të jetë në një nivel të tillë që të përshtatet me kërkesat dhe nevojat e përdoruesve të tyre.

Të dhënat cilësore kanë ndikim pozitiv në proceset brenda organizatës, ndaj dhe këto të fundit duhet të jenë në kërkim të vijueshëm të mënyrave për të ruajtur një nivel të qëndrueshëm ose për të përmirësuar më tej nivelin e cilësisë së të dhënave që përdorin. Në rastet kur ato përdorin sisteme të integruara, apo paketa softuerike që mbulojnë çdo aspekt të punës brenda organizatës, cilësia e të dhënave bëhet një aspekt edhe më kritik. Një shembull i mirëfilltë i këtyre sistemeve është dhe SIK-u, ndaj dhe cilësia e të dhënave në këtë sistem bëhet një çështje shumë e rëndësishme, një problem që kërkon zgjidhje në vijimësi.

Janë këto disa nga arsyet që më motivuan për të marrë përsipër realizimin e një studimi në nivel doktorate për të kuptuar më mirë çfarë fshihet pas një niveli të lartë apo të ulët të cilësisë së të dhënave në SIK. Faktorët, siç do të shihet në kapitujt në vijim, janë marrë kryesisht nga literatura në dispozicion, por nuk mungon as kontributi i grupit të përfshirë në anketim në përcaktimin e një pjese të tyre për testimin përfundimtar drejt grupit më të madh të të anketuarve.

Qëllimi kryesor i tezës në vazhdim është propozimi i modeleve të përshtatshme për përcaktimin e saktë të nivelit të cilësisë së të dhënave në SIK përmes përdorimit të teknikave Data Mining.

Për ta realizuar këtë, do të duhet të provojmë se niveli i cilësisë së të dhënave në SIK mund të konsiderohet si problem klasifikimi dhe, në një hap të dytë, të mund të trajtohet me anë të teknikave të Data Mining ashtu si shumë probleme të tjera, të thjeshta ose komplekse, të botës së biznesit dhe jo vetëm.

Ky qëllim më tej plotësohet nga rezultatet e zbatimit të këtyre teknikave mbi të dhënat e marra nga anketimi i personave të përzgjedhur paraprakisht (nuk pati zgjedhje rasti, për shkak të specifikave të problemit që do të trajtohet). Përfshirja e metodës bagging për të përmirësuar nivelin e saktësisë së teknikave të Data Mining të zbatuara është rrjedhojë e përmbushjes së qëllimit kryesor, dhe një rezultat pozitiv nga krahasimi i bërë tregon se teknikat e zgjedhura mund të përmirësojnë akoma më shumë funksionet bazë të tyre përmes efektit që jep metoda në fjalë.

1.3 Objektivat e studimit dhe hartimi i hipotezave

1.3.1 Objektivat e studimit

Më sipër u shpreh qëllimi kryesor i këtij punimi doktorate, i plotësuar nga qëllime të tjera dytësore. Për të kuptuar nëse qëllimi kryesor përmbushet, fillimisht duhet të marrim informacion mbi të dhënat e rëndësisë dhe realizimit për çdo faktor, e më pas të shohim nëse ndonjë nga modelet e krijuara nga teknikat përkatëse ecën më mirë.

Page 19: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

10

Përveç qëllimit kryesor, janë përcaktuar dhe objektivat e përgjithshme të studimit, për të cilat do të duhet një kohë më e gjatë për t’i krahasuar rezultatet me literaturën. Disa nga objektivat janë të renditura më poshtë:

1. Përcaktimi i faktorëve kryesorë që ndikojnë në cilësinë e të dhënave në SIK (me metoda statistikore) dhe krahasimi me literaturën e deritanishme

2. Përcaktimi i faktorëve kryesorë që ndikojnë në cilësinë e të dhënave në SIK (me anë të teknikave Data Mining) dhe krahasimi me literaturën dhe me rezultatet nga metodat statistikore

3. Përmirësimi i teknikës së regresionit logjistik me anë të metodës bagging4. Përmirësimi i teknikës së pemëve të vendimit C4.5 me anë të metodës bagging5. Përmirësimi i teknikës së rrjetave nervore MLP me anë të metodës bagging

Ajo çfarë mund të vihet re është se edhe tek objektivat, vendin kryesor e zë zbatimi i teknikave të Data Mining, kundrejt metodave statistikore të zakonshme apo edhe objektivave në lidhje me faktorët më të rëndësishëm dhe ata më të realizuar.

Në seksionin më poshtë do të përcaktohen hipotezat kryesore për këtë punim.

1.3.2 Hipotezat

Një punim doktorate i mirëfilltë duhet të përfshijë vlerësimin e problemeve të ndryshme përmes testimit statistikor me anë të hipotezave të ndryshme.

Nga hipotezat e ngritura, mund të thuhet se pritshmëritë janë që niveli i rëndësisë të jetë i ndryshëm nga ai i realizimit për të dhënat në dispozicion. Po kështu, pritet që nëpunësit publikë të kenë renditur faktorë të tjerë të rëndësishëm në krahasim me punonjësit e sektorit privat. Janë të pritshme dallimet e rëndësishme midis teknikave Data Mining sipas hipotezës 4, ndërsa për hipotezën 5 pritshmëria është edhe më e lartë, pasi është zbatuar në mënyrë të përsëritur mbi këto teknika dhe gjithnjë ka dhënë rezultat:

H1. Ka dallim të rëndësishëm midis perceptimeve të rëndësisë mbi faktorët e cilësisë së të dhënave në SIK dhe realizimit të tyre;

H2. Ka dallim të rëndësishëm midis të punësuarve në sektorin shtetëror dhe atyre në sektorin privat për perceptimet e rëndësisë mbi faktorët e cilësisë së të dhënave në SIK;

H3. Nuk ka korrelacion midis metodave statistikore dhe teknikave Data Mining mbi faktorët kyç që ndikojnë mbi cilësinë e të dhënave në SIK;

H4. Nuk ka korrelacion midis teknikave Data Mining për faktorët kyç që ndikojnë mbi cilësinë e të dhënave në SIK;

H5. Zbatimi i metodës bagging përmirëson performancën e teknikave Data Mining;

Page 20: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

11

1.4 Rëndësia e mundshme dhe fushat e zbatimit të rezultatit të pritshëm të studimit

Identifikimi i faktorëve të rëndësishëm për SIK-un mund të përmirësojë aftësinë e këtyre të fundit për të mbledhur të dhëna, përpunuar informacion dhe për të përgatitur raporte. Rezultatet e këtij kërkimi do të jenë një kontribut i mirë për zhvillimin e njohurive në fushën e SIK-ut dhe cilësisë së të dhënave, dhe gjithashtu mund të jenë të dobishme për kërkim në fusha të tjera. Kështu, punimi mund të nxisë ndërgjegjësimin mbi çështjet e cilësisë së të dhënave në fushën e SIK-ut, dhe gjithashtu të mundësojë vendosjen e një lidhjeje logjike midis faktorëve kryesorë të identifikuar me dimensionet ekzistuese përbërës të cilësisë së të dhënave, për vlerësim më të mirë të output-eve të prodhuara nga SIK-u.

Pra, njohja e mënyrave sesi këta faktorë ndikojnë në SIK-un e një organizate biznesi mund të jetë e dobishme për palët e interesuara. Përqendrimi tek faktorët më kritikë do të bëjë që procedurat e SIK-ut të realizohen me efektshmëri.

1.4.1 Rëndësia praktike për organizatën

Rezultatet e studimit kanë mundësinë për të ndihmuar organizatat të përqendrohen vetëm te faktorët e rëndësishëm, duke marrë më shumë përfitime me më pak përpjekje. Rezultatet do të jenë të dobishme për organizatat, duke i dhënë personelit të tyre një kuptim më të mirë të çështjeve mbi cilësinë e të dhënave në SIK. Ka faktorë të ndryshëm që ndikojnë te cilësia e të dhënave dhe që menaxherët duhet të shqyrtojnë. Ky studim do të japë disa të dhëna të vlefshme për faktorët kryesorë që do të mund të kenë efektet më pozitive në informacionet cilësore.

Niveli drejtues i një organizate duhet të jetë i ndërgjegjshëm për faktorët më të rëndësishëm, ashtu si dhe për faktorët që nuk janë realizuar mirë në praktikë. Rezultatet e pritshme mbi faktorët më të rëndësishëm do të mund të shërbejnë si udhëzues për menaxherët për drejtimet ku duhet të përqendrohen më shumë dhe ku duhet të shpërndajnë burimet e tyre.

1.4.2 Rëndësia praktike për grupet e interesuara

Grupet e interesuara për SIK-un janë ata individë, ato subjekte që mund të përfitojnë vlerën maksimale nga rezultatet e këtij studimi. Shumica e të interesuarve për SIK-un janë nga fusha e kontabilitetit dhe nga TI-ja.

Në veçanti, ky studim i ofron profesionistëve të TI-së njohuri mbi grupin specifik të faktorëve që ndikojnë mbi cilësinë e të dhënave në SIK. Kjo mund të çojë në një kuptim më të mirë të çështjeve të cilësisë të dhënave në SIK. Këto njohuri mund të ndihmojnë në zhvillimin, mirëmbajtjen dhe përmirësimin e mëtejshëm të SIK-ut, dhe të nxitin komunikimin me profesionistët e fushës së kontabilitetit gjatë zhvillimit të këtyre proceseve.

Page 21: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

12

1.4.3 Rëndësia praktike për përgjegjësit e realizimit të politikave

Një nga implikimet drejtuese në këtë studim do të jetë i lidhur me krijuesit e politikave mbi cilësinë e të dhënave në nivel organizate. Këta individë do të mund të përfitonin nga informacionet e marra prej rezultateve të studimit, si një input i mirë në zhvillimin e politikave të përshtatshme në lidhje me cilësinë e të dhënave dhe menaxhimin e SIK-ut. Ndaj, ky studim ka mundësinë për të bërë që individët politikëbërës brenda organizatave të biznesit të jenë të informuar mirë kur zhvillojnë dhe shqyrtojnë politikat e cilësisë së të dhënave.

Për më tepër, politikëbërësit brenda organizatës mund të orientohen nga rezultatet e studimit për të kuptuar mendimet dhe idetë e personelit në nivele të ndryshme brenda vetë organizatës. Ky fakt i jep mundësi atyre të përcaktojnë politika në lidhje me cilësinë e të dhënave që të përshtaten edhe me kërkesat e personelit. Në këtë aspekt, rekomandohet që politikëbërësit të jenë të vëmendshëm ndaj faktorëve të përcaktuar nga personeli si të rëndësishëm, duke marrë parasysh dhe realizimin e atyre faktorëve, në mënyrë që të merren vendime gjithëpërfshirëse dhe të pranueshmenga të gjithë. Do të ishte e dobishme gjithashtu që të realizohej një vlerësim periodik i faktorëve të rëndësishëm për zbatimin e efektshëm të politikave për cilësinë e të dhënave.

1.4.4 Rëndësia praktike për kërkimet e mëvonshme

Kërkimet në ndërthurjen midis fushave të mësipërme janë ende të pakta, çka lë vend të mjaftueshëm për studiues të tjerë për të gjetur faktorëve të rinj apo çështjeve të reja lidhur me cilësinë e të dhënave apo me SIK-un.

Ky studim, ashtu si të tjerë para tij, mund të shërbejë shumë mirë si pikë referimi për përpjekjet e mëtejshme, jo vetëm për fushate mësipërme, por edhe në lidhje me zbatimin e teknikave të tjera, apo shfrytëzimin e metodave të reja për të nxjerrë rezultate të ngjashme, mbase edhe më të mira se ato aktuale.

1.5 Organizimi i studimit

Ky punim doktorate do të ndahet në 8 kapituj, ku më poshtë ka një përshkrim të shkurtër për secilin:

Kapitulli 1, që përfshin pjesën e hyrjes, ku bëhet një vështrim i përgjithshëm i problemit kryesor, shoqëruar me shpjegimin e elementeve bazë mbi të cilat do të trajtohet punimi. Në të përfshihen disa nga problemet kryesore në lidhje me cilësinë e të dhënave sot, motivimi për këtë temë, objektivat dhe hipotezat, rëndësia praktike, etj.

Kapitulli 2, që përfshin rishikimin e literaturës në dispozicion në lidhje me problemin kryesor. Ndër të tjera, do të trajtohen konceptet kryesore në lidhje me cilësinë e të dhënave dhe atributet e saj, Sistemet e Informacionit në

Page 22: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

13

Kontabilitet dhe teknikat Data Mining. Një pjesë e veçantë e këtij kapitullilidhet me ndërthurjet midis këtyre fushave të studimit, shoqëruar me literaturën mbështetëse.

Kapitulli 3, që trajton elemente të ndryshme lidhur me metodologjinë e përdorur për qëllimet e këtij studimi. Ky kapitull fillon me arsyetimin mbi zgjedhjen e bërë për metodologjinë, që pasohet nga analiza e faktorëve të marrë në studim në bazë të literaturës së rëndësishme. Më tej, trajtohet pjesa e anketës së bërë përmes pyetësorëve, duke përmendur strukturën e tyre në vija të përgjithshme, bashkë me mënyrën e zgjedhjes së individëve të anketuar për realizimin e studimit. Në fund të kapitullit, trajtohet faza e testimit paraprak të pyetësorëve dhe forma përfundimtare e tyre e shfrytëzuar për studimin në vijim.

Kapitulli 4, përfshin fillimisht një analizë të hollësishme të të dhënave të marra në secilin nga tre seksionet e pyetësorit të shpjeguar në kapitullin e mëparshëm, ku përqendrohet më së shumti në përcaktimin e faktorëve më të rëndësishëm dhe më të realizuar nga të dhënat në dispozicion. Më tej shpjegohet metoda e përdorur për ndryshimin e të dhënave nga seksioni i realizimit të faktorëve në një formë më të përshtatshme për analizën e mëtejshme. Në pjesën e mbetur të kapitullit trajtohen teknikat Data Mining të përzgjedhura në këtë studim dhe interpretohen rezultatet përkatëse në lidhje me faktorët më të mirë sipas secilës teknikë. Është kapitulli ku përcaktohen dhe interpretohen të gjitha rezultatet e marra nga metodat statistikore të zbatuara bashkë me teknikat Data Mining, si pikë pararendëse e kontrollit të hipotezave të ngritura në fillim të studimit.

Kapitulli 5, që përshkruan elementet më të rëndësishme në lidhje me metodat e vlerësimit të teknikave Data Mining të studiuara, shoqëruar me një analizë të hollësishme të rezultateve të marra. Pjesa e dytë e kapitullit do të hulumtojë një metodë që mund të përmirësojë performancën e secilës teknikë.

Kapitulli 6, që jep përgjigje të argumentuara me anë të testeve statistikore të përshtatshme ndaj hipotezave kryesore të ngritura paraprakisht. Në përputhje me objektivat e studimit, në këtë kapitull fillimisht bëhet një analizë krahasuese midis rezultateve të ndryshme për çdo rast, që më pas plotësohetnga testimi përkatës. Në fund të kapitullit, gjejnë përgjigje pesë hipotezat kryesore të studimit.

Kapitulli 7, që rendit përfundimet përmbyllëse të studimit, në bazë të rezultateve të marra në kapitujt e mëparshëm. Në këtë kapitull do të përfshihen ndër të tjera hipotezat kryesore të ngritura bashkë me përfundimet përkatëse, si pjesa kryesore e studimit. Një pjesë e rëndësishme do t’i kushtohet kontributit të përgjithshëm të këtij studimi në fushat e përfshira në të, pa lënë mënjanë kufizimet e mundshme që mund të plotësohen nga hulumtues të tjerë. Ky kapitull mbyllet duke treguar një mënyrë sesi organizatat dhe personelet përkatëse mund të marrin përsipër ruajtjen e një niveli të mirë për cilësinë e të

Page 23: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

14

dhënave në SIK-un që ata përdorin, ose të paktën t’iu paraprijnë problemeve të mundshme.

Page 24: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

15

KAPITULLI 2: PËRMBLEDHJE E LITERATURËS

2.1 Hyrje

Organizatat e sotme po zhvillojnë proceset e tyre të biznesit në një çast kur informacioni është bërë burimi kryesor i shumicës së ekonomive dhe shoqërive botërore. Sot, një biznes nuk mund të jetë konkurrues nëse personeli në përbërje të tij nuk merr parasysh informacionet e shumëllojshme që mund të vijnë nga burime të ndryshme, të brendshme apo të jashtme. Këto informacione janë elemente jo të prekshme apo të dukshme, ndërkohë që pak kohë më parë konkurrenca mbështetej kryesisht në produkte të dukshme.

Në këtë aspekt, mund të themi se organizatat gjithnjë e më shumë po mbështeten mbi parimin se informacioni cilësor është vendimtar për suksesin e tyre (Wang dhe autorë të tjerë, 1998). Gjithsesi, ky parim nuk është kthyer ende në veprim të vërtetë, çka mund të jetë diçka e parëndësishme në periudhën afatshkurtër, kurse në planin afatgjatë informacionet jocilësore mund të kenë efekte të konsiderueshme negative mbi bizneset, ekonominë dhe shoqërinë në tërësi (Strong, Lee dhe Wang, 1997). Madje, studiues të ndryshëm kanë arritur në përfundimin se problemet me cilësinë e të dhënave po gjejnë përhapje të lartë, duke mbizotëruar ndaj kategorive të tjera të problemeve të bizneseve të sotme në lidhje me proceset e tyre të përditshme (Redman 1998, Wand dhe Wang, 1996). Nga ana tjetër, ka prova të shumta për rastet kur vendimet e marra në bazë të informacioneve me cilësi të dobët kanë efekt të kundërt në mbarëvajtjen e biznesit (Huang, Lee dhe Wang, 1999). Më saktë, në ditët e sotme, nëse organizatat e biznesit duhet të arrijnë avantazhe konkurruese apo të kenë një vijimësi të kënaqshme dhe t’i mbijetojnë problemeve në periudhën afatgjatë, personeli në përbërje të tyre në të gjitha nivelet e tij duhet të marrë shumë seriozisht çështjet e ndryshme në lidhje me cilësinë e të dhënave dhe faktorët që ndikojnë në të.

Kur flasim për të dhëna cilësore, nuk mund të mos përmendim mënyrat si këto të dhëna bëhen të dobishme për vendimmarrjen e organizatave të biznesit. Të dhënat e ndryshme në një organizatë biznesi bëhen pjesë e Sistemeve të Informacionit (SI) brenda kësaj organizate, ku ndër të tjera me sistem informacioni do të kuptojmë një tërësi elementesh të ndërlidhura që mbledhin, manipulojnë dhe afishojnë të dhënat dhe informacionet, gjithnjë në shërbim të proceseve vendimmarrëse dhe në përputhje me objektivat e paracaktuara (Ruseti dhe Sevrani, 2011). Në këtë aspekt, të dhënat në vetvete bëhen element mjaft i rëndësishëm i këtyre sistemeve dhe cilësia e tyre përbën një faktor kyç në mbarëvajtjen e proceseve të përditshme të biznesit. Sot, organizatat ebiznesit përdorin më së shumti Sisteme Informacioni të Bazuara në Kompjuter (SIBK), ku të dhënat tashmë mund të mblidhen, manipulohen, ruhen dhe përpunohen më shpejt për të krijuar informacione të sakta dhe në kohën e duhur.

Sistemet e informacionit brenda organizatave të biznesit janë të përgjithshme ose specifike për një departament të caktuar. Kështu, mund të ekzistojnë sisteme informacioni për departamentin e shitjeve, prodhimit, marketingut, etj. Një nënsistem i veçantë brenda tyre është dhe Sistemi i Informacionit në Kontabilitet (SIK), që

Page 25: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

16

mirëmban dhe prodhon të dhëna të ndryshme, që do të përdoren më tej nga përdoruesit brenda organizatës për qëllime planifikimi, vlerësimi dhe analize të proceseve të biznesit në vijimësi dhe të kushteve financiare në të cilat ndodhet organizata në fjalë (Anthony, Reese dhe Herrenstein, 1994). Një SIK është pra në kushtet e sotme një sistem kompjuterik që përpunon të dhëna financiare në mbështetje të proceseve vendimmarrëse që lidhen me bashkërendimin dhe kontrollimin e veprimtarive vendimmarrëse brenda organizatës së biznesit. Nga një këndvështrim tjetër, ky sistem mund të përdoret për të mbledhur, ruajtur dhe përpunuar të dhënat financiare dhe të kontabilitetit që përdoren më tej nga personat e ngarkuar me vendimmarrjen brenda organizatës.

Nëse marrim parasysh faktin që një nga objektivat kryesore të fushës së kontabilitetit është cilësia e lartë e të dhënave, e shprehur në terma saktësie, atëherë krijimi i SIK-ut supozohet se është një hap i rëndësishëm drejt rritjes së nivelit të cilësisë së të dhënave. Nga ana tjetër, sot, pavarësisht nga përpjekjet e shtuara të punonjësve me synimin tek përmirësimi i proceseve të input-it së të dhënave dhe regjistrimit të tyre në sistem, duhet që ata të kuptojnë situatat kur vetë SIK-u që përdoret mund të ndikojë negativisht në cilësinë e të dhënave që qarkullojnë brenda organizatës (Fedorowicz dhe Lee, 1998).

Në fakt, ka të dhëna empirike që tregojnë se cilësia e të dhënave brenda një SIK ka qenë dhe është vijimisht problematike (Johnson, Leith, dhe Neter, 1981), ndërkohë që kryesisht rritja e nivelit të cilësisë së të dhënave të përdorura brenda SIK-ut është e lidhur me praninë ose jo të klasifikimeve të gabuara të llogarive të ndryshme (Kaplan dhe autorë të tjerë, 1998).

Pra, njohja e faktorëve që ndikojnë në nivelin e cilësisë së të dhënave të përdorura në SIK do të mund të japë një ndihmë të rëndësishme për organizatat e biznesit, në kërkim të një performance gjithnjë e më të mirë për këto të fundit. Në këtë pikë, një ndihmë e rëndësishme mund të jepet nga teknikat dhe metodat që ofron fusha e TI-së dhe nëndegët e saj.

TI-ja ka shumëfishuar aftësinë e përpunimit të informacioneve të kontabilitetit. Në të njëjtën kohë, kjo fushë ka sjellë dhe problematika të tjera, që nuk ishin hasur më parë me sistemet tradicionale të kontabilitetit. Një nga çështjet më problematike lidhet pikërisht me cilësinë e të dhënave në SIK. Nëse çështjet e lidhura me cilësinë e të dhënave nuk shqyrtohen në kohën e duhur, avantazhet e mëdha, që vijnë si efekt i shfrytëzimit të mundësive që ofron TI-ja me zhvillimet e sotme, mund të kthehen në një efekt “bumerang” për organizatën e biznesit në fjalë. Një nga problemet më të hasura lidhet me informacionin e tepërt, thënë ndryshe tepria e informacionit, që mund të shkaktojë çorientim tek përdoruesit e nivelit vendimmarrës, ndaj tepria e informacionit duhet të shmanget me synimin drejt rritjes së cilësisë së të dhënave.

Nga ana tjetër, meqë SIK-u mund të shihet edhe si sistem i bazuar në kompjuter që bashkëpunon me burime të ndryshme të TI-së, problematikat e shprehura më sipër mund të zgjidhen duke shfrytëzuar teknikat më të reja dhe novatore të aplikueshme sot. Këto teknika të reja janë të domosdoshme për të sjellë

Page 26: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

17

SIK-un më afër me kërkesat dhe pritshmëritë e të gjithë kategorive të përdoruesve të tyre, sidomos me ata që janë përgjegjës për vendimmarrjen.

Për qëllimet e studimit në vijim, do të trajtohen teknikat e reja në lidhje me fushën e Inteligjencës Artificiale, degë e shkencave kompjuterike që merret me projektimin e sistemeve inteligjente kompjuterike, sisteme që shfaqin karakteristika të ngjashme me sjelljet inteligjente njerëzore (Barr dhe Feigenbaum, 1981). Më konkretisht, do të studiohen disa nga teknikat Data Mining dhe më tej përdorimi i tyre në përcaktimin e faktorëve që ndikojnë më shumë në cilësinë e të dhënave në SIK.

Në përmbajtjen e çdo seksioni në vijim, do të trajtohen në fillim konceptet kryesore dhe më tej literatura e përshtatshme për secilën nga tri fushat në themel të këtij punimi doktorate, më konkretisht cilësia e të dhënave, SIK dhe teknikat Data Mining dhe gjithashtu çështjet e përbashkëta midis tyre.

2.2 Cilësia e të dhënave

2.2.1 Koncepte kryesore

Tradicionalisht, cilësia e të dhënave është shpjeguar nga këndvështrimi i saktësisë së të dhënave, por më tej kërkime dhe praktika të ndryshme kanë sugjeruar që përcaktimi i saj të bëhet në disa dimensione, përtej atij të saktësisë (Huang dhe autorë të tjerë, 1999). Gjithsesi, ashtu siç ndodh me të gjitha fushat e studimit në zhvillim, duhet thënë se nuk ka një përcaktim të vetëm standard për cilësinë e të dhënave që të jetë pranuar nga të gjithë (Klein, 1998).

Në këtë pikë, duhet të sqarojmë faktin se përgjithësisht literatura e deritanishme, pavarësisht nga dallimet e rëndësishme midis termave “e dhënë” dhe “informacion”, e ka trajtuar cilësinë e të dhënave dhe cilësinë e informacionit në mënyrë të ngjashme, ndaj në vijim të dyja këto do të përdoren në të njëjtin kontekst.

Cilësia e të dhënave përgjithësisht shpjegohet nga përcaktimi i të dhënave të përshtatshme për përdorim nga konsumatorët e të dhënave1 (Huang dhe autorë të tjerë1999). Një tjetër përkufizim i ngjashëm, i pranuar për cilësinë e informacionit e ndan atë në dy pjesë (English, 1999):

a) Përputhja e vazhdueshme me pritshmëritë e të gjithë konsumatorëve përfundimtarë2 dhe punëtorëve të njohurive3 e të gjitha karakteristikave të cilësisë së produkteve dhe shërbimeve të informacionit, të kërkuara për të përmbushur misionin e organizatës së biznesit (punëtori i njohurive) apo objektivave individuale (konsumatori përfundimtar)

1Konsumator të dhënash/informacioni – person që akseson, interpreton dhe përdor të dhënat/informacionet gjatë aktivitetit të tij të punës;2Konsumator përfundimtar –personat apo organizatat e biznesit, kërkesat e të cilëve duhet të plotësohennga një furnitor produktesh apo shërbimesh, dhe kënaqësia e të cilëve me këto produkte apo shërbime, duke përfshirë informacionin, përcakton suksesin apo dështimin e palës furnitore. Një klient mund të jetë një klient i drejtpërdrejtë ose konsumatori përfundimtar i një produkti apo shërbimi.3Punëtorë njohurish – profesionistë shumë të aftë që përfshihen në krijimin, interpretimin dhe zbatimin e informacioneve komplekse.

Page 27: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

18

b) Shkalla në të cilën informacioni përputhet vazhdimisht me kërkesat dhe pritshmëritë e të gjithë punëtorëve të njohurive, që e kërkojnë atë për të realizuar proceset e tyre të punës.

Në lidhje me dimensionet e cilësisë së të dhënave, disa prej tyre të identifikuara dhe të pranuara gjerësisht janë shprehur si vijon (Ballou dhe autorë të tjerë, 1982, 1985,1987,1993):

Të dhëna të sakta, që lidhen me situatën kur vlera e regjistruar përputhet me vlerën aktuale;

Të dhëna në kohë, që arrihen kur vlera regjistrohet në kohë, pa vonesa;

Të dhëna të plota, që realizohen kur të gjitha vlerat e një variabli regjistrohen; Të dhëna të qëndrueshme, që përmbushen kur vlerat paraqiten në të njëjtin

format kudo;

Literatura ka identifikuar dhe dimensione të tjera për cilësinë e të dhënave, por për qëllimet e këtij punimi, katër dimensionet e mësipërme janë ato më të rëndësishmet, që do të përdoren në vijim.

2.2.2 Literatura për cilësinë e të dhënave

Thelbi i kërkimeve të deritanishme në cilësinë e të dhënave lidhej me rezultatet e matshme të parametrave të cilësisë së të dhënave, ndaj fillimisht do të trajtohet literatura e lidhur me këto çështje, dhe më tej do të diskutohet literatura në lidhje me faktorët e rëndësishëm për garantimin e cilësisë së të dhënave.

Ekzistojnë ngjashmëri midis çështjeve të cilësisë në prodhimin e produkteve dhe në prodhimin (krijimin) e informacioneve. Prodhimi i informacionit mund të shihet si sistem që prodhon produkte informacioni nga të dhënat e papërpunuara, në mënyrë të ngjashme me prodhimin e produkteve, që prodhon produkte fizike nga lëndët e para të papërpunuara.

Trajtimi i informacionit si produkt pasi output-et e informacionit nga një sistem prodhimi informacioni kanë vlera që mund të transferohen tek konsumatori i informacionit. Ndaj, ashtu si për një produkt fizik, një produkt informacioni ka dimensione cilësie dhe cilësia e informacionit mund të shihet si aftësia e përshtatjes për përdorim të këtij produkti nga konsumatori i informacionit.

Gjithsesi, ka dhe dallime midis këtyre dy proceseve. Kështu, të dhënat e papërpunuara që përdoren për të prodhuar informacione mund të konsumohen nga një numër i pafundmë konsumatorësh, ndërsa lëndët e para të papërpunuara mund të përdoren për një produkt të vetëm fizik (Wang, 1998).

Por informacioni mund të shihet edhe si shërbim. Literatura bën dallime midis cilësisë së produktit të informacionit dhe cilësisë së shërbimit të informacionit (Zeithaml, Berry dhe Parasuraman, 1990). Cilësia e produktit përfshin karakteristika të produktit që janë parametra të matshme dhe të dukshme, si p.sh saktësia, plotësia, etj., kurse cilësia e shërbimit përfshin karakteristika që lidhen me procesin e dërgimit

Page 28: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

19

të shërbimit dhe parametra të matshme jo të dukshme, si p.sh lehtësia e manipulimit, siguria dhe vlera e shtuar e informacionit tek konsumatori (Kahn, Strong dhe Wang, 2002).

Në një Sistem të zakonshëm Menaxhimi Bazash të Dhënash (DBMS), cilësia e të dhënave është trajtuar në mënyrë të nënkuptuar përmes funksioneve të tilla si rikuperimi, integriteti dhe kontrolli i sigurisë (Chen, 1976; Codd, 1979; Bernstein dheGoodman, 1981; Fernandez, Summers dhe Wood, 1981; Ullman, 1982).

Gjithsesi, nga këndvështrimi i konsumatorit të të dhënave, këto funksione nuk janë të mjaftueshme për të garantuar cilësinë e të dhënave në bazën e të dhënave (Laudon, 1986; Liepins dhe Uppuluri, 1990; Redman, 1992; Wang, Kon dheMadnick, 1993). Kështu, megjithëse ekzistojnë disa funksione që garantojnë cilësinë e të dhënave, duke përfshirë kushtet e integritetit të të dhënave dhe kontrollet për vlefshmërinë e tyre, ato shpesh nuk janë të mjaftueshme për të fituar besueshmëri tek konsumatorët e të dhënave (Maxwell, 1989).

Në realitet të dhënat përdoren nga përdorues në nivele dhe funksione të ndryshme brenda një organizate, me perceptime të ndryshme mbi atë çka janë të dhëna cilësore, prandaj të plotësosh kërkesat për cilësi të të gjithë konsumatorëve të të dhënave nuk është diçka e lehtë. Ky fakt tregon që cilësia e të dhënave duhet të përcaktohet në një mënyrë të tillë që i lejon konsumatorët e të dhënave të përdorin secili metrin e tyre për të matur nivelin e cilësisë (Wang, Reddy dhe Gupta, 1993).

Por cilësia e të dhënave nuk ndikohet vetëm nga sistemi që i përdor, por edhe nga fakti nëse këto të dhëna pasqyrojnë rrethanat në botën reale dhe nëse mund të përdoren dhe të kuptohen lehtësisht nga përdoruesi i tyre. Nëse të dhënat nuk janë të interpretueshme dhe të aksesueshme nga përdoruesi, edhe të dhënat më të sakta nuk kanë thuajse fare vlerë (Wang, Kon dhe Madnick, 1993). Kjo do të kërkonte një metodologji të re për projektimin e modeleve të të dhënave të organizatës.

Për të arritur një nivel të lartë për cilësinë e të dhënave, një organizatë biznesi duhet të zbatojë metodat që lidhen me Menaxhimin e Cilësisë Tërësore të të Dhënave (TDQM). Industri të ndryshme me objektiva dhe kushte të ndryshme mund të zhvillojnë programe të ndryshme dhe specifike për menaxhimin e cilësisë së të dhënave.

Gjithsesi, kërkues të ndryshëm sugjerojnë zbatimin e hapave të mëposhtëm për të mundësuar zbatimin e suksesshëm të metodave TDQM, pavarësisht nga specifikat e ndryshme (Kovac, Lee dhe Pipino, 1997):

Përcaktimi i qartë i asaj çfarë nënkuptohet me cilësi në përgjithësi dhe cilësi të dhënash në veçanti brenda organizatës;

Krijimi i disa parametrave të matshme për dimensionet e rëndësishme të cilësisë së të dhënave për organizatën që mund të kenë lidhje me objektivat e vetë organizatës;Ndërkaq, disa autorë të tjerë janë përpjekur të ndërtojnë një model të

përgjithshëm për analizën e cilësisë së të dhënave. Ky model përfshin shtatë elemente si më poshtë (Wang, Storey dhe Firth, 1995):

Page 29: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

20

Përgjegjësitë në nivel drejtues, ku përfshihen zhvillimi i një strategjie për cilësinë e të dhënave brenda organizatës dhe zbatimi i një sistemi të cilësisë së të dhënave;

Kostot operative dhe të garancisë, ku kostot operative përfshijnë kostot e parandalimit, vlerësimit dhe dështimit, kurse kostot e garancisë përfshijnë shpenzimet e bëra për demonstrimin dhe provën e ekzistencës së cilësisë sipas kërkesave të klientëve dhe menaxherëve;

Kërkimi dhe zhvillimi, ku mundësohet përcaktimi i dimensioneve të cilësisë së të dhënave dhe matja e vlerave të tyre, gjithashtu analiza dhe projektimi i aspekteve të cilësisë për të dhënat e prodhuara bashkë me projektimin esistemeve të prodhimit të të dhënave me aspektet e mësipërme të përfshira;

Prodhimi, ku ndër të tjera analizohen kërkesat e cilësisë në marrjen e komponentëve të të dhënave të papërpunuara dhe elementeve që kërkohen për prodhimin e të dhënave të mëtejshme, verifikohet niveli i cilësisë në lidhje me të dhënat e papërpunuara, proceset shndërruese dhe të dhënat përfundimtare, dhe më tej identifikohen të dhënat jo cilësore;

Shpërndarja, ku përfshihet ruajtja, identifikimi, mbledhja, instalimi, shpërndarja dhe shërbimet pas shitjes për produktet e të dhënave bashkë me dokumentimin dhe regjistrimin e cilësisë për produktet specifike të të dhënave;

Menaxhimi i punonjësve, që lidhet me ndërgjegjësimin e punonjësve për çështjet e lidhura me cilësinë e të dhënave, motivimin e tyre për të prodhuar të dhëna me cilësi të lartë dhe gjithashtu matjen e rezultateve të punonjësve në lidhje me cilësinë e të dhënave që prodhojnë;

Funksionet ligjore, ku përfshihet siguria dhe përgjegjësitë që rrjedhin nga të dhënat e prodhuara;Përgjegjësitë në nivel drejtues janë elementi i parë në modelin e mësipërm.

Rëndësia e përkushtimit dhe përfshirjes së menaxherëve të lartë është njohur nga shumë studime në fushën e menaxhimit të cilësisë dhe cilësisë së të dhënave (Halloran, 1978; Bailey, 1983). Gjithsesi, pavarësisht nga ndërgjegjësimi në rritje i domosdoshmërisë për strategji mbi menaxhimin e cilësisë së të dhënave në nivel organizate, kërkimet që mbështetin nivelin drejtues të organizatave në identifikimin e faktorëve që ndikojnë cilësinë e të dhënave janë të pakta (Wang, Storey dhe Firth, 1995).

Kostoja për arritjen e cilësisë së të dhënave është një tjetër element i rëndësishëm. Ka dy lloje kostosh, kostot operative, që përfshijnë kostot e parandalimit, vlerësimit dhe dështimit, dhe kostot e garancisë. Kërkimi në fushën e SI-së është përqendruar në raportin cilësi/kosto për kontrollin e brendshëm në garantimin e output-eve cilësore nga një SI i caktuar që mundëson veprimtaripërpunuese, procedura korrigjuese dhe ndëshkime për rastet e moszbulimit të gabimeve (Ballou dhe Pazer, 1987). Ndërkaq, Ballou dhe Tayi (1989) kanë zbuluar se duhet bërë një vlerësim më i mirë për kostot e ndëshkimit ndaj cilësisë së dobët të të dhënave. Gjithsesi, sipas Liepins (1989), procesi i vlerësimit të kostove nga gabimet në të dhëna nuk është i lehtë, megjithëse dihet që kostot janë të mëdha në këtë rast.

Page 30: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

21

Një element tjetër i rëndësishëm lidhet me përcaktimin e dimensioneve dhe metodave të matjes të përshtatshme për cilësinë e informacionit. Disa prej dimensioneve janë përmendur më sipër, ndërkohë dimensione të tjera përfshijnë shkallën e përdorimit, besueshmërinë, pavarësinë si dimensione kryesore, nga këndvështrimi i përdoruesit (Halloran, 1978). Më tej, studimet e kryera në vlerësimin e cilësisë së SI përfshijnë veçori të tilla si saktësia, koha e duhur, besueshmëria, rëndësia dhe plotësia (Zmud, 1978; Kriebel, 1979; Ahituv, 1980).

Modeli i mësipërm përfshinte për herë të parë elementin e menaxhimit të personelit e në procesin e menaxhimit të cilësisë së të dhënave në tërësi. Përveç këtij modeli, janë të rralla modelet e tjera që përfshijnë elemente të lidhur me faktorin njerëzor. Një prej tyre është modeli që përfshin masën e përshtatjes njeri-mjedis rrethues dhe ndikimin e aftësisë dhe motivimit të punonjësve në kuptimin e procesit të prodhimit të të dhënave (Te'eni, 1993). Ky model tregoi se kur procesi i prodhimit të të dhënave është i ndarë nga ai i përdorimit të tyre, si p.sh kur një punonjës krijon të dhëna dhe një tjetër i përdor ato, problemet me cilësinë e të dhënave janë më të shumta. Një studim tjetër tregonte sesi punonjësit e një organizate e njihnin rëndësinë e përmirësimit të cilësisë së të dhënave dhe theksonin rolin e menaxherëve të lartë në këtë drejtim, për të nxitur veprimin e mëtejshëm. Vëmendja e të gjithë personelit të organizatës së mësipërme ndihmoi në përmirësimin e cilësisë së të dhënave në bazën e madhe të të dhënave në SI-në e organizatës. (Oman dhe Ayers, 1988).

Në lidhje me faktorët që ndikojnë në cilësinë e të dhënave, kërkues të ndryshëm kanë dhënë kontributin e tyre. Kështu, në vijim jepen disa faktorë kyç të pranueshëm në këtë aspekt (English, 1999):

Njohja e plotë e kuptimit të përmirësimit të cilësisë së informacionit dhe pse duhet bërë;

Realizimi i këtij procesi në mënyrë të efektshme;

Realizimi i përmirësimit të cilësisë së informacionit për problemin e duhur; Trajnimi dhe komunikimi;

Shpërblimet për arritjen e nivelit të cilësisë së kërkuar;

Angazhimi i personelit drejtues në procesin e përmirësimit të cilësisë së informacionit, duke e konsideruar atë si një mjet drejtues i përshtatshëm;

Menaxhimi i ndryshimeve;Kërkues të tjerë kanë studiuar çështje të ndryshme mbi hapat që duhen

ndërmarrë për të garantuar cilësinë e të dhënave. Kështu, në vijim jepen katër hapat për nisjen dhe zbatimin me sukses të cilësisë së të dhënave në një SI (Firth, 1996):

a) Përcaktimi i një pozicioni pune për cilësinë e të dhënave;b) Formulimi i një strategjie për cilësinë e të dhënave;c) Përcaktimi i objektivave;d) Angazhimi i personelit drejtues dhe punonjësve brenda organizatës;

Ndërkaq, në lidhje me menaxhimin e cilësisë së të dhënave, në vijim jepen gjashtë elemente të rëndësishme (Segev, 1996):

Page 31: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

22

a) Nxitja e angazhimit të personelit të organizatës në tërësi mbi rëndësinë e cilësisë së të dhënave dhe mbi krijimin e strukturave përgjegjëse për të;

b) Përcaktimi i kuptimit të cilësisë së të dhënave brenda organizatës;c) Realizimi i një harte të fluksit të informacionit dhe proceseve brenda

organizatës;d) Identifikimi i problemeve në lidhje me cilësinë e të dhënave dhe

vendndodhjen e tyre në hartën e mësipërme;e) Identifikimi i teknologjive dhe praktikave që mund të përdoren për të zgjidhur

këto probleme;f) Vlerësimi i raportit kosto/përfitim, shoqëruar me përmirësimin e cilësisë së të

dhënave specifike apo proceseve specifike;Po ashtu, autorë të tjerë kanë studiuar elementet që duhen ndjekur për të

ruajtur një nivel të mirë cilësie për të dhënat, të cilat paraqiten në vijim (Wang, Lee dhe Strong, 1998):

a) Njohja me kërkesat e konsumatorëve për informacione;b) Menaxhimi i informacionit si të jetë produkti i një procesi prodhimi të

mirëpërcaktuar;c) Menaxhimi i informacionit si një produkt me ciklin e vet të jetës;d) Përcaktimi i një menaxheri të produkteve të informacionit për të administruar

informacionet e përpunuara dhe produktet e mëtejshme;Nga ana tjetër, shumë studiues sugjerojnë që organizatat e biznesit duhet të

përcaktojnë programe për cilësinë e informacionit. Në këtë aspekt, organizatat mund të ndjekin hapat në vijim (Huang dhe autorë të tjerë, 1999):

Qartësimi i vizionit për cilësinë e informacionit në lidhje me organizatën përkatëse:

o Vendosja e standardeve;o Identifikimi i vizionit nga niveli i lartë drejtues;o Shefi i departamentit të SI-së brenda organizatës duhet ta bëjë të tërë

organizatën të kuptojë që cilësia e informacionit është tashmë prioritet kryesor;

Përcaktimi i përgjegjësive në nivel qendror mbi cilësinë e informacionit për organizatën në tërësi;

Edukimi dhe trajnimi i furnizuesve4, prodhuesve5 dhe konsumatorëve të informacionit;

Edukimi dhe trajnimi i njerëzve kyç brenda organizatës që do të ngarkohen me realizimin e përmirësimeve të vijueshme të cilësisë së informacionit;

Trajnimi mbi aftësitë dhe njohuritë e reja mbi cilësinë e informacionit;

4Furnizues të dhënash/informacioni - mund të jenë të brendshëm (departamentet brenda të njëjtës organizatë) ose të jashtëm (institucionet financiare, qeveria), përfshihen të gjithë ata që ofrojnë të dhëna të paorganizuara, të papërpunuara ose informacione;5Prodhues të dhënash/informacioni – një person që krijon të dhëna/informacion apo bashkon elementet përbërës, është përgjegjës për nivelin e saktësisë dhe plotësisë së të dhënave/informacionit në lidhje me kërkesat e përdoruesve të interesuar;

Page 32: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

23

Institucionalizimi i përmirësimit të vijueshëm të cilësisë së informacionit;Në lidhje me faktorët kyç që ndikojnë në cilësinë e të dhënave, si përmbledhje

mund të thuhet se disa studiues kanë shqyrtuar faktorët më të rëndësishëm që ndikojnë në menaxhimin e cilësisë (Saraph dhe autorë të tjerë, 1989; Porter dheParker, 1993; Black dhe Porter, 1996; Badri, Davis dhe Davis, 1995; Yusof dheAspinwall, 1999). Të tjerë kanë studiuar hapat dhe elemente të tjerë të rëndësishmepër cilësinë e të dhënave (Firth, 1996; Segev, 1996; Huang dhe autorë të tjerë, 1999; English, 1999).

2.3 Sistemet e Informacionit në Kontabilitet

2.3.1 Koncepte kryesore

Në mënyrë që të kuptojmë çështjet e cilësisë të të dhënave në SIK në veçanti, është e rëndësishme që termi SIK të përcaktohet qartë. Ka përkufizime të ndryshme të SIK-ut. SIK-u shihet si një nënsistem i sistemeve të informacionit të menaxhimit (Uday dhe Wiggins, 1999), si dhe funksioni i saj kryesor është të përpunojë transaksionet financiare, dhe ato jofinanciare të cilat ndikojnë drejtpërdrejt në përpunimin e transaksioneve financiare (Hall, 1998). Një SIK përfshin katër nën-sisteme të mëdha që shpjegohen më poshtë (Hall, 1998):

Sistemi i përpunimit të transaksioneve, i cili mbështet operacionet e përditshme të biznesit me dokumente dhe mesazhe të shumta për përdoruesit në të gjithë organizatën;

Libri i Madh i Llogarive/sistemi i raportimit financiar, i cili prodhon pasqyrat financiare tradicionale, të tilla si deklaratat e të ardhurave, bilancet, deklaratat e flukseve të mjeteve monetare, deklaratat tatimore, si dhe raporte të tjera që kërkohen me ligj;

Sistemi i aseteve të trupëzuara, i cili përpunon transaksione të lidhura me blerjen, mirëmbajtjen dhe shitjen e aseteve të trupëzuara;

Sistemi i raportimit të menaxhimit, i cili përgatit për personelin drejtues të brendshëm raporte financiare për qëllime të veçanta dhe informacionet e nevojshme për vendimmarrje, të tilla si buxheti dhe raportet e përgjegjësisë;

2.3.2 Literatura mbi Sistemet e Informacionit në Kontabilitet

Theksi i literaturës mbi SIK-un në lidhje me cilësinë e të dhënave është në sistemet e kontrollit të brendshëm dhe auditimet e brendshme. Mjedisi global i biznesit po ndryshon dhe po krijon të sfida të reja për menaxhimin strategjik si dhe sfida të reja në menaxhimin e informacionit të kontabilitetit.

SIK mund të shihen si sisteme që ofrojnë të dhëna financiare për funksionet drejtuese të planifikimit e kontrollit (Caillouet dhe Lapeyre, 1992), por edhe raporte të veçanta për të analizuar fushat e problemit. Nga ana tjetër, SIK mund të perceptohet si një sistem që mban dhe gjeneron informacionet e përdorura nga organizata për të

Page 33: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

24

planifikuar, vlerësuar dhe analizuar dinamikat e operacioneve dhe rrethanat financiare (Kaplan dhe autorë të tjerë, 1998). SIK është pra një burim kryesor informacioni për vendimmarrësit në organizata biznesi ose në organizata jofitimprurëse (Caillouet dheLapeyre, 1992; Uday dhe Wiggins, 1999).

Një përpjekje shumë e hershme në matjen e cilësisë së të dhënave në SIK ishte një metodë statistikore për matjen e gabimeve të output-eve të sistemeve të kontrollit të brendshëm (Yu dhe Neter, 1973). Një tjetër model matematikor është zhvilluar mbi sistemin e kontrollit të brendshëm kontabël dhe vlerat e besueshmërisë dhe kostos (Cushing, 1974). Kërkues të mëvonshëm u përqendruan te cilësia e të dhënave, në bazë të lidhjeve që ka me të dhënat e auditit (Johnson, Leitch dhe Neter 1981; Groomer dhe Murthy, 1989).

Studiues të tjerë kanë paraqitur modelet e procesit të kontrollit të brendshëm që ishin në përputhje me udhëzimet dhe rregulloret, duke i kërkuar audituesve për të vlerësuar përpjekjet e menaxhimit në garantimin se të dhënat kontabël ishin të sakta (Hamlen, 1980; Stratton, 1981; Fields, Sami dhe Sumners, 1986).

Disa studime të tjera në fushën e SIK-ut kanë analizuar raportin e kostove ndaj kontrollit të cilësisë për SI (Ballou dhe Pazer, 1985; Ballou, Belardo dhe Klein, 1987). Një tjetër studim ndërtoi një model të kontrollit të brendshëm nga një sondazh i të dhënave të auditimit (Nichols, 1987). Disa studiues kanë prezantuar një përmbledhje të kërkimit në SI, për rastet kur lidhej me kontabilitetin dhe auditimin (Amer, Golhar dhe Waller 1987). Të tjerë kanë zhvilluar një metodologji që i ofron personelit drejtues një parametër sasior për përcaktimin e cilësisë së të dhënave në SI (Paradice dhe Fuerst, 1991).

Studiues të tjerë kanë përdorur edhe një metodë të ngjashme me sistemet e mbështetjes së vendimeve, duke kombinuar gjykimin njerëzor dhe procedurat e bazuara në modele. Kjo mundëson lirshmëri tek audituesi në përcaktimin e niveleve kritike të cilësisë për vlerësimin e cilësisë së të dhënave në SIK (Kaplan dhe autorë të tjerë, 1998).

Një tjetër studiues i sheh kontabilistët në nivelin drejtues brenda SIK-ut si individë që mund të përfshijnë projektimin dhe funksionimin e sistemeve këshillues financiarë dhe SI të tjera në mjediset organizative (Birkett, 1986). Tre faktorë që ndikojnë cilësinë e kontabilitetit të drejtimit janë (Birkett, 1986):

Pajtueshmëria, që përqendrohet në projektimin dhe funksionimin e sistemeve që duhet të kenë përputhje teknike me rregulloret e jashtme dhe kërkesat e raportimit;

Kontrolli, që përfaqëson sistemet në mbështetje të menaxhimit dhe kontrollit të burimeve, duke përfshirë përcaktimin e kostove standarde dhe analizën e variancës, buxhetimin e ndryshueshëm dhe parametrat e matjes së performancës kontabël të organizatës;

Mbështetja konkurruese, që lidhet me ofrimin e shërbimeve financiare për ekipin drejtues në mënyrë që të rrisë konkurrueshmërinë e firmës. Funksioni i kontabilitetit është parë në drejtim të prodhimit të shërbimeve financiare, të

Page 34: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

25

cilat shtojnë vlerë dhe ekipi drejtues është parë si një konsumator i këtyre shërbimeve;

2.3.3 Literatura për cilësinë e të dhënave në SIK

Në kontabilitet dhe auditim, ku sistemet e kontrollit të brendshëm kërkojnë besueshmëri maksimale me kosto minimale, dimensioni kyç për cilësinë e të dhënave të përdorura është saktësia, e përcaktuar sipas këndvështrimit të shpeshtësisë, madhësisë, dhe shpërndarjes së gabimeve tek të dhënat (Wang, Storey dhe Firth, 1995). Në vlerësimin e vlerës së informacionit të kontabilitetit studiuesit kanë identifikuar gjithashtu rëndësinë dhe korrektesën në kohë si veçori të dëshirueshme (Feltham, 1968).

Për qëllimet e studimit në vijim, do të përdoren dimensionet që janë identifikuar si saktësia, plotësia, qëndrueshmëria dhe koha e duhur (Ballou dhe autorë të tjerë 1982,1985,1987,1993). Këto dimensione janë nga më të rëndësishmet e trajtuara në literaturën për SIK-un dhe kanë qenë gjerësisht të pranuara në fushën e cilësisë së të dhënave. Prandaj, cilësia e të dhënave në SIK në këtë punim do të nënkuptojë kryesisht të dhëna të sakta, në kohë, të plota, dhe të qëndrueshme.

Në mënyrë që të garantohet cilësia e të dhënave në SIK, është e rëndësishme të njihen faktorët që ndikojnë në të. Njohja e faktorëve kyç që mundësojnë një SIK me cilësi të lartë të të dhënave është diçka e dobishme, por është ende e paqartë në këtë kohë.

Ka disa studime në këtë drejtim specifik, ku një kontribut i rëndësishëm në përcaktimin e faktorëve kyç që ndikojnë cilësinë e të dhënave të përdorura në SIK është dhënë nga H. J. Xu, i cili ka arritur të identifikojë faktorët e mëposhtëm (Xu, 2003):

Angazhimi i nivelit të lartë drejtues, që nënkupton njohjen e cilësisë së të dhënave nga niveli i lartë drejtues dhe mbështetjen e veprimtarive të lidhura me cilësinë e të dhënave;

Karakteristikat e SIK-ut të përdorur, ku përfshihet krijimi i sistemeve të përshtatshme dhe të dobishme në rang organizate;

Kontrolli i input-eve, që përkthehet si marrja e informacionit të duhur që në fazën fillestare, për të parandaluar gabimet e mundshme më tej;

Aftësitë e personelit punonjës, që lidhen me domosdoshmërinë e punësimit të një personeli të trajnuar, të kualifikuar dhe me përvojë në të gjitha nivelet, nga niveli më i lartë drejt nivelit të mesëm dhe deri tek punonjësit e thjeshtë. Pra, duhet të ketë individë shumë të aftë dhe me njohuri të larta, në fushën teknike dhe atë të biznesit;

Puna në grup (komunikimi i mirë), që përfshin punën në grup dhe komunikim të mjaftueshëm midis departamenteve të ndryshme, ashtu si dhe brenda të njëjtit departament, por edhe midis profesionistëve të fushave të ndryshme, si p.sh kontabilitetit dhe TI-së;

Page 35: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

26

Angazhimi i nivelit të mesëm drejtues ndaj cilësisë së të dhënave, ku përfshihet pranimi i përgjegjësive nga ana e menaxherëve të mesëm për nivelin e arritjes së cilësisë së të dhënave dhe ndërmarrja e procedurave të efektshme në këtë nivel drejtues;

2.4. Data Mining

2.4.1. Koncepte kryesore

Data Mining njihet ndryshe si procesi i nxjerrjes nga bazat e mëdha të të dhënave të informacioneve të fshehura, që do të përdoren për qëllime parashikimi të mëtejshëm. Kjo bëhet duke përfshirë metoda të ndryshme, që gjenden në ndërthurjen midis fushave të inteligjencës artificiale, machine learning6, statistikës dhe sistemeve të bazave të të dhënave (Ceglar dhe Roddick, 2006).

Një tjetër përkufizim do të trajtonte Data Mining si një proces zbulimi imodeleve, prirjeve të ndryshme dhe i vlerave të nxjerra nga një bashkësi e caktuar të dhënash (Kantardzic, 2003).

Në terma teknologjikë, koncepti i Data Mining lidhet me procesin e zbulimit të informacioneve të reja dhe të vlefshme nga një bashkësi e madhe e të dhënave të papërpunuara (Fayyad dhe autorë të tjerë, 1996; Brabazon, 1997; Firestone, 1997) dhe duhet të mundësojë vendimmarrje më të mirë për të gjithë organizatën (Berry dheLinoff, 1997; Nemati dhe Barko, 2002; Fong dhe autorë të tjerë, 2002; Wen, 2004).

Data Mining si term rrjedh nga ngjashmëritë midis kërkimit për informacione të vlefshme biznesi në një bazë të madhe të dhënash, p.sh. gjetja e produkteve të shoqërueshme në disa gigabyte të dhëna të skanuara, dhe gërmimit të një mali për të gjetur minerale.

Të dyja proceset kërkojnë shoshitjen e një sasie masive materiali ose një analizë inteligjente për të gjetur saktësisht vendin ku gjendet vlera e dëshiruar. Nëse ekzistojnë baza të dhënash me përmasa dhe cilësi të mjaftueshme, teknologjia e Data Mining mund të krijojë mundësi të reja për bizneset duke mundësuar aftësitë e mëposhtme:

Parashikim automatik i prirjeve dhe sjelljeve. Data Mining automatizon procesin e gjetjes së informacionit në baza të mëdha të dhënash. Në këtë mënyrë, mund ta përdorim Data Mining për t’i dhënë përgjigje të shpejtë pyetjeve që zakonisht kërkonin analizë disaditore. Një shembull tipik në këtë rast është marketingu i synuar. Data Mining përdor të dhënat nga dërgesat ekaluara për të përcaktuar klientët e synuar që mund të maksimizojnë fitimin nga dërgesat e ardhshme. Probleme të tjera parashikuese lidhen me parashikimin e falimentimit ose formave të tjera të parregullsive, zbulimin e

6Një degë e inteligjencës artificiale, që merret me studimin dhe ndërtimin e sistemeve që mund të mësojnë nga të dhënat;

Page 36: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

27

segmenteve të popullsisë që mund të reagojnë njësoj ndaj ngjarjeve të caktuara.

Zbulimi automatik të modeleve të panjohura më parë. Mjetet e Data Mining mund të gjurmojnë nëpër baza të dhënash dhe të identifikojnë modele të panjohura në një hap të vetëm. Shembuj për zbulimin e prirjeve përfshijnë analizën e të dhënave nga shitjet për të zbuluar produkte plotësuese, zbulimin e transaksioneve financiare jo të ligjshme apo zbulimin e të dhënave jo të sakta si pasojë e input-eve të gabuara.Data Mining është pra një teknologji e re dhe e fuqishme me potenciale të

mëdha për të ndihmuar organizatat e ndryshme të përqendrohen drejt informacioneve më të rëndësishme nga magazinat e tyre të të dhënave (data warehouse). Mjetet e Data Mining parashikojnë prirjet dhe sjelljet e ardhshme, duke i lejuar bizneset të marrin vendime të orientuara nga njohuritë.

Analiza perspektive e automatizuar që mundësohet nga Data Mining shkon më tej nga analiza retrospektive e ofruar zakonisht nga sistemet e mbështetjes së vendimeve. Mjetet e Data Mining mund të japin përgjigje për ato probleme të biznesit, që tradicionalisht harxhonin shumë kohë për t’u zgjidhur.

Mjetet e Data Mining mund të përshkojnë bazat e të dhënave në tërësi për të zbuluar modele të fshehura, duke gjetur informacione parashikuese për të ardhmen që ekspertët mund të mos kenë identifikuar pasi ato janë jashtë pritshmërive të tyre.

Data Mining mbështetet nga tre teknologji si vijon:

Mbledhje e të dhënave masive;

Kompjuterë të fuqishëm me shumë procesorë;

Algoritmet Data Mining;Në evolucionin nga të dhëna biznesi drejt informacioneve të biznesit, çdo hap

i ri është vendosur mbi hapin paraardhës. Për shembull, aksesimi në të dhënat dinamike është i rëndësishëm në programet me navigim të dhënash online, kurse aftësia për të ruajtur baza të mëdha të dhënash është e rëndësishme për Data Mining.

Disa nga teknikat më të përdorshme në Data Mining paraqiten më poshtë:

Rrjetat nervore artificiale (ANN), që përfshijnë modele parashikuese jolineare që mësojnë përmes trajnimit dhe imitojnë rrjetat nervore të trurit njerëzor;

Pemët e vendimit, që janë struktura në formë peme që përfaqësojnë bashkësi vendimi. Këto vendime krijojnë rregulla për klasifikimin e një bashkësie të dhënash. Disa metoda specifike për pemët e vendimit përfshijnë Pemët e Klasifikimit dhe Regresionit (CART), ID3, C4.5, etj;

Algoritmet gjenetikë (EA), ku përfshihen teknika optimizimi që përdorin procese të tilla si kombinimet gjenetike, mutacionet dhe përzgjedhjen natyrore duke shfrytëzuar konceptet e evolucionit;

Metoda e fqinjit më të afërt, një teknikë që klasifikon çdo regjistrim në një bashkësi të dhënash, duke u bazuar në një kombinim klasash prej k regjistrimesh më të afërta me të. Shpesh njihet edhe si teknika e k-fqinjit më të afërt;

Page 37: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

28

Induksioni, përndryshe nxjerrja e rregullave të dobishme “nëse-atëherë” nga të dhënat, bazuar në rëndësinë statistikore;

2.4.2. Literatura për Data Mining në auditim

Në kuadër të punimit në vijim, u pa e arsyeshme që të studiohej literatura që përfshin studimin e teknikave Data Mining dhe zbatimin e tyre në probleme të ndryshme në fushën e auditimit.

Kështu, një rast është përdorimi i rrjetave nervore për të ndërtuar një model klasifikimi për mashtrimet financiare (Green dhe Choi, 1997; Fanning dhe Cogger, 1998). Përfundimi ishte se në raste të tilla, rrjetat nervore mund të jenë shumë të dobishme, madje më të dobishme se metodat standarde statistikore.

Shembuj të tjerë nga literatura përfshijnë përdorimin e rrjetave nervore me trishtresa, me funksionin e rrezes (radial basis function), për të prodhuar një vlerë për mashtrimin për transaksionet e reja me anë të kartave të kreditit çdo dy orë (Ghosh dhe Reilly, 1994). Rrjetat nervore shumështresore janë përdorur edhe në modelin me të dhënat mbi videot me porosi (Barse dhe autorë të tjerë, 2003). Ndërkaq, rrjetat nervore fuzzy janë studiuar në makina paralele për të përshpejtuar prodhimin e rregullave për zbulimin e mashtrimeve me kartat e kreditit.

Një sistem zbulimi mashtrimi i mbështetur në rregulla është studiuar duke përdorur algoritmin C4.5 (Rosset dhe autorë të tjerë, 1999), ndërsa në një rast studimi të mashtrimeve në të dhënat e organizatave të telekomunikimit përdoret algoritmi më i avancuar C5.0 (Bonchi dhe autorë të tjerë, 1999).

Arsyetimi i mbështetur në raste të ndryshme gjithashtu është përdorur për të analizuar rastet e klasifikimit të gabuar me metodat dhe teknikat ekzistuese (Wheeler dhe Aitken, 2000). Kjo teknikë, sipas autorëve, ka një normë saktësie 20% më të lartë.

Sistemet eksperte janë zbatuar tek mashtrimet me sigurimet, ku një rast lidhet me zbatimin e një sistemi të tillë me pesë shtresa, për të identifikuar mashtrimet me sigurimet shëndetësore (Major dhe Riedinger, 2002). Të tjerë studiues kanë zbatuar sisteme eksperte fuzzy (Pathak dhe autorë të tjerë, 2003; Stefano dhe Gisella, 2001;Von Altrock, 1997).

Algoritmet gjenetikë mund të përdoren për të krijuar rregulla për klasifikimin e të dhënave (Bentley dhe autorë të tjerë, 2000), si p.sh për të testuar paditë ndaj organizatave të sigurimit në vijimësi.

2.4.3. Literatura e Data Mining në SIK

Data Mining, në këndvështrimin e SIK-ut, do të përkufizohej si procesi i mbledhjes, sistemimit dhe analizimit të të dhënave të kontabilitetit për t’i paraqitur në një format të caktuar që mundëson krijimin e informacionit dhe të njohurive përmes analizës së bërë, me synimin për të përmirësuar proceset vendimmarrëse (Rahman, 2008).

Page 38: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

29

Aktivitetet e Data Mining brenda organizatës së biznesit do të përdorin mjetet dhe programet më të fundit për analizimin e të dhënave, duke përfshirë rolin e TI-së, analizat specifike statistikore dhe konceptin e menaxhimit të njohurive, përmes menaxhimit të bazës së të dhënave duke kërkuar të nxjerrin informacion mbi sistemet e mëdha të bazave të mëdha të të dhënave (Thuraisingham, 2000). Këta komponentë kanë ndikim thelbësor në performancën e SIK-ut (Chopoorian dhe autorë të tjerë,2001; Hirji, 2001; Spanos dhe autorë të tjerë, 2002; Hedelin dhe Allwood, 2002;Chang dhe autorë të tjerë, 2003).

Madje përshtatja e teknologjive të reja do të ndikojë në disa ndryshime në metodat e kontabilitetit dhe do t’i bëjë më sfiduese përgjegjësitë e kontabilistëve dhe audituesve më sfiduese. Me këto teknologji, SIK mund të prodhojë informacione të sakta, në kohë, të plota dhe të qëndrueshme. Shumica e përdoruesve sot kërkojnë informacione që janë aktuale dhe të vazhdueshme (Sutton, 2000).

Vendimet e marra si rezultat i informacionit të krijuar nga SIK-u mbështeten në besueshmërinë e informacionit të paraqitur.

Një pasqyrë e mirë financiare do të mund të realizohej nëse do ishin të dhënat e duhura në dispozicion. Domosdoshmëria për sisteme të integruara me aftësinë e prodhimit të informacioneve në kohë dhe aftësinë për të mbaruar raportimin në kohë ushtron shpesh trysni mbi punëdhënësit tuaj (Carrigan dhe autorë të tjerë, 2003).

Zbatimi i përshtatshëm i teknologjive të reja dhe gjithashtu mbikëqyrja e agjencive përgjegjëse brenda sistemit të menaxhimit financiar do të përmirësojë aftësinë e raportimit financiar, që jo vetëm ndihmon menaxherët për të marrë vendime më të mira duke i marrë informacionet në kohë, por do të ndihmojë në afatet e përshpejtuara të raportimit.

TI-ja do të përfshijë një platformë për pjesën kur duhen zgjidhur ushtrimet, në lidhje me mbledhjen, shkëmbimin e të dhënave, duke bashkërenduar veprimtaritë dhe shpërndarë informacionin (Moxon, 1996; Liao, 2003). Kjo bën që një bazë të dhënash me të dhëna financiare, e aftë të mbajë sasi të mëdha transaksionesh, të jetë e rëndësishme për individët përgjegjës në vendimmarrje pasi iu ofron mundësinë për të marrë informacion, duke ndihmuar në përzgjedhjen e veprimit më të mirë.

Ky është çasti kur përdorimi i mjeteve të analizës së të dhënave dhe metodave statistikore bashkë me një njohje të mirë të politikave të nivelit drejtues do të ishte i dobishëm. Këtu, teknikat Data Mining do të luanin një rol të rëndësishëm. Sipas Weber (2002), Data Mining nuk është e rëndësishme vetëm si mjet gjurmimi për transaksionet në auditimin financiar, por edhe në ofrimin e mundësisë për të realizuar testimin e përgjithshëm të sistemeve dhe kontrolleve për të garantuar krijimin e dokumentave financiare të mira nga ana e organizatës në fjalë.

Zbatimi i këtij mjeti brenda SIK-ut do të mundësonte që departamenti i kontabilitetit të përhapte informacionin që do të ishte në dispozicion për vendimmarrjen. Rritja e sasisë së informacioneve të kontabilitetit që mund të gjendenonline i ka bërë teknikat Data Mining të rëndësishme në lidhje me aftësinë për të nxjerrë këto informacione me nivele të larta saktësie dhe besueshmërie të dhënash(Debreceny dhe autorë të tjerë, 1999).

Page 39: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

30

Data Mining gjithashtu përmirëson aftësitë e SIK-ut për të luajtur një rol të rëndësishëm në mbledhjen e efektshme të të dhënave nga transaksionet, duke ofruar informacione për individët vendimmarrës dhe duke përmirësuar cilësinë e kontrolleve të brendshme (Burns, 2003).

Personat e interesuar për SIK-un brenda organizatës duhet të marrin parasysh zbatimin e teknikave Data Mining në veprimtaritë e përditshme dhe në proceset e lidhura me vendimmarrjen.

Një informacion i prodhuar nga SIK-u, i shoqëruar nga analiza e realizuar prej teknikave Data Mining, do të ndihmonte në vendimet me karakter financiar. Data Mining lejon përsëritjen e proceseve duke lejuar rishikimin dhe përmirësimin ekërkesave për informacion nga përdoruesit. SIK-u kap një shumëllojshmëri të dhënash nga transaksionet dhe përdoret si burim kryesor informacioni për një organizatë që kërkon të përmbushë objektivat e saj.

Sipas Mckie (1997), përdorimi i programeve kompjuterike që përfshijnë teknika Data Mining mund të përmirësojë rolin e një departamenti brenda organizatës për vendimmarrjen, për aq kohë sa shumica e programeve të kontabilitetit nuk ka aftësi në lidhje me teknikat Data Mining të përfshira në të.

2.4.4. Literatura për Data Mining në lidhje me cilësinë e të dhënave në SIK

Deri tani, u shqyrtua literatura e domosdoshme për secilën nga fushat themelore të këtij punimi doktorate dhe gjithashtu literatura e lidhur me ndërthurjet midis këtyre fushave. Në lidhje me teknikat Data Mining dhe zbatimin e tyre për të përcaktuar faktorët kyç që ndikojnë në cilësinë e të dhënave në SIK, është vënë re se ka mungesë të literaturës së rëndësishme. Kjo ishte një nga arsyet që më nxitën për të punuar në këtë drejtim, me synimin për të realizuar diçka, që mund të jetë vetëm hapi i parë në rolin e një kontributi fillestar për të përcaktuar faktorët e mësipërm.

Page 40: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

31

KAPITULLI 3: METODOLOGJIA E KËRKIMIT

3.1. Hyrje

Në kapitullin e kaluar u shqyrtua literatura e lidhur me fushat në studim, duke përfshirë këtu cilësinë e të dhënave, SIK-un, Data Mining dhe ndërthurjet midis tyre. Në këtë kapitull, duke u mbështetur në punën e bërë paraprakisht, do të diskutohen çështje të ndryshme mbi metodologjinë e zgjedhur për kërkimin e zhvilluar në përputhje me objektivat e këtij studimi doktorate.

Për këtë, së pari do të përcaktohet metodologjia që është ndjekur për të marrë të dhëna të mjaftueshme që të jepen përfundimet e duhura mbi hipotezat e ngritura. Do të bëhet gjithashtu dhe arsyetimi përkatës për metodologjinë e zgjedhur.

Më tej, do të bëhet një përmbledhje e shkurtër për faktorët që ndikojnë në cilësinë e të dhënave në SIK, duke shfrytëzuar pjesën e literaturës së shqyrtuar në kapitullin e mëparshëm. Do të ndahen faktorët sipas fushave përkatëse të studimit.

Përcaktimi i faktorëve që do të studiohen mbi cilësinë e të dhënave në SIK pasohet nga faza e përgatitjes së pyetësorëve, të cilët janë metoda e zgjedhur për të mbledhur të dhënat e kërkuara. Është zhvilluar një anketë, e cila do të shfrytëzonte pyetësorët e përgatitur për të ndihmuar në realizimin e objektivave të studimit.

Anketa u zhvillua me një grup të paracaktuar individësh, i cili do të shpjegohet më me hollësi në pjesën që pason përgatitjen e pyetësorëve. Këta individë janë përzgjedhur në bazë të nivelit të njohurive që kanë për SIK-un dhe për të dhënat që shfrytëzohen nga këto sisteme. Individëve të anketuar nuk iu kërkua asnjë informacion vetjak në asnjë nga fazat e studimit, me përjashtim ndoshta të pyetjeve tipike në lidhje me punësimin e tyre dhe në interes të studimit në fjalë. Çdo pyetësor iplotësuar ruajti anonimatin për personat e anketuar, dhe kjo u mbështet edhe nga mënyra e zgjedhur e shpërndarjes së pyetësorëve, kryesisht online.

Më tej, për të përcaktuar efektshmërinë e pyetësorëve dhe në kërkim të një forme sa më të plotë të tij, u realizua testimi paraprak me një grup të zvogëluar të marrë nga kampioni total i përzgjedhur. Ky testim mundësoi riformulimin e disa prej pyetjeve kryesore të pyetësorit, madje mundësoi dhe pasurimin e listës së faktorëve të mbledhur nga literatura me faktorë të tjerë, të gjykuar të rëndësishëm nga grupi i individëve të anketuar paraprakisht. Pjesa e fundit trajton pikërisht formën përfundimtare të pyetësorëve, nga i cili u morën të dhënat që do të analizohen më tej në kapitujt në vijim.

3.2. Zgjedhja e metodologjisë dhe arsyetimi përkatës

Metodologjia e kërkimit për studimin në fjalë ndahet në disa faza. Në fazën e parë, kërkimi ka natyrë hulumtuese,duke shfrytëzuar literaturën e marrë në shqyrtim për të nxjerrë faktorët e mundshëm që ndikojnë në nivelin e cilësisë së të dhënave në SIK.

Page 41: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

32

Faza e dytë e kërkimit ka natyrë eksperimentuese, ku faktorët e përcaktuar testohen në një grup të përcaktuar individësh, më tej analizohen rezultatet për të arritur në përfundimet e rastit në lidhje me faktorët më të rëndësishëm dhe ata më të realizuar. Kjo natyrë pasqyrohet dhe në përfundimet e bëra në lidhje me hipotezat e ngritura në këtë studim.

Së fundmi, kërkimi ka elemente modelimi kur përcaktohen faktorët më përfaqësues, të cilët bëhen më tej pjesë e modeleve të ndryshme të realizuar me anë të teknikave Data Mining .

Kjo përbërje metodologjish është përzgjedhur në përputhje të plotë me objektivat e studimit, duke nisur fillimisht me përcaktimin e faktorëve të shprehur në literaturë, duke vijuar më tej me shkallën e mbështetjes së tyre në realitet përmes anketës së realizuar. Më tej, studiohen dhe interpretohen modelet e realizuara me anë të teknikave Data Mining dhe në çdo hap bëhet krahasimi me rezultatet e dala nga anketimi dhe gjithashtu literatura përkatëse.

Në vazhdim të kapitullit do të përqendrohemi më shumë në fazën hulumtuese dhe atë eksperimentuese, duke përshkruar hap pas hapi elementet e përfshira në secilën prej tyre.

3.3. Faktorët e përfshirë në literaturë

Shfrytëzimi i literaturës për fushat përkatëse të cilësisë së të dhënave, SIK, dhe ndërthurjes së këtyre fushave, që u paraqit në kapitullin e kaluar, bëri të mundur përcaktimin e një liste me faktorë që mund të jenë të rëndësishëm për cilësinë e të dhënave në SIK.

Këta faktorë do të shihen të ndarë sipas fushave me të cilat janë më të lidhur në pjesën në vazhdim.

3.3.1. Faktorët e lidhur kryesisht me cilësinë e të dhënave

Nga literatura e shfrytëzuar, ka një grup të konsiderueshëm faktorësh të lidhur me fushën e cilësisë së të dhënave, si në kuadrin e menaxhimit të cilësisë, ashtu edhe në një këndvështrim më të gjerë menaxherial.

Kështu, nisur nga kontributi i English (1999), Wang (1998), Firth (1996), dhe Segev (1996), një faktor që mund të ketë ndikim në cilësinë e të dhënave në SIK është angazhimi i personelit të lartë drejtues. Angazhimi në këtë nivel shihet si vendimtar në tërësinë e proceseve të lidhura me cilësinë e të dhënave.

Madje, Xu (2003) shkon më tej duke përfshirë në analizë dhe angazhimin e personelit drejtues të mesëm, që përfshin drejtues të një niveli të ndërmjetëm.

Më tej, puna e English (1999) dhe Huang e autorëve të tjerë (1999) ka treguar se edhe trajnimi mund të jetë faktor i rëndësishëm në lidhje me cilësinë e të dhënave. Trajnimi dhe edukimi në përgjithësi është një element mjaft i rëndësishëm, sidomos kur bëhet fjalë për koncepte të reja, teknologji të reja, etj., aq më tepër në rastin e SIK-ut të përdorur nga organizatat.

Page 42: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

33

Po ashtu, Huang dhe autorë të tjerë (1999) kanë treguar si shumë të rëndësishëm procesin e përcaktimit të një vizioni të qartë për cilësinë e informacionit, dhe për rrjedhojë edhe për cilësinë e të dhënave.

Ekzistenca e një menaxheri për cilësinë e të dhënave, ose e një profili të ngjashëm brenda organizatës është një faktor tjetër që mbështetet gjerësisht nga literatura në lidhje me cilësinë e të dhënave.

Faktori i radhës që mbështetet nga literatura dhe do të jetë pjesë e analizës së mëtejshme është i lidhur me strukturën organizative, që gjykohet si e rëndësishme në ruajtjen e një niveli të lartë për cilësinë e të dhënave, siç përmendet edhe nga English (1999).

Një faktor i rëndësishëm që mbështetet nga shumë autorë dhe që përbën gjithashtu një faktor të rëndësishëm për çështje që lidhen me menaxhimin e një organizate në tërësi është ai që përfshin politikat dhe standardet e zbatuara për të ruajtur nivelin e cilësisë së të dhënave, siç kanë arritur në përfundim edhe Wang (1998), Firth (1996) dhe Segev (1996).

Cilësia e të dhënave mund të sigurohet edhe nga procese të vazhdueshme të tjera, të lidhura me kontrollet e përhershme të cilësisë së të dhënave, siç sugjerohet dhe nga English (1999), Wang (1998) dhe Segev (1996), duke përbërë faktorin e radhës në studim.

Në punimin e tij, Wang (1999) ka mundur të përcaktojë dhe një faktor tjetër të rëndësishëm, siç është ai i lidhur me përqendrimin tek përdoruesi i të dhënave në SIK, më konkretisht tek kërkesat e tij. Në këtë mënyrë, cilësia e të dhënave bëhet një proces edhe më gjithëpërfshirës brenda organizatës dhe më gjerë.

Një faktor tjetër, më së shumti i lidhur me çështjet drejtuese, është ai i lidhur me marrëdhëniet e mira mes punonjësve dhe punëdhënësve, siç tregohet dhe nga Firth (1996). Ky faktor njihet si motivues në shumë procese të përditshme të organizatës, dhe cilësia e të dhënave është një proces që kërkon nxitje të vijueshme.

Ndërkaq, në kuadër të faktorëve organizativë, një element i rëndësishëm, sidomos kur ka ndryshime të shpeshta në vazhdimësi, lidhet me menaxhimin e ndryshimeve, në lidhje me cilësinë e të dhënave në studim. Ky faktor përmendet dhe nga English (1999).

English (1999) ka përcaktuar dhe një tjetër faktor, që në nivelet drejtuesenjihet si faktor motivues dhe lidhet me vlerësimin e performancës dhe shpërblimin ose ndëshkimin përkatës në rast arritjeje ose jo të objektivave. Më tej, ky faktor do të njihet si matja dhe raportimi për nivelin e cilësisë së të dhënave, siç përcaktohet po ashtu edhe nga Wang (1999).

Wang (1999) ka përcaktuar dhe një faktor tjetër, që lidhet me fushën e menaxhimit të cilësisë, më konkretisht me menaxhimin e cilësisë në lidhje me të dhënat që vijnë nga furnizuesit e të dhënave. Ky proces mundëson kontrollin e të dhënave që vijnë nga përdorues të tjerë, duke kontrolluar dhe nivelin e cilësisë së të dhënave në tërësi.

Në lidhje me menaxhimin e cilësisë, një faktor tjetër që mbështetet nga literatura përkatëse është ai që lidhet me përmirësimin e vazhdueshëm (Firth, 1996).

Page 43: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

34

Cilësia e të dhënave është proces i vazhdueshëm dhe ky faktor përcakton procedura që përmirësojnë në mënyrë të qëndrueshme, hap pas hapi, këtë proces të rëndësishëm.

Ndërkaq, një faktor i lidhur me aspektin organizativ është dhe puna në grup, që lidhet me komunikimin midis punonjësve brenda organizatës, siç përmendet nga Xu (2003). Ai mund të shihet në dy aspekte, në marrëdhëniet në rang njësish funksionale brenda organizatës, ose midis profesionistëve të fushave të ndryshme.

Menaxhimi i cilësisë ka një tjetër faktor të përcaktuar nga literatura (Segev, 1996), që mund të ndikojë në cilësinë e të dhënave në SIK, siç është dhe analiza kosto/përfitim, e cila duhet të zbatohet mbi të gjitha veprimtaritë kryesore që përcaktojnë nivelin e cilësisë, duke synuar gjithnjë përfitime më të larta në krahasim me kostot.

Në aspektin organizativ, një tjetër faktor i mbështetur nga literatura që mund të ndikojë në mënyrë të rëndësishme mbi cilësinë e të dhënave është ai i lidhur me aftësitë e personelit punonjës, siç tregohet dhe nga Xu (2003). Një personel me më shumë përvojë dhe i kualifikuar është një siguri më shumë për të arritur një nivel të lartë në cilësinë e të dhënave.

Të gjithë faktorët e mësipërm do të jenë pjesë e rëndësishme e analizës së mëtejshme, kryesisht e lidhur me përgatitjen e pyetësorëve dhe interpretimin e rezultateve të marra prej tyre.

3.3.2. Faktorët e lidhur kryesisht me SIK-un.

Njësoj siç u veprua me faktorët e mësipërm, në këtë pjesë do të trajtohen faktorët e përmendur nga literatura e shqyrtuar që kanë lidhje kryesisht me SIK-undhe proceset brenda tij.

Kështu, Xu (2003) ka mbështetur përcaktimin e nivelit për cilësinë e të dhënave prej një faktori të tillë si kontrolli i input-eve, i lidhur me korrigjimin e të dhënave fillestare para se të bëhen pjesë e sistemit.

Më tej, një faktor shumë i rëndësishëm, i përcaktuar nga Segev (1996) dhe i mbështetur nga studimi i Xu (2003), është ai i lidhur me karakteristikat e SIK-ut. Ky faktor lidhet me ekzistencën e sistemeve më të plota dhe të përshtatshme për organizata specifike.

Faktori tjetër që mbështetet nga literatura përkatëse (Johnson, Leitch dhe Neter 1981; Groomer dhe Murthy, 1989), është ai i lidhur me auditimin e realizuar përSIK-un dhe gjithashtu cilësinë e të dhënave në to. Auditimi është një proces i rëndësishëm, sidomos në lidhje me ruajtjen e një niveli të mirë për cilësinë e të dhënave.

Në lidhje me proceset e realizuara brenda sistemeve, faktori i radhës lidhet me kontrollet e brendshme, siç përcaktohet dhe nga literatura përkatëse (Yu dhe Neter, 1973; Cushing, 1974; Fields, Sami dhe Sumners 1986; Nichols, 1987). Kontrollet e brendshme mund të bëhen për procese specifike apo role specifike të punonjësve, ose për sistemet në tërësi.

Page 44: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

35

Faktorët e përmendur më sipër do t’i bashkohen listës me faktorët e përcaktuar nga seksioni i mëparshëm për të qenë pjesë e pyetësorit që do të shpërndahet tek individët e anketuar dhe për analizën në vijim.

3.3.3. Faktorët e marrë nga literatura në tërësi.

Në mënyrë të përmbledhur, lista e faktorëve që do të merret parasysh në vijimjepet më poshtë:

Angazhimi i personelit drejtues;

Trajnimi;

Vizioni i qartë për cilësinë e të dhënave; Ekzistenca e një menaxheri për cilësinë e të dhënave;

Struktura organizative;

Politikat dhe standardet e vendosura; Kontrolli i cilësisë së të dhënave;

Kontrolli i input-eve;

Përqendrimi te kërkesat e përdoruesit;

Karakteristikat e SIK-ut;

Marrëdhëniet në mjedisin e punës;

Menaxhimi i ndryshimeve;

Matja dhe raportimi;

Menaxhimi i cilësisë në lidhje me furnizuesit e të dhënave;

Përmirësimi i vazhdueshëm;

Puna në grup;

Analiza kosto/përfitim; Aftësitë e personelit punonjës;

Auditimi i SIK-ut;

Kontrollet e brendshme.Këta faktorë, në tërësi 20, do të përfshihen në pyetësorët e përgatitur për

qëllimet e këtij studimi doktorate. Ajo çfarë mund të thuhet më tej është se faktori i parë, i lidhur me angazhimin e personelit drejtues, është një bashkim i dy faktorëve të përmendur nga literatura, përkatësisht angazhimi i personelit të lartë drejtues dhe angazhimi i personelit drejtues të mesëm, pasi u gjykua se do të kishte më interes përgjithësimi i rastit në fjalë, në përputhje me situatën reale dhe objektivat e studimit.

Ndër faktorët e renditur më sipër, disa prej tyre do të shoqërohen nga disa nënfaktorë, për të mundësuar një analizë sa më të plotë të problemit të ngritur. Një rast është faktori i lidhur me kontrollet e brendshme, që do të përfshihet në pyetësor i shoqëruar dhe nga dy nënfaktorë përkatës, që lidhen me kontrollet mbi sistemin dhe kontrollet mbi proceset dhe njerëzit.

Page 45: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

36

3.4. Përgatitja e pyetësorit.

Në përputhje me objektivat e studimit, sidomos në lidhje me përcaktimin e faktorëve më të rëndësishëm dhe atyre më të realizuar në lidhje me cilësinë e të dhënave në SIK, siç është përmendur dhe në seksionin mbi metodologjinë e kërkimit, u gjykua si e përshtatshme përgatitja e një pyetësori.

Ky pyetësor ndër të tjera do të përfshijë vlerësimin për faktorët e përcaktuar në seksionin e mëparshëm së bashku me dimensionet më të rëndësishme që përbëjnë cilësinë e të dhënave, ku këta të fundit u përcaktuan sërish pas shfrytëzimit të literaturës në lidhje me cilësinë e të dhënave.

Në lidhje me pyetësorët, mund të thuhet se ato mund të ofrojnë një mënyrë të shpejtë, të efektshme, të saktë dhe me kosto të ulët për vlerësimin e informacionit të kërkuar në lidhje me një popullatë të caktuar (Zikmund, 1997).

Pyetësori për këtë punë kërkimore u projektua për të marrë informacione mbi:

Punësimin dhe detyrat e të anketuarve në lidhje me SIK-un përkatës;

Renditjen e faktorëve kyç për cilësinë e të dhënave në SIK, sipas nivelit të rëndësisë së perceptuar nga të anketuarit;

Vlerat e realizimit të secilit faktor të përcaktuar në pyetësor, për të kuptuar nivelin aktual të vlerësimit të tyre në nivel organizate;Përfundimet e nxjerra nga këto informacione do të shërbejnë si bazë për

analizën e rezultateve të marra nga metodat e zbatuara në vazhdim. Për të mundësuar këtë analizë, pyetësori përbëhet nga disa pjesë, të cilat do të

shpjegohen në detaj në vazhdim.

3.4.1. Struktura e pyetësorit

Pjesa e parë e pyetësorit përbëhet nga disa përkufizime termash të përdoruranë brendësi të pyetësorit, për të cilat besohej se të anketuarit nuk do kishin informacionin e duhur. Kështu, janë sqaruar termat: cilësi të dhënash, furnizues të dhënash, menaxher i cilësisë së të dhënave, validim.

Pjesa e dytë lidhet me disa pyetje të përgjithshme. Të anketuarit fillimisht u përgjigjën për punësimin e tyre, vitet e përvojës me një SIK të caktuar, për SIK-un epërdorur dhe për rolin e tyre në lidhje me SIK-un përkatës. Në vijim të pyetjeve të kësaj pjese, të anketuarve iu kërkua të vlerësonin cilësinë e përgjithshme të të dhënave në SIK-un që njihnin, sipas shkallës Likert të vlerësimit, siç jepet në tabelën 3.1 (Zoto dhe Tole, shkurt 2014). Të njëjtin vlerësim të anketuarit duhet ta bënin për secilin nga katër dimensionet e cilësisë së të dhënave.

Pjesa e tretë është pjesa kryesore e pyetësorit. Në këtë pjesë renditen të gjithë faktorët e identifikuar nga literatura si të rëndësishëm për cilësinë e të dhënave në SIK. Disa prej faktorëve kanë dhe nënfaktorë në përbërje (puna në grup, kontrollet e brendshme), pasi niveli i vlerësimit mund të jetë i ndryshëm midis tyre. Për çdo faktor, të anketuarve iu kërkua të vlerësonin sipas perceptimit të tyre fillimisht nivelin

Page 46: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

37

e rëndësisë së faktorit në fjalë, dhe më tej nivelin aktual të realizimit të këtij faktori në nivel organizate.

Tabela 3.1. Shkalla e vlerësimit dhe vlera përkatëseShkalla Likert

Variabli 1 2 3 4 5Cilësia e të dhënave Shumë i ulët I ulët Mesatar I lartë Shumë i lartë

Dimensionet Shumë i ulët I ulët Mesatar I lartë Shumë i lartë

Rëndësia Jo i rëndësishëm Pak i rëndësishëm Mesatar I rëndësishëm Shumë i rëndësishëm

Realizimi Nuk realizohet Realizohet pak Mesatar Realizohet mirë Shumë i mirë

Pasi përfundojnë vlerësimet sipas shkallës Likert, pyetësori vijon me pyetjet mbi faktorët më të rëndësishëm dhe faktorët më të realizuar. Të anketuarve iu kërkua të rishqyrtonin dhe njëherë përgjigjet e dhëna te pjesa përkatëse, të zgjidhnin tre faktorët më të rëndësishëm dhe më pas të shënonin numrin e pyetjes në krah të pozicionit përkatës sipas renditjes që ata mendonin. Të njëjtën gjë duhet ta bënin edhe për tre faktorët më të realizuar.

3.5. Përcaktimi i zgjedhjes.

Në lidhje me përcaktimin e zgjedhjes së individëve për studim, mund të thuhet se u përzgjodhën njerëz me përvojë profesionale në fushën e Kontabilitetit, kryesisht nga bota e biznesit, megjithatë edhe sektori publik kishte një përfaqësim të mirë. Ky grup profesionistësh u zgjodh pasi është kategoria e profesionistëve më të afërt me SIK dhe mund të kenë më tepër njohuri mbi çështjet e cilësisë së të dhënave në SIK. Pra, popullata e zgjedhur për t’u anketuar përbëhet nga kontabilistë dhe profesionistë të fushës, të cilët puna e përditshme i lidh me SIK-un.

Frame i përdorur për popullatën e përcaktuar do të duhej të kishte lidhje me institucionet përkatëse, përfaqësuese të kësaj kategorie. Bëhet fjalë për institucione të tilla si IEKA (Instituti i Ekspertëve Kontabël të Autorizuar) dhe SHKFSH (Shoqata e Kontabilistëve dhe Financierëve të Shqipërisë). Nga bashkëpunimi me këto institucione u mundësua të përcaktohej dhe sampling frame i studimit në fjalë,që përputhet me listën e të gjithë individëve të regjistruar pranë këtyre institucioneve, në tërësi 702 individë.

Sa i përket raportit të përfshirjes, ka shpërndarje të pabarabartë mes dy grupeve të të anketuarve, pasi vetë numrat e individëve të regjistruar në institucionetpërkatëse flasin për shumicë të përbërë prej pjesëmarrësve nga SHKFSH. Gjithsesi raporti midis pjesëmarrjes nga të dyja institucionet nuk është i rëndësishëm për objektivat e studimit.

Ndërkaq, numri i atyre që u përgjigjën arriti në 182 në tërësi, çka tregon për një normë përgjigjeje prej pothuajse 26%. Pyetësorët e plotësuar ishin më së shumti ata të marrë nga forma online përmes postës elektronike individuale, ndërsa një pjesë e vogël e tyre (më pak se 20) mundën të plotësoheshin të shtypura në letër.

Page 47: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

38

U zgjodh forma online si formë kryesore e shpërndarjes dhe plotësimit të pyetësorëve meqë ishte mënyra më e efektshme që pyetjet të plotësoheshin njëra pas tjetrës, për të mos pasur pyetësorë të pavlefshëm dhe për të rritur shkallën e përgjigjshmërisë.

3.6. Testimi paraprak.

Pas përgatitjes së pyetësorëve, hapi i radhës ishte realizimi i testimit paraprak. Ky hap u gjykua i rëndësishëm për të përcaktuar problemet e mundshme që mund të ekzistojnë me elementet e përdorur në pyetësor për mbledhjen e të dhënave, bashkë me krijimin e keqkuptimeve të mundshme që mund të rrezikojnë vlefshmërinë e studimit në fjalë.

Testimi paraprak u realizua me një grup përfaqësues nga popullata e synuar, me synimin kryesor për të marrë fidbekun e duhur nga njerëzit më të afërt me përdorimin e SIK-ut dhe çështjet përkatëse. Në këtë fazë, ndërmjet të anketuarve, përveç profesionistëve në fushën e kontabilitetit u përfshinë dhe anëtarë të respektuar nga bota akademike, me njohuri të thelluara në të njëjtën fushë. Kjo gjë u bë me synimin për të rritur më tej cilësinë e pyetësorëve të përgatitur.

Pas testimit paraprak, pyetësorët pësuan një sërë ndryshimesh të rëndësishme në variantin e tyre përfundimtar, duke përmendur këtu:

Shtimin e përkufizimeve në pjesën e parë të pyetësorit;

Pyetje të reja të shtuara (faktorë të rinj);

Pyetje të riformuluara;Të gjitha ndryshimet e mësipërme do të shpjegohen në pjesën në vijim, që

trajton pyetësorët e përgatitur në formën e tyre përfundimtare.

3.7. Forma përfundimtare e pyetësorit.

Pyetësori në formën e tij fillestare përfshinte tri pjesë. Në pjesën e parë sqaroheshin disa terma të gjykuara të panjohura, ose të vështira për t’u kuptuar, nga të anketuarit. Në pjesën e dytë përfshiheshin pyetje të përgjithshme, ndër të tjera dhe përpunësimin apo për perceptimet rreth SIK-ut të përdorur dhe dimensionet përkatëse, etj. Në pjesën e tretë, përfshiheshin 20 faktorë, të cilët fillimisht vlerësoheshin sipas shkallës Likert për nivelin e rëndësisë së perceptuar, më pas për nivelin e realizimit.

Nga sa më sipër, struktura e përgjithshme nuk ka ndryshuar, por secila nga pjesët përbërëse të saj ka pësuar ndryshime, që do të pasqyrohen në vijim.

3.7.1. Shtimi i përkufizimeve.

Në pjesën e parë të pyetësorit, siç është përmendur dhe në seksionin 3.4, u gjykua me vlerë përfshirja e disa përkufizimeve mbi terma të tilla si:cilësi të dhënash, furnizues të dhënash, menaxher i cilësisë së të dhënave, validim. Këto terma ishin sigurisht më të vështira për t’u kuptuar nga të tjerat që përdoreshin në brendësi të

Page 48: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

39

pyetësorit, gjithsesi, pas testimit paraprak, u arrit në përfundimin se lista duhej të pasurohej më tej.

Kështu, termi cilësi të dhënash u zgjerua më tej duke përfshirë në të dhe përkufizimet për 4 dimensionet kryesore shoqëruese, më konkretisht u shpjegua çfarë nënkuptonte saktësia e të dhënave, më tej plotësia, koha e duhur dhe qëndrueshmëria (konsistenca) e të dhënave.

Menjëherë pas tyre, meqë çështja kryesore lidhej me cilësinë e të dhënave në SIK, u mor parasysh sugjerimi për të shtuar një përkufizim për vetë SIK-un, pasi edhe në gjuhën e përditshme ato njihen thjesht si programe kompjuterike, ose përmenden thjesht me emrin e tyre sipas produktit përkatës softuerik të krijuar.

3.7.2. Pyetjet e reja.

Në pjesën e dytë të pyetësorit, nuk pati pyetje të reja, por vetëm riformulim pyetjesh, që gjithsesi do të trajtohen më vonë.

Pyetje të reja u sugjeruan për t’u shtuar në pjesën e tretë të pyetësorit, më konkretisht u sugjeruan faktorë të rinj.

Kështu, një faktor që u sugjerua si i ri është i lidhur me kulturën organizative. Nëse cilësia e të dhënave bëhet çështje e rëndësishme brenda organizatës, ajo mund që të jetë pjesë e kulturës së përditshme organizative, duke ndikuar dhe në ndërgjegjësimin e punonjësve. Ky faktor do të jetë pjesë e analizës së mëtejshme, meqë u mbështet edhe nga të anketuarit e fazës së testimit paraprak.

Faktor tjetër shumë i rëndësishëm, që nuk është përcaktuar nga literatura, lidhet me nivelin e njohjes së SIK-ut dhe cilësisë së të dhënave, së pari si koncepte, dhe më tej në drejtim të përfitimeve që sjellin në rang organizate. Ky faktor më tej u konceptua i ndarë në disa nënfaktorë, si vijon:

Të kuptosh si funksionon SIK-u; Të kuptosh rëndësinë e cilësisë së të dhënave dhe lidhjen e saj me objektivat e

biznesit; Të kuptosh dobinë e informacionit dhe si ta përdorësh;

Më tej, një sugjerim tjetër lidhte cilësinë e të dhënave me menaxhimin e rrezikut, i cili mund të përkthehet si niveli i ndërgjegjësimit dhe përkushtimit për të zvogëluar pasojat e një SIK-u me cilësi të ulët të dhënash. Ndërgjegjësimi mbi ekzistencën e rrezikut të një niveli të ulët cilësie të dhënash mund të nxitë organizatat në tërësi të identifikojnë veprimtaritë kryesore dhe faktorët e lidhur që mundësojnë një nivel të përmirësuar për cilësinë e të dhënave.

Literatura e shfrytëzuar nuk ka mundur të përcaktojë si të rëndësishëm për nivelin e cilësisë së të dhënave as faktorin e lidhur me mjedisin e punës, i cili në fakt është sugjeruar në fazën e testimit paraprak. Një mjedis i mirë pune, me kushte të përshtatshme për të punuar në vazhdimësi, sjell gjithmonë një efekt pozitiv në cilësinë e punës së bërë, që në rastin tonë përkthehet në cilësi të mirë të dhënash.

Këta faktorë të rinj janë shtuar në listën e 20 faktorëve ekzistues dhe janë pjesë e pyetësorit që do të shpërndahej tek popullata e synuar.

Page 49: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

40

3.7.3. Pyetjet e riformuluara.

Në pjesën e dytë të pyetësorit, u rishikua pyetja në lidhje me SIK-un epërdorur nga secili i anketuar. Kështu, në vend të përcaktimit të tipit të SIK-ut, pra nëse ishte paketë softuerike e blerë nga organizata ku punonte, e realizuar vetë apo një formë e ndërmjetme, sugjerimi nga një përfaqësues i botës akademike ishte të kalohej në një pyetje më të drejtpërdrejtë, pa qenë në konflikt me objektivat e studimit apo parimet etike, siç do të shpjegohet në seksionin tjetër.

Pyetja e riformuluar do të kërkonte nga secili individ që do të përfshihej në anketim pikërisht SIK-un e përdorur prej tij, thënë ndryshe me çfarë programi (pakete softuerike) kishte punuar individi përkatës. Në këtë rast, pyetja u shoqërua me sqarimet përkatëse, ku përdoruesit i sugjeroheshin disa SIK të mundshme, për të kuptuar çfarë përgjigjeje duhet të jepte. Ky ndryshim u gjykua i dobishëm për të rritur vlerën e studimit dhe për të zgjeruar mënyrat e trajtimit të të dhënave në dispozicion.

Riformulime pyetjesh pati dhe në pjesën e tretë të pyetësorit, ku faktorë të veçantë u riformuluan si emërtime dhe faktorë të tjerë u plotësuan me nënfaktorë, pasi u gjykua që vlerësimi midis nënfaktorëve do të ishte i ndryshëm.

Kështu, në lidhje me faktorin e trajnimit, u gjykua se duhet të ndahej në dy nënfaktorë përbërës, trajnimi fillestar dhe ai i vazhdueshëm. Secili prej nënfaktorëve ka specifikat e tij dhe mund të ndodhë që në rezultatet përfundimtare njëri të jetë më i rëndësishëm apo më i realizuar se tjetri.

Po ashtu, në lidhje me faktorin që trajton politikat dhe standardet mbi cilësinë e të dhënave, pati sugjerime për ta plotësuar me dy nënfaktorë, për të dalluar më mirë çastin e vendosjes së politikave dhe standardeve nga çasti i zbatimit të tyre.

Karakteristikat e SIK-ut, faktori i radhës që lidhet me veçoritë e SIK-ut që mund të përmirësojnë nivelin e cilësisë së të dhënave në to, do të plotësohej nga disa nënfaktorë, të cilët shprehen si vijon:

I lehtë për t’u përdorur;

Mundëson validim të mjaftueshëm të të dhënave;

Mundëson dokumentim të mjaftueshëm për gjurmim të mëtejshëm;

Ndryshohet/përditësohet me lehtësi; Niveli i integrimit me komponentët e tjerë.

Plotësimi me disa nënfaktorë u bë për të kuptuar cili nga nënfaktorët ishte më i rëndësishëm ose më pak i rëndësishëm nga të tjerët, pasi supozohej se mund të kishin nivel të ndryshëm rëndësie në lidhje me cilësinë e të dhënave.

Faktor tjetër i riformuluar, në aspektin e përcaktimit të nënfaktorëve përkatës, ishte ai i lidhur me menaxhimin e ndryshimeve, ku ato shiheshin si ndryshime të brendshme, të lidhura me aspekte të tilla si personel i ri apo teknologji e re, dhe ndryshime të jashtme, që kishin të bënin me legjislacionin, ndryshimet ekonomike, etj.

Nga faza e testimit paraprak u sugjerua një riformulim edhe për faktorin e lidhur me matjen e raportimin, ndryshe faktori që trajtonte vlerësimin e performancës dhe shpërblimin përkatës. Në bazë të sugjerimeve, ky faktor do të përbëhet nga dy

Page 50: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

41

nënfaktorë, matja e rezultateve(vlerësimi i performancës) dhe raportimi i performancës, shoqëruar me marrjen e masave përkatëse.

Nëse diskutohet mbi faktorin e menaxhimit të cilësisë në raport me furnizuesit e të dhënave, edhe ky faktor mund të përcaktohet në dy aspekte, të paktën sipas sugjerimeve të marra në fazën e testimit paraprak. Kështu, mund të flitet për marrëveshjet paraprake me furnizuesit mbi cilësinë e të dhënave që ata dërgojnë dhe gjithashtu për raportimet e vazhdueshme ndaj tyre, duke përfshirë këtu dhe rekomandimet apo asistencën ndaj tyre, në lidhje me nivelin e cilësisë së të dhënavenë vazhdimësi.

3.7.4. Forma përfundimtare.

Në këtë seksion, u trajtua pyetësori me ndryshimet e bëra pas fazës së testimit paraprak.

Kështu, pjesa e parë e pyetësorit u bë më e plotë, ku termat kryesorë në lidhje me problemin kryesor të studimit janë të gjithë të përcaktuar qartë, bashkë me terma të tjerë, si p.sh. furnizues të dhënash, validim, etj.

Në pjesën e dytë të pyetësorit u ndërhy përmes riformulimit të pyetjes përSIK-un e përdorur, duke i kërkuar individëve të anketuar të tregonin për SIK që ata përdornin, duke i dhënë më shumë vlerë pyetësorit në tërësi.

Pjesa e tretë pësoi ndryshime edhe më të rëndësishme, në dy drejtime. Së pari, sugjerimet e bëra gjatë kësaj faze mundësuan që numri i faktorëve të shtohej, duke arritur në 24 faktorë në tërësi. Së dyti, disa prej faktorëve ekzistues mund të përcaktohen më mirë me anë të disa nënfaktorëve, të cilët e bëjnë më të lehtë për të anketuarit kuptimin e faktorit përkatës dhe japin mundësi për të bërë dallime midis aspekteve të ndryshme të faktorëve përkatës, duke treguar cili prej nënfaktorëve ndikon më shumë apo më pak në nivelin e cilësisë së të dhënave.

Si përfundim, pyetësori pas fazës së testimit paraprak u bë më i plotë, duke marrë një formë më të përshtatshme, në përputhje me objektivat e studimit dhe me sugjerimet e marra qoftë nga përfaqësues të popullatës së zgjedhur për anketim, qoftë nga përfaqësues të botës akademike.

3.8. Çështje të tjera.

Në këtë pjesë do të trajtohen disa çështje që lidhen me mënyrën e administrimit të të dhënave nga autori, pas mbledhjes së tyre nga pyetësorët e plotësuar.

Kështu, çështjet etike në parim duhet të jenë gjithmonë pjesë e një kërkimi. Autori i kërkimit duhet gjithnjë të japë siguri në përfshirjen e të dhënave të sakta, të pandryshuara me qëllim keqinformimi, dhe njëkohësisht duhet të jetë i aftë të mbrojë fshehtësinë e individëve të përfshirë në studim. Pra, një nga synimet e autorit, që në këtë rast realizon kërkim shkencor, duhet të lidhej me mbrojtjen e individëve apo

Page 51: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

42

organizatave të përfshira nga vendosja e tyre në rrethana jo të përshtatshme për shkak të studimit të bërë.

Për të realizuar këtë synim, së pari pyetësorët u përgatitën në mënyrë të tillë që të mos përfshinin pyetje në lidhje me të dhëna vetjake, duke u kufizuar vetëm në sektorin e punësimit dhe më tej në perceptimet e të anketuarit për SIK-un që kishte përdorur. Së dyti, bashkë me pyetësorin, të anketuarit merrnin një deklaratë që garantonte fshehtësinë e përgjigjeve të tyre. Kjo nënkuptonte që në asnjë rast autori nuk do të përdorte të dhënat e marra për të vendosur në situatë të pakëndshme një ose disa nga të anketuarit apo organizatat ku punonin.

Zbatimi i këtyre parimeve etike në fazën e testimit paraprak, dhe sidomos në fazën përfundimtare të testimit të përgjithshëm, ka ndikuar gjithashtu në rritjen e rëndësisë së pyetësorit të përgatitur, duke përmirësuar më tej shkallën e përgjigjshmërisë së tij.

Page 52: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

43

KAPITULLI 4: ANALIZA E REZULTATEVE

4.1. Rezultatet e pyetjeve të përgjithshme

Në lidhje me punësimin, rezultatet tregojnë se shumica e të anketuarve (41%) ishin të punësuar në sektorin privat, në organizata me pronësi vendase, kurse rreth 25% e tyre ishin të punësuar në sektorin privat, në organizata me pronësi të huaj. Ndër të intervistuarit, vetëm 15% e tyre ishin të punësuar në sektorin shtetëror. Pjesa tjetër e të intervistuarve ishin të shpërndarë midis të vetëpunësuarve (9%), të pavarurve (5%) dhe punonjësve të organizatave joqeveritare (1%). Në tërësi, rreth 4% e të intervistuarve nuk ishin të klasifikuar në asnjërën nga kategoritë e mësipërme.

Në lidhje me vitet e përvojës me një SIK të caktuar, rezultatet e marra përfshiheshin në intervalin nga 1 vit deri në 34 vite, duke përfshirë këtu dhe përvojën me SIK-un manual. Si vlerë mesatare, mund të thuhet se të anketuarit kishin rreth 5 vite përvojë pune me një SIK.

Në lidhje me tipin e sistemit të përdorur, mund të thuhet se ka një numër të konsiderueshëm në përdorim. Më konkretisht shumica e të anketuarve, që përbënte mbi 43% në tërësi, ka përdorur programin ALPHA, në një nga versionet e realizuarasiç tregohet dhe në tabelën 4.1 (Zoto dhe Tole, dhjetor 2014).

Tabela 4.1. Të dhënat mbi SIK të përdorurSIK Nr. i përdoruesve

SIK bazuar në kompjuter, krijuar nga organizata vendase

Alpha 80

Financa 5 77

Bilanc 10

Gjithsej 167

SIK bazuar në kompjuter, krijuar nga organizata të huaja

SAP 13

Oracle Flexcube 7

Quickbooks 7

Navision 7

OpenERP 2

Pantheon 1

Gjithsej 37SIK manual Gjithsej 2

Rezultatet tregojnë se 167 të anketuar nga 182 gjithsej, ose rreth 92% e individëve të anketuar, kanë përdorur programe kontabiliteti të krijuara në Shqipëri nga organizata të tilla si IMB, Infosoft apo Bilanc. Ky raport tregon për suksesin e sektorit në këtë drejtim në Shqipëri. Ndërkaq, mbi 30 të anketuar kanë përdorur të paktën një SIK gjatë viteve të tyre të punës. Ndër sistemet e krijuara jashtë vendit, SIK-u më i suksesshëm është SAP, që përdorej nga 7% e të anketuarve. Sisteme të tjera të përdorura nga të anketuarit përfshijnë Quickbooks, Oracle Flexcube, Microsoft Navision, etj. që janë njëkohësisht dhe produkte të njohura në nivel

Page 53: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

44

ndërkombëtar për funksionalitetet e tyre. Dy prej të anketuarve kanë përdorur SIK manual.

Ndërkaq, përtej SIK-ut të përdorur dhe punësimit, të dhëna të rëndësishme erdhën nga pyetja mbi rolin e të anketuarve në lidhje me SIK-un e përdorur. Kështu, rezultatet tregojnë se numri më i madh i të anketuarve, rreth 40% në tërësi, përdorin SIK-un për qëllime të përgjithshme, duke shfrytëzuar të dhënat financiare të marra për detyra të caktuara. Në vijim, 33% e të anketuarve përdorin SIK-un për të përgatitur apo nxjerrë të dhëna nga SIK-u. Një fakt interesant lidhet me numrin e të anketuarve që kishin një rol drejtues, i cili nuk kalonte 14% në tërësi, duke përfshirë individët që drejtojnë personelin përgjegjës për përgatitjen dhe nxjerrjen e të dhënave nga SIK-upërkatës. Së fundmi, pjesa e mbetur i përket individëve të ngarkuar me auditimin dhe rishikimin e të dhënave në SIK. Të dhënat në tërësi gjithsesi tregojnë një shpërndarje të mirë të të anketuarve në lidhje me rolet përkatëse, siç mund të shihet nga grafiku 4.1.

.

Grafiku 4.1. Rolet e të anketuarve në lidhje me SIK-un

Më tej,rezultatet në lidhje me vlerësimin e të anketuarve për dimensionet që përcaktojnë cilësinë e të dhënave tregojnë se ka shpërndarje jo të njëjtë midis niveleve. Kështu, vlerësimi më i lartë është dhënë për saktësinë e të dhënave në SIK, më tej për kohën e duhur, qëndrueshmërinë dhe plotësinë, nisur nga shpërndarja e vlerave sipas kategorive të parapërcaktuara, siç jepet dhe në tabelën 4.2.

Siç mund të vihet re nga tabela 3.1 e kapitullit të kaluar dhe tabela 4.2 më poshtë, pjesa më e rëndësishme e rezultateve të studimit përcaktohet nga vlera të shprehura sipas shkallës Likert, duke përmendur këtu vlerësimin për nivelin e

Përgatit ose nxjerr të

dhënat ngaSIK33%

Drejton personelin që përgatit ose

nxjerr të dhënat nga

SIK14%

Përdor informacionkontabël për

detyrat specifike

40%

Auditon ose rishikon të

dhënat në SIK13%

Page 54: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

45

përgjithshëm të cilësisë së të dhënave, për dimensionet përkatëse, bashkë me nivelin e rëndësisë dhe realizimit të faktorëve dhe nënfaktorëve përkatës.

Tabela 4.2. Vlerësimi për nivelin e cilësisë së të dhënave dhe dimensionet përkatëse

Shumë i ulët I ulët Mesatar I lartëShumë i lartë

Gjithsej

Niveli i cilësisë 0 1 90 76 15 182Saktësia 0 2 54 105 21 182Koha e duhur 0 7 60 92 23 182Plotësia 0 5 78 81 18 182

Qëndrueshmëria 0 4 77 80 21 182Gjithsej 0 19 359 434 98 910

Për të kuptuar nëse shpërndarja e këtyre të dhënave në studim është normale, duhet të analizojmë të dhënat përkatëse, të cilat janë të shprehura në mënyrë ordinale.

Një nga metodat e këshilluara në literaturë për të përcaktuar shpërndarjen e një bashkësie vlerash të shprehura sipas shkallës Likert është shuma e vlerave numerike të tyre për çdo njësi të marrë në studim. Në rastin në fjalë, do të analizohet shumasipas secilit faktor për të dhënë përfundimet në lidhje me shpërndarjen përkatëse.

Për këtë do të shfrytëzohen disa nga testet kryesore në lidhje me normalitetin e të dhënave, si në tabelën 4.3 në vijim.

Tabela 4.3. Testimi i normalitetitShënim(*): Fushat me gërma të pjerrëta tregojnë se të dhënat e marra thuajse konfirmojnë hipotezën Ha

Elementi ; σ

Shapiro-Wilk

Lilliefors D = max[D-,D+]Anderson-

Darlingd'Agostino

(Prob. p) (Prob. p) (Prob. p) (Prob. p)

Rëndësia733.54; 34.83

0.97 0.14 = max [0.14,0.06] 0.32 Jo e vërtetë

(-0.68) (p >= 0.20) ( p >= 0.10) -0.46

Realizimi*661.37; 25.81

0.94 0.17 = max[0.17,0.07] 0.54 Jo e vërtetë

(-0.14) (0.05 =< p < 0.10) ( p >= 0.10) -0.08

Testi i parë i përdorur është Shapiro-Wilk, i cili teston nëse një bashkësi të dhënash të caktuara ndjek një shpërndarje Gausiane (normale), duke shfrytëzuar metodën e kuantileve. Nga të dhënat e tabelës rezulton se ky test nuk i klasifikon të dhënat në studim me shpërndarje normale.

Në rastin e testit Lilliefors, testimi mbi bashkësinë e të dhënave të marra nga seksioni i rëndësisë së faktorëve nxjerr si rezultat konfirmimin e hipotezës H0, që do të thotë se nuk kemi të bëjmë me shpërndarje normale. Ndërkaq, kur testohet bashkësia e të dhënave të marra nga seksioni i realizimit të faktorëve, rezultatet tregojnë se shpërndarja mund të konsiderohet me një tolerancë gabimi 10% normale, ose pothuajse normale me gabim 5%.

Page 55: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

46

Sipas testit Anderson-Darling, të dyja bashkësitë e të dhënave japin rezultate të njëjta, duke konfirmuar hipotezën H0, pra të dhënat nuk mund të thuhet se kanë shpërndarje normale.

Së fundmi, testi d’Agostino jep rezultate të ngjashme me testin Lilliefors, pasi kur testohet bashkësia e të dhënave të lidhura me rëndësinë e faktorëve të studiuar, përfundimi tregon se nuk kemi të bëjmë me shpërndarje normale, kurse të dhënat në lidhje me realizimin e faktorëve shfaqin prirjen drejt shpërndarjes normale, me gabim 10%.

Në mënyrë të përmbledhur, testet e realizuara mbi të dhënat në studim, të lidhura me vlerat e rëndësisë dhe realizimit për çdo faktor, çojnë në përfundimin se nuk kemi të bëjmë me shpërndarje normale, ndaj edhe analiza në vijim do të bëhet në përputhje me këtë përfundim.

4.2. Faktorët më të rëndësishëm.

Fakti që të dhënat nuk kanë një shpërndarje normale me vetitë përkatëse bën që koncepte të tilla si vlerësimi i mesatares apo devijimit standard të mos merren parasysh. Në vend të mesatares, në këtë rast mund të përdoret mediana për secilin faktor, për të pasur një vlerë krahasuese.

Mediana mund të përdoret edhe me të dhënat e tabelës 4.2, për të kuptuar se cili nga dimensionet është më i arrirë nga të tjerët. Nga tabela 4.2 dhe vlerat përkatëse mund të thuhet se të gjitha dimensionet kanë të njëjtën vlerë për medianën, që vlerësohet me vlerën 4, pra nivel i lartë, gjë që nuk jep informacione të mjaftueshme në lidhje me dimensionin më të mirë. Nga ana tjetër, niveli i cilësisë ka medianë me vlerë 3.5, pasi siç do ta shohim dhe në analizën në vijim, ka ndarje të barabartë midis rasteve mbi nivelin mesatar dhe rasteve të tjera.

Rezultatet e marra për medianën e secilit faktor tregojnë se me përjashtim të faktorit të lidhur me kontrollin e cilësisë së të dhënave (mediana është 5), të gjithë faktorët e tjerë kanë medianë të barabartë me 4. Nga këto rezultate, mund të thuhet se përgjithësisht të gjithë faktorët janë të rëndësishëm mbi nivelin mesatar, kurse faktori i kontrollit del më i rëndësishmi sipas vlerave të medianës. Megjithatë, vetëm vlera e medianës nuk mjafton që të mund të përcaktojmë faktorët më të rëndësishëm.

Në plotësim të kësaj analize, na vjen në ndihmë një tjetër element i përfshirë në studim, që lidhet me renditjen individuale nga të anketuarit për tre faktorët që ata mendonin si më të rëndësishmit. Kjo analizë u gjykua e rëndësishme meqë vlerësimi sipas shkallës Likert lë hapësirë për vlerësime të njëjta ose të ngjashme midis faktorëve apo nënfaktorëve përkatës, bashkë me mëdyshjen mbi shpërndarjen e të dhënave, që u saktësua më sipër. Ky vlerësim shtesë lejon pra një përcaktim më të saktë mbi faktorët përkatës, ndaj do të konsiderohet si element plotësues i rëndësishëm në përcaktimin e faktorëve më të rëndësishëm mbi cilësinë e të dhënave në SIK.

Përcaktimi i faktorëve më të rëndësishëm në këtë rast bëhet duke i renditur ata sipas numrit të herëve që secili prej tyre (bashkë me nënfaktorët përkatës) është

Page 56: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

47

përfshirë në listën e tre faktorëve më të rëndësishëm. Kjo metodë llogaritjeje jep rezultatet e treguara në tabelën 4.4 (Zoto dhe Tole, dhjetor 2014).

Tabela 4.4. Faktorët më të rëndësishëm, renditja në tërësiRenditja Faktori Numri i herëve

1 Trajnimi 662 Karakteristikat e SIK-ut 513 Njohja me SIK-un dhe cilësinë e të dhënave 494 Politikat dhe standardet e vendosura 455 Kontrollet e brendshme 386 Auditimi i SIK-ut 367 Kontrolli i cilësisë së të dhënave 268 Angazhimi i personelit drejtues 259 Përmirësimi i vazhdueshëm 2210 Matja dhe raportimi 22

Nga tabela më sipër vihet re se faktori më i vlerësuar është trajnimi, që ka një vlerësim madje të shkëputur nga faktorët e tjerë. Grupi i tre faktorëve më të rëndësishëm sipas kësaj analize plotësohet nga karakteristikat e SIK-ut dhe ai i njohjes së SIK-ut dhe cilësisë së të të dhënave. Këta pra janë tre faktorët më të rëndësishëm sipas renditjes në tërësi. Në vijim, do të interpretohet përfshirja e secilit faktor në këtë renditje, duke theksuar rastet kur vërehet përputhje me faktorët e gjetur nga literatura përkatëse.

Trajnimi, ashtu siç ndodh shpesh me metodat, teknologjitë apo programet e reja, është një element mjaft i rëndësishëm dhe kjo tregohet mjaft mirë edhe nga të dhënat e studimit. Ndërkaq, në lidhje me karakteristikat e SIK-ut, mund të thuhet se përfshirja e këtij faktori si një nga më të rëndësishmit përforcon idenë se jo vetëm cilësia e të dhënave ndikon mbi SIK-un, por edhe tipi i SIK-ut dhe karakteristikat e tij kanë një rol të rëndësishëm në nivelin e përgjithshëm të cilësisë së të dhënave. Po ashtu, niveli i njohurive të personelit mbi SIK-un dhe cilësinë e të dhënave si koncept bëhet çështje thelbësore në këtë aspekt dhe ndikon në mënyrë të drejtpërdrejtë në situatat kur punonjësit duhet të reagojnë shpejt ndaj ndryshimeve të mundshme.

Deri tani, krahasuar me literaturën, faktori që përputhet është ai që lidhet me karakteristikat e SIK-ut, që në këtë rast, vlerësohen si shumë të rëndësishme për cilësinë e të dhënave në SIK.

Rezultatet e marra nga tabela 4.4 tregojnë gjithashtu se cilësia e të dhënave në SIK nuk mund të arrijë një nivel të konsiderueshëm nëse nuk mbështetet nga politika të qarta dhe specifike për cilësinë e të dhënave, bashkë me një sërë standardesh specifike për të përcaktuar më mirë funksionimin e sistemeve të përdorura. Këto politika dhe standarde mund dhe duhet të përfshijnë edhe kontrollet e brendshme, si një nga procedurat më të rëndësishme në kuadër të kontrollit të përgjithshëm mbi rregullsinë e zbatimit të procedurave dhe rregullave në lidhje me SIK-un në veçanti. Më tej, cilësia e të dhënave del se ndikohet edhe nga proceset e lidhura me auditimin e SIK-ut, si një element i rëndësishëm në rritjen e standardeve për përpunimin e të

Page 57: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

48

dhënave dhe raportimet e ndryshme si pjesë e veprimtarive të përditshme të biznesit. Gjithashtu, cilësia e të dhënave mund të përmirësohet edhe nga realizimi i vazhdueshëm i proceseve të caktuara në lidhje me kontrollin e cilësisë së të dhënave.Ky faktor doli gjithashtu dhe faktori më i rëndësishëm sipas vlerave të medianës.

Një faktor tjetër i rëndësishëm lidhet me angazhimin e personelit drejtues. Duhet të ketë një angazhim të konsiderueshëm të niveleve drejtuese në lidhje me ruajtjen dhe përmirësimin e nivelit të përgjithshëm të cilësisë së të dhënave. Në lidhje me përmirësimin e vazhdueshëm, mund të thuhet se ky proces në vetvete do të mundësojë individë dhe metoda pune më të mira në përputhje me objektivat e organizatës dhe kërkesat e vetë SIK-ut të përdorur. Së fundmi, çështjet e lidhura me matjen e raportimin janë shumë të rëndësishme për procesin e cilësisë së të dhënave pasi ato ndihmojnë në përcaktimin e treguesve kyç që sjellin të dhëna cilësore dhe ato gjithashtu lidhen edhe me nivelin e ndërgjegjësimit për problemet me cilësinë e të dhënave.

Në lidhje me literaturën për cilësinë e të dhënave në SIK, faktorë që gjejnë mbështetje dhe në këtë studim janë ata që lidhen me karakteristikat e SIK-ut dhe angazhimin e personelit drejtues, që tregon se, pavarësisht nga rrethanat përkatëse, disa elemente janë kudo njësoj të rëndësishme kur bëhet fjalë për të pasur të dhëna të sakta, të plota, në kohë dhe të njëjta, sidomos në lidhje me SIK-un e përdorur nga organizatat apo individët.

4.3 Faktorët më të realizuar.

Pasi u përcaktua lista me faktorët më të rëndësishëm për cilësinë e të dhënave në SIK sipas renditjes në tërësi si rrjedhojë e shpërndarjes së vërtetuar jo normale të të dhënave përkatëse, pjesa tjetër e rëndësishme lidhet me përcaktimin e faktorëve më të realizuar, duke u mbështetur fillimisht tek vlerësimet e bëra sipas shkallës Likert për secilin nga faktorët dhe nënfaktorët e lidhur. Edhe në këtë rast, sipas analizës së bërë më sipër, për përcaktimin e faktorëve më të realizuar nuk mund të mbështetemi tek vlerësimi me anë të mesatares për secilin faktor.

Fillimisht do të shqyrtohet vlera e medianës. Nga të dhënat e mbledhura, vihet re se vlera e medianës për shumicën e faktorëve ishte 4, që ishte dhe vlera më e lartë e medianës së vrojtuar. Kjo tregon se niveli i realizimit për secilin nga këta faktorë ishte mbi mesataren, duke treguar se gjithsesi puna për arritjen e një niveli të caktuar për cilësinë e të dhënave po bëhet. Nga ana tjetër, vlera më e ulët e medianës ishte 3 dhe lidhej me nivelin e realizimit të perceptuar të 4 faktorëve, më konkretisht vizioni strategjik, menaxheri për cilësinë e të dhënave, struktura organizative dhe menaxhimi i rrezikut. Kështu, edhe në këtë rast vlera e medianës nuk mjafton për të përcaktuarfaktorët më të realizuar.

Ka disa faktorë që përsëriten nga lista e 10 faktorëve më të rëndësishëm, megjithëse renditja nuk ruhet më e njëjtë midis tabelave. Kështu, faktori i lidhur me trajnimin është sërish në listën e faktorëve më të realizuar, por renditet më poshtë sesa në rastin e mëparshëm. Në të dyja rastet, vlera e medianës tregon për një vlerësim mbi

Page 58: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

49

mesataren, duke treguar se ai realizohet pak a shumë në të njëjtin nivel me shkallën e rëndësisë që ka sipas perceptimit të individëve të anketuar. Rezultatet nga renditja në tërësi e faktorëve më të realizuar jepen në tabelën 4.5(Zoto dhe Tole, dhjetor 2014).

Tabela 4.5. Faktorët më të realizuar, renditja në tërësiRenditja Faktori Numri i herëve

1 Karakteristikat e SIK-ut 592 Kontrollet e brendshme 473 Trajnimi 414 Politikat dhe standardet e vendosura 405 Matja dhe raportimi 406 Njohja me SIK-un dhe cilësinë e të dhënave 337 Angazhimi i personelit drejtues 278 Puna në grup 269 Auditimi i SIK-ut 2610 Kontrolli i cilësisë së të dhënave 1911 Menaxhimi i ndryshimeve 19

Më tej mund të përmendim faktorin e lidhur me karakteristikat e SIK-ut. Fakti që ky faktor është renditur si faktori më i realizuar, madje me ndryshim të madh ndaj faktorëve të tjerë, tregon se SIK-u i përdorur nga individët e përfshirë në studim ka karakteristika shumë të mira. E njëjta gjë mund të thuhet edhe për faktorin e lidhur me politikat e standardet mbi cilësinë e të dhënave, që ka të njëjtën renditje, madje pothuajse të njëjtin vlerësim në vlerë absolute midis nivelit të rëndësisë dhe atij të realizimit, si për të treguar se edhe ky faktor realizohet në përputhje me domosdoshmërinë që ka një çështje e tillë.

Deri tani, në lidhje me literaturën, mund të thuhet se, për rastin në studim, faktorë të tillë si karakteristikat e SIK-ut që përdoret janë trajtuar në mënyrën e duhur, duke gjetur mbështetje nga personelet përkatëse.

Ndër faktorët e tjerë të njëjtë midis dy listave mund të përmendet ai i lidhur me kontrollet e brendshme, apo ai që vlerëson matjen e raportimin. Për kontrollet e brendshme vihet re një renditje më e lartë në realizim, që nënkupton se perceptimi i përgjithshëm nga individët e përfshirë në studim është se kontrollet e brendshme realizohen shumë shpesh, kur ndërkaq vihet re se nuk janë vlerësuar po aq të rëndësishme. Kështu ndodh edhe me matjen e raportimin, që rezulton të jetë realizuar në një nivel mbi mesataren, në mënyrë të përshtatshme me kërkesat për një nivel të lartë të cilësisë së të dhënave. Në nivel absolut, ky faktor ka gati dyfishin e vlerësimeve në krahasim me seksionin e rëndësisë.

Më tej, faktori i lidhur me angazhimin e personelit drejtues shfaq thuajse të njëjtën renditje dhe të njëjtin numër vlerësimesh në të dyja listat, duke treguar se personeli drejtues po bën aq sa duhet në lidhje me kërkesat ndaj tij për të qenë të përkushtuar ndaj kësaj çështjeje.

Faktorët e tjerë të mbetur që përsëriten në të dyja listat janë ata që lidhen me njohjen për SIK-un dhe cilësinë e të dhënave, auditimin e SIK-ut dhe kontrollin e

Page 59: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

50

cilësisë së të dhënave. Për të tre faktorët e përmendur vihet re se ka një ndryshimmidis nivelit të rëndësisë së perceptuar dhe realizimit përkatës, që nënkupton se gjërat nuk po realizohen siç duhet në lidhje me ta. Ndër të tre, faktori me ndryshim më të madh, nisur nga numri i vlerësimeve në tërësi, është ai i lidhur me njohjen për SIK-undhe cilësinë e të dhënave, që nënkupton se në këtë drejtim duhet punuar më tepër, meqë është ai që jep bazat për çështjet më të thelluara. Kontrolli i cilësisë së të dhënave shfaq të njëjtin problem, ashtu si dhe faktori i lidhur me auditimin e SIK-ut. Këta dy faktorë janë të rëndësishëm për përcaktimin dhe përmirësimin e cilësisë së të dhënave, por realizimi i tyre lë për të dëshiruar.

Së fundmi, faktorë të rinj, që nuk ishin pjesë e listës së faktorëve më të rëndësishëm, janë ata të lidhur me punën në grup dhe menaxhimin e ndryshimeve. Puna në grup në listën e faktorëve më të rëndësishëm renditej pak më poshtë nga faktori i lidhur me matjen e raportimin, ndërsa menjëherë pas tij renditej faktori i lidhur me menaxhimin e ndryshimeve. Në lidhje me punën në grup, përfshirja e tij në këtë listë tregon se një tjetër faktor i marrë nga literatura përkatëse mbështetet nga të dhënat e studimit. Ndërkaq, menaxhimi i ndryshimeve është një faktor, i cili, megjithëse ka thuajse të njëjtin vlerësim në të dyja rastet, renditet vetëm tek lista e faktorëve më të realizuar.

Në lidhje me përfundimet e nxjerra nga literatura, mund të thuhet se, në rastin e realizimit, janë tre faktorë që vlerësohen mirë edhe nga individët e përfshirë në studim, duke përmendur këtu karakteristikat e SIK-ut, angazhimin e personelit drejtues dhe më tej punën në grup. Pra, në këtë rast, del në pah fakti se faktorët e perceptuar si të realizuar më mirë nga të tjerët në lidhje me cilësinë e të dhënave në SIK janë më afër situatës së përshkruar nga literatura e konsultuar, në krahasim me faktorët e perceptuar si më të rëndësishëm.

4.4. Përgatitja e të dhënave.

Përpara analizës së rezultateve me teknikat që do të përdoren më tej në këtë studim, u pa e nevojshme të bëheshin disa shndërrime, për dy qëllime kryesore:

Përmirësimi i aftësisë parashikuese të teknikave në studim

Lehtësimi i pjesës së interpretimit të rezultateve përfundimtareNë funksion të këtyre qëllimeve, u pa e arsyeshme që të bëheshin dy

ndryshime kryesore nga të dhënat e marra prej rezultateve të pyetësorit, më konkretisht të lidhura me zvogëlimin e numrit të kategorive të të dhënave, që fillimisht mbështeteshin në shkallën Likert, dhe në zvogëlimin e numrit të faktorëve.

4.4.1. Zvogëlimi i kategorive të dhënave

Siç dihet tashmë, kategoritë e të dhënave të marra, të përcaktuara sipas shkallës Likert, përfshinin 5 vlera të mundshme, duke nisur nga niveli “Shumë i ulët” drejt nivelit “Shumë i lartë”. Ndarja e re e kategorive do të përfshijë vetëm dy vlera, që do ta thjeshtojnë problemin e nivelit të cilësisë së të dhënave në përcaktimin me

Page 60: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

51

vetëm dy nivele shumë të kuptueshme, më konkretisht niveli “I ulët” dhe niveli “I lartë” i cilësisë së të dhënave në SIK.

Vlerat e këtyre kategorive në vijim do të shprehen në vlera binare, pra 0 dhe 1, ku vlera e parë do të zëvendësojë nivelet e përcaktimit të shkallës Likert nga “Shumë i ulët” në “Mesatar”, kurse vlera e dytë do të zëvendësojë nivelet “I lartë” dhe “Shumë i lartë”. E njëjta procedurë u ndoq edhe me shkallën e vlerësimit të nivelit të realizimit të faktorëve, ku të dhënat e ndryshuara do të shërbejnë për pjesën në vijim të studimit.

Ndarja në dy kategori bën që dallimi midis tyre të jetë më i rëndësishëm dhe më i madh.

4.4.2. Zvogëlimi i numrit të faktorëve

Ndryshimi tjetër lidhet me numrin e faktorëve që do të përdoren si variabla shpjegues në modelet e nxjerra nga teknikat e studiuara në kapitujt në vijim. Siç dihet, nga analiza e deritanishme janë plot 24 faktorë ata që janë vlerësuar nga të anketuarit. Këta faktorë, tashmë me vlera 0/1 pas ndryshimit të parë, do të duhet të grupohen në një numër më të kufizuar në mënyrë që rëndësia e secilit prej tyre të kuptohet më mirë.

Për të arritur zvogëlimin e dimensionalitetit të problemit ka metoda të ndryshme që përcaktojnë nënbashkësinë më të mirë të faktorëve shpjegues. Procesi shpesh njihet ndryshe si përzgjedhja e atributeve dhe ndër metodat më të përdorura mund të përmendim Analizën e Komponentëve Primarë (PCA), Përzgjedhjen e Atributeve bazuar në Korrelacion (CFS), Analizën Faktoriale, Analizën e Ndjeshmërisë, etj.

Të gjithë metodat e mësipërme u testuan përmes programeve kompjuterike mbi të dhënat e ndryshuara, të marra nga seksioni ku të anketuarit u përgjigjën mbi realizimin e perceptuar të faktorëve.

Pas këtij çasti, metoda e përzgjedhur ishte ajo bazuar në korrelacion, e cila përcakton dobinë e akumuluar të çdo atributi (faktori) në parashikimin e saktë të kategorisë përkatëse, bashkë me madhësinë e korrelacionit me atributet (faktorët) e tjerë të përfshirë në analizë (Hall, 1999). Ndër algoritmet e përdorur në mbështetje të kësaj metode, ai i përzgjedhuri ishte Best First, pasi përfshin kërkimin për nënbashkësi të mundshme faktorësh me një procedurë kthimi prapa dhe rivlerësimi, siç përmendet dhe nga Witten dhe Frank (2005). Kërkimi mund të nisë nga pika zero, pra nga nënbashkësi boshe faktorësh, nga bashkësia e plotë drejt zvogëlimit të mëtejshëm, ose nga një çast i ndërmjetëm. Në rastin tonë, u përzgjodh si pikë fillimi pika zero.

4.4.3. Faktorët më të mirë të përzgjedhur

Faktorët që do të përfshihen në bashkësinë përfundimtare të marrë në studim, si të përzgjedhur nga metoda e mësipërme, janë si vijon (Zoto dhe Tole, 2014):

Angazhimi i personelit drejtues

Page 61: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

52

Trajnimi

Vizioni Strategjik

Politikat dhe standardet

Karakteristikat e SIK-ut

Matja dhe raportimi

Analiza kosto/përfitimRenditja e faktorëve më sipër nuk i përgjigjet ndonjë vlerësimi të caktuar, por

ndjek thjesht radhën e vendosjes së këtyre faktorëve në pyetësorin e zhvilluar paraprakisht.

Siç mund të shihet, shtatë faktorët më sipër nuk janë të gjithë në listën e 10 faktorëve më të realizuar, duke pasur parasysh analizën e mëparshme, por përbërja e listës së mësipërme është shumë e ngjashme me përbërjen e listës me faktorët e renditur si më të realizuarit sipas renditjes në tërësi, e cila nëse zgjerohet me disa faktorë më shumë, ka përbërjen e dhënë në tabelën 4.6 (Zoto, 2015).

Tabela në fjalë tregon se të shtatë faktorët e përzgjedhur si më të mirët sipas vlerës së korrelacionit midis tyre janë në fakt ndër më të realizuarit sipas perceptimit të individëve të përfshirë në studim, sipas llogaritjes së numrit të herëve që janë përfshirë në tri faktorët më të realizuar.

Një tjetër fakt interesant nga të dhënat e marra tregon se të njëjtët faktorë të përfshirë në 10 faktorët më të realizuar në tabelën më poshtë, janë përfshirë në renditjen e 10 faktorëve më të rëndësishëm sipas të njëjtës mënyrë vlerësimi, të renditur në një rend tjetër.

Nëse zbresim më poshtë në listën e faktorëve më të rëndësishëm, ku pjesa e sipërme e saj jepet nga tabela 4.4, të dhënat tregojnë se për të përfshirë pjesën e mbetur të faktorëve duhet të zbresim tek faktori i lidhur me analizën kosto/përfitim, i renditur i 17-ti.

Tabela 4.6. Faktorët më të realizuar, renditja në tërësi (13 faktorë)Renditja Faktori Numri i herëve

1 Karakteristikat e SIK-ut 592 Kontrollet e brendshme 473 Trajnimi 414 Politikat dhe standardet e vendosura 405 Matja dhe raportimi 406 Njohja me SIK-un dhe cilësinë e të dhënave 337 Angazhimi i personelit drejtues 278 Puna në grup 269 Auditimi i SIK-ut 2610 Kontrolli i cilësisë së të dhënave 1911 Menaxhimi i ndryshimeve 1912 Vizioni strategjik 1813 Analiza kosto/përfitim 17

Page 62: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

53

Kjo analizë shtesë shërbeu për të treguar se lista e faktorëve sipas renditjes në tërësi, si në lidhje me nivelin e realizimit, ashtu edhe me nivelin e rëndësisë, është bazë shumë e mirë krahasuese për të shtatë faktorët e përzgjedhur sipas metodës CFS. Ndër to, lista e faktorëve më të realizuar do të përdoret më me përparësi, meqë të dhënat në studim do të jenë të njëjtat.

4.5. Faktorët më të mirë sipas regresionit logjistik

Kufizimi kryesor i regresionit linear është pamundësia e tij për të trajtuar variablat e pavarur me vlera dyshe ose, në rastin më të përgjithshëm, kategorike. Në botën reale të biznesit shumë variabla të rëndësishëm kanë dy vlera të mundshme. Kështu, konsumatorët marrin vendim për të blerë ose mos blerë një produkt, një produkt mund të kalojë ose jo kontrollin e cilësisë, ka vlerësim të mirë apo të keq mbi miratimin e një kredie, një punonjës mund të ngrihet në detyrë ose jo. Ka një sërë teknikash regresioni që janë zhvilluar për të analizuar të dhënat me variabla të varur kategorikë, duke përfshirë regresionin logjistik dhe analizën diskriminuese.

Regresioni logjistik përdoret më shpesh kur kemi të bëjmë me vetëm dy kategori vlerash për variablin e varur. Regresioni logjistik përdoret më shumë edhe kur ndër variablat e pavarur ka dhe variabla kategorikë, ndërsa analiza diskriminuese kërkon në mënyrë të domosdoshme variabla me vlera të vazhdueshme, megjithëse nuk përjashton variablat dummy. Prandaj, në rastet kur të gjithë variablat e pavarur kanë vlera kategorike, ose një pjesë prej tyre kategorike, dhe variabli i varur është kategorik, modeli që ofron regresioni logjistik është i duhuri.

4.5.1. Koncepte kryesore

Regresioni logjistik, sipas përkufizimit, ka aftësinë të përcaktojë ndikimin e variablave të pavarur në përcaktimin e vlerës sipas njërës apo tjetrës kategori të variablit të varur (Burns dhe Burns, 2008).

Meqë variabli i varur ka vetëm dy vlera, ne nuk mund të parashikojmë një vlerë numerike të saktë për të duke përdorur regresionin logjistik, ndaj përdorimi i kriterit të katrorëve më të vegjël si mënyra më e mirë për të përcaktuar nivelin minimal të gabimit rezulton si jo e përshtatshme. Ajo çfarë mund të përdoret lidhet me teorinë e probabilitetit binomial ku ka vetëm dy vlera për t’u parashikuar, probabiliteti që vlera të jetë 0 ose 1, përndryshe që ngjarja ose personi i studiuar i përket njërës apo tjetrës kategori. Regresioni logjistik formon ekuacionin më të mirë duke përdorur metodën e probabilitetit maksimal, që maksimizon mundësinë e klasifikimit të të dhënave të vrojtuara në kategori të përshtatshme, duke u bazuar në koeficientët e regresionit.

Ashtu si regresioni i zakonshëm, regresioni logjistik jep një vlerë koeficienti b, që mat kontributin e pjesshëm të secilit variabël të pavarur në variacionin e variablit të varur. Synimi është parashikimi i saktë i kategorisë së rezultateve për rastet individuale duke përdorur modelin më të mirë. Për ta arritur këtë qëllim, krijohet

Page 63: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

54

modeli që përfshin të gjithë ata variabla parashikues që janë të dobishëm në parashikimin e variablit të varur. Variablat mund të bëhen pjesë e ekuacionit përfundimtar duke u përfshirë në mënyra të ndryshme, sipas qëllimeve të studiuesit përkatës.

Ka dy mënyra të përdorimit të regresionit logjistik: Së pari, për parashikimin e anëtarësisë së rastit individual. Meqë regresioni

logjistik llogarit probabilitetin e suksesit ndaj dështimit, rezultatet që vijnë nga analiza mund të merren në formën e raportit të mundësive (odds ratio)

Së dyti, ofron njohuri mbi marrëdhëniet midis variablave të ndryshëm të pavarur ose rëndësisë relative të tyre. Një koeficient më i lartë i njërit variabël ndaj tjetrit tregon një ndikim më të lartë tek suksesi i ngjarjes së studiuar, përndryshe në vlerën 1 të variablit të varur.Ashtu si modelet e tjera të regresionit, edhe modeli logjistik ka disa supozime

mbi të cilat funksionon, të renditura më poshtë:

Regresioni logjistik nuk merr parasysh marrëdhënien lineare midis variablave të varur dhe atyre të pavarur

Variabli i varur duhet të jetë i shprehur vetëm me dy vlera

Variablat e pavarur nuk duhet të jenë intervalorë, as me shpërndarje normale, as të lidhura në mënyrë lineare dhe as me variancë të njëjtë brenda secilit grup

Kategoritë (grupet) e vlerave duhet të jenë reciprokisht të përjashtueshme dhe gjithëpërfshirëse, në kuptimin që një rast i caktuar mund të jetë pjesë e vetëm një grupi dhe çdo rast duhet të përfshihet në një nga grupet e paracaktuaraNdërkaq, regresioni logjistik jep për secilin variabël të pavarur një vlerë

koeficienti b, që mat kontributin e tyre të pavarur në variacionit e variablit të varur, që nga ana e tij merr vetëm dy vlera të lejuara: 0 dhe 1. Ajo që duam të parashikojmë nga njohja e variablave të pavarur të rëndësishëm dhe koeficientëve përkatës nuk është thjesht vlera e variablit të varur, por më konkretisht probabiliteti i ngjarjes që vlera e tij është 1 krahasuar me vlerën 0, në rastin tonë probabiliteti i nivelit të lartë të cilësisë ndaj vlerës së ulët.

Gjithsesi, edhe thjesht përdorimi i probabilitetit si variabël i varur nuk është i saktë, pasi vlerat e koeficientëve mund të jenë të pakufizuara. Kjo mund të çojë në vlera të variablit të varur që janë më të mëdha se 1 ose më të vogla nga 0. Gjithashtu, meqë të gjithë vlerat e variablit të varur janë 0 ose 1, nuk mund të përcaktojmë një vijë lineare që i bashkon ato, ashtu si në rastin e regresit të thjeshtë linear.

Zgjidhja do të ishte në llogaritjen e probabiliteteve. Mund të përcaktojmë mesataren e vlerave të variablit të varur sipas vlerave të variablave të pavarur. Kjo do të na ndihmojë për të përcaktuar probabilitetin e suksesit të variablit të varur ndaj çdo vlere të vrojtuar të variablit të pavarur. Ky ndryshim bën që vlerat e parashikuara të variablit të varur të shihen si probabilitete përkatëse dhe të përfaqësohen nga një interval me vlera midis 0 dhe 1, dhe jo thjesht nga vlerat ekstreme.

Për ta normalizuar më tej shpërndarjen përkatëse, do të duhet dhe një ndryshim tjetër, ai me vlerat e logaritmit përkatës. Ndryshimi i vlerave të variablit të varur duke përdorur logaritmin e tyre bën që të mundësohet krahasimi me ekuacionin

Page 64: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

55

e regresit të zakonshëm. Ndryshimi në fjalë ndryshe njihet me emrin logit dhe është logaritmi natyror i mundësisë që vlera e variablit të varur të jetë 1. Formula e përcaktimit të tij është:Logit (p) = ln[p/1-p] (4.1)

Nëse vlerat e probabilitetit janë midis vlerave 0 dhe 1, logit(p) mund të marrë çfarëdolloj vlere në R. Formula më poshtë jep në mënyrë të përmbledhur formën e regresionit logjistik:Logit(p)=a+b1x1+b2x2+b3x3+...+bnxn (4.2)

Në këtë formë, duket sikur përshkruajmë një model regresioni linear, dhe në fakt regresioni logjistik kërkon një ekuacion best fit, por mbështetur mbi parime krejt të ndryshme nga ai linear. Kështu, kriteri kryesor nuk është më ai i katrorëve më të vegjël të gabimit, por ai i probabilitetit maksimal, që maksimizon probabilitetin e marrjes së rezultateve të vrojtuara në bazë të koeficientëve të përcaktuar. Kjo bën që statistikat mbi përshtatshmërinë e ekuacionit dhe rëndësinë e tij të jenë të ndryshme nga rasti i regresionit linear. Në këtë rast, vlera e probabilitetit të suksesit do të llogaritet nga formula në vijim:

p = ? (? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ⋯? ? ? ? ? )? ? ? (? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ⋯? ? ? ? ? ) (4.3)

Regresioni logjistik llogarit ndryshimet në vlerat e logaritmuara të variablit të varur, dhe jo ndryshimet absolute në variablin e varur ashtu si në rastin e regresionit të zakonshëm. Për një variabël me dy vlera të lejuara, mundësitë e ndodhjes në njërin grup janë të barabarta me raportin e probabilitetit të grupit përkatës ndaj probabilitetit të ndodhjes në grupin tjetër. Vlera e këtij raporti mund të shkojë nga 0 në infinit dhe tregon sa e mundur është që një vlerë e vrojtuar të jetë pjesë e grupit përkatës në krahasim me grupin tjetër. Nëse probabiliteti është 0.8, atëherë mundësia për të qenë pjesë e këtij grupi është 4 herë më e madhe ndaj grupit tjetër. Nëse probabiliteti është 0.25, atëherë mundësitë për të qenë në këtë grup janë 3 herë më të vogla. Rasti i probabilitetit të barabartë me 0.5 tregon për mundësi të barabartë mes grupeve.

Koncept tjetër i rëndësishëm është vlera e raportit të mundësive, që përcakton ndryshimin në mundësinë për të qenë pjesë e njërit grup nga rritja me 1 njësi e variablit të pavarur. Llogaritet duke përdorur koeficientin b pranë variablit përkatës si eksponent për ta ngritur në fuqi me bazë numrin natyror e. Vlerat pozitive të koeficientëve tregojnë se nga rritja me 1 njësi e variablit të pavarur, mundësia për të qenë pjesë e grupit me vlerë 1 rritet, ndërsa vlerat negative zvogëlojnë mundësinë për të qenë pjesë e grupit me vlerë 1, duke mbajtur variablat e tjerë të pandryshuar.

Në rastin e regresionit logjistik, siç u përmend më sipër, përdoret metoda e mundësisë maksimale për të gjetur modelin e regresit ideal, që maksimizon aftësinë tonë për të parashikuar probabilitetin e vlerës 1 për variablin e varur.

Mundësia e ndodhjes së një ngjarjeje është thjesht probabiliteti i një hipoteze të caktuar. Në regresionin logjistik, dy hipoteza janë të rëndësishme: hipoteza H0, që mbron idenë se të gjithë koeficientët e ekuacionit janë zero, dhe hipoteza alternative, ku mbrohet ideja se modeli me të paktën një variabël shpjegues është i saktë dhe ndryshon në mënyrë të rëndësishme nga modeli pa variabla shpjegues.

Page 65: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

56

Më pas mund të përcaktojmë më mirë mundësinë e vrojtimit të të dhënave sipas hipotezave të përcaktuara. Rezultati është një vlerë shumë e vogël, që ndryshohet në vlerën e vet të logaritmuar, që ndryshe njihet si LL. Sa kohë që probabiliteti nuk e kalon asnjëherë vlerën 1, logaritmi i saj është gjithnjë vlerë negative. Kjo vlerë shërben për testimin e rëndësisë së regresionit logjistik.

Vetë testimi i rëndësisë mbështetet në llogaritjen e dyfishit negativ të vlerës më sipër, shkurt -2LL, dhe përcaktohet në ndryshimin mes vlerës së llogaritur për modelin e regresionit me variabla të pavarur dhe vlerës për modelin pa variabla të pavarur (me koeficientët përkatës me vlerë zero).

Rëndësia në rastin e modelit me variabla të pavarur vlerësohet me anë të

statistikës 2, me nivel besimi 5%.

4.5.2. Modeli i regresionit logjistik

Pas ndryshimit të të dhënave në seksionin 4.4, hapi tjetër lidhet me zëvendësimin e të gjithë vlerave të marra në studim me vlera numerike (0/1). Në këtë rast, vlera 0 zëvendëson kategorinë “I ulët”, kurse vlera 1 kategorinë “I lartë”. Pas këtij zëvendësimi mund të zbatohet metoda e regresionit logjistik për shtatë faktorët e përcaktuar tashmë dhe të analizohen rezultatet.

Të dhënat fillestare tregojnë se, nëse nuk merret parasysh efekti i variablave shpjegues, saktësia e parashikimit të vlerës së variablit të varur, do të ishte vetëm 50%. Pra, nëse do të thoshim se cilësia e të dhënave të SIK-ut do të ishte e lartë (e ulët), do të ishim të saktë në 50% të rasteve. Kjo tregon një ndarje krejtësisht të barabartë në të dhënat në studim midis të anketuarve që kishin përdorur SIK-un me nivel cilësie të dhënash të perceptuar si të ulët dhe atyre që kishin përdorur SIK-un me nivel cilësie të dhënash të perceptuar si të lartë, më saktë 91 individë nga secili grup.

Përfshirja e të gjithë variablave në model rrit saktësinë e përgjithshme në 69.2%, duke përfshirë 126 nga 182 raste në tërësi, siç tregohet dhe në tabelën 4.7(Zoto, 2015).

Tabela 4.7. Tabela e klasifikimit - Regresioni logjistik

Vlerat evrojtuara

Vlerat e parashikuara

Niveli i cilësisë Saktësia në përqindjeI lartë I ulët

Niveli i cilësisë

I lartë 67 24 73.6

I ulët 32 59 64.8

Përqindja e plotë 69.2

Nëse tabela do të analizohej më me hollësi, mund të thuhet se përqindja e parashikimeve të sakta për rastet me nivel të lartë cilësie është rreth 74%, që përbën një vlerë më të lartë nga norma përkatëse e saktësisë për rastet me nivel të ulët, rreth 65%. Ky ndryshim nënkupton që suksesi i ngjarjes në këtë rast parashikohet më mirë

Page 66: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

57

se mossuksesi, që është një element i dëshiruar në një problem klasifikimi si ky në studim.

Përndryshe, mund të thuhet që gabimi i llojit I është më i ulët se gabimi i llojit II. Gabimi i llojit I në këtë rast është raporti midis rasteve me nivel të lartë cilësie të parashikuara gabim ndaj numrit të plotë të rasteve me nivel të lartë cilësie të vrojtuara,ndërsa gabimi i llojit II është raporti midis rasteve me nivel të ulët cilësie të parashikuara gabim ndaj numrit të plotë të rasteve me nivel të ulët cilësie të vrojtuara. Të gjitha vlerat zakonisht shprehen në përqindje dhe për rastin në studim, interesi më i madh është që të parashikohen më saktë rastet me nivel të lartë cilësie.

Pasi përcaktuam saktësinë e parashikimit të modelit të regresionit logjistik,tani do të përcaktojmë nëse modeli është i rëndësishëm statistikisht apo jo. Për ta bërë këtë, meqë kemi të bëjmë me një regresion logjistik, na shërben testi i rëndësisë

mbështetur në statistikën 2, ashtu siç u tregua dhe më sipër.Të dhënat mbi modelin e thjeshtë dhe modelin me variabla shpjegues tregojnë

se shtimi i variablave shpjegues është i rëndësishëm statistikisht dhe përmirëson modelin e regresionit për rastin e studiuar, si në tabelën 4.8 më poshtë.

Tabela 4.8. Të dhënat për rëndësinë e modeleve pa dhe me variabla shpjeguesVariablat Shpjegues

Vlera -2LL

Vlera për 2 Vlera R2

(Cox dhe Snell)Vlera R2

(Nagelkerke) Vlera e

rëndësisë0 229.06 23.25 0.12 0.16 0.000

7 215.51 36.14 0.183 0.244 0.000

Nga tabela më sipër, shihet qartë se modeli përmirësohet me shtimin e variablave shpjegues. Vlera rënëse për -2LL tregon se modeli me variablat shpjegues shpjegon më mirë modelin në krahasim me modelin pa variabla shpjegues (me konstante), dhe kjo mbështetet edhe nga vlerat e llogaritura për R2. Vlerat e R2 në rastin e regresionit logjistik nuk janë të barasvlershme me ato të regresionit të zakonshëm, por vlerat e paraqitura më sipër janë ato më të përafërtat. Ndryshimi është që R2 sipas Cox dhe Snell merr vlerë maksimale 0.8, kurse vlera tjetër është korrigjim i saj për të qenë e krahasueshme me R2 të regresionit të zakonshëm, që merr vlera në intervalin 0-1.

Vlera mbi 24% në këtë rast tregon se variablat shpjegues nuk kanë një lidhje shumë të forte me variablin e varur, gjithsesi modeli del se është mjaft i rëndësishëm nga vlerat në kolonën e fundit.

4.5.3. Interpretimi i variablave të modelit

Variablat shpjegues në një model regresioni logjistik janë të shoqëruar nga disa parametra të ndryshëm nga ata që shpjegojnë variablat e një modeli regresioni të zakonshëm. E njëjta gjë vlen dhe për interpretimin e tyre.

Page 67: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

58

Përtej rëndësisë statistikore që shfaq secili nga variablat në modelin me variabla shpjegues, ajo që mund të përcaktohet është efekti që ka secili prej tyre në mundësinë e përfshirjes së rastit në njërin grup apo në tjetrin.

Variabli i lidhur me faktorin e trajnimit ka ndikim pozitiv mbi nivelin e lartë të cilësisë së të dhënave dhe kjo vihet re dhe nga të dhënat e tabelës 4.9.

Vlerat në kolonën Wald japin një ide mbi rëndësinë relative të secilit faktor në modelin në tërësi. Në rastin e mësipërm, këto vlera tregojnë se, ndër variablat shpjegues, trajnimi ka rëndësinë më të madhe mbi nivelin e cilësisë së të dhënave. Ndërkaq, nëse merret parasysh dhe vlera konstante, ajo ka rëndësi më të madhe nga secili faktor shpjegues, por efekti i saj është negativ, siç do të shpjegohet më poshtë. Në vijim, do të trajtojmë vetëm këta variabla, meqë sipas kolonës së rëndësisë, variablat e tjerë mbeten të parëndësishëm për modelin në fjalë.

Tabela 4.9. Të dhënat e parametrave të modelit të regresionit logjistik

Variabli B S.E. Wald Rëndësia Exp(B)

Angazhimi i personelit drejtues 0.204 0.397 0.263 0.608 1.226

Trajnimi 0.958 0.371 6.677 0.010 2.606

Vizioni strategjik 0.295 0.403 0.535 0.464 1.343

Politikat dhe standardet 0.290 0.393 0.547 0.460 1.337

Karakteristikat e SIK-ut 0.475 0.427 1.234 0.267 1.608

Matja dhe raportimi 0.361 0.443 0.663 0.415 1.435

Analiza kosto/përfitim 0.341 0.382 0.798 0.372 1.407

Konstantja -1.167 0.268 18.916 0.000 0.311

Vlerat e kolonës së fundit tregojnë sa rritet mundësia e SIK-ut me nivel të lartë në cilësinë e të dhënave nga rritja me 1 njësi e variablit përkatës. Kështu, në modelin tonë, në rastet ku trajnimi ka vlerën 1, ka mbi 2.5 herë më shumë mundësi për të pasurnivel të lartë cilësie të dhënash, duke mos ndryshuar parametrat e tjerë në model. Përndryshe, vlera e koeficientit pranë variablit të lidhur me trajnimin, thuajse 1, tregon se mundësia për të pasur SIK me nivel të lartë të cilësisë së të dhënave,kur niveli i realizimit të trajnimit është i lartë, është thuajse 100%, njësoj sa vlera e koeficientit përkatës.

Vlera negative e koeficientit të konstantes tregon se, në mungesë të variablave shpjegues, mundësia që SIK-u i vrojtuar të ketë nivel të lartë për cilësinë e të dhënave bie shumë, madje mund të thuhet se është pothuajse e sigurt që niveli do të jetë i ulët.

Ndërkaq, nisur nga të dhënat e kolonës së fundit në tabelën 4.9, mund të thuhet se variabli i trajnimit është rreth 2 herë më i rëndësishëm nga të gjithë variablat e tjerë shpjegues në përcaktimin e nivelit të cilësisë së të dhënave për SIK-un e marrë në studim.

Page 68: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

59

4.5.4. Modeli alternativ

Modeli që studiuam deri tani përfshinte të shtatë faktorët e përzgjedhur nga analiza e bërë në seksionin e mëparshëm dhe mund të parashikonte me saktësi 69.2% të vlerave të variablit të varur. Si alternativë për modelin e parë, le të gjejmë një model tjetër, ku variablat duhet të jenë të gjithë të rëndësishëm për parashikimin e variablit kryesor, të lidhur me nivelin e cilësisë së të dhënave.

Meqë vlerat e ndryshuara sërish vërtetohet se nuk kanë shpërndarje normale, për të përcaktuar faktorët që kanë dallime të rëndësishme midis rasteve me nivel të ulët cilësie dhe atyre me nivel të lartë cilësie të dhënash do të zbatohen metodat joparametrike të radhës, ndërkaq tabela 4.10 jep të dhëna të përmbledhura mbi analizën e bërë.

Tabela 4.10. Të dhënat mbi vlerat e realizimit për çdo faktor dhe rëndësia përkatëseShënim(*): Ndryshimi merret jo i rëndësishëm për vlerën mbi 0.05, faktorët përkatës janë të treguar me gërma të pjerrëta

Nr Variabli shpjeguesMediana për SIK me cilësi

të ulët

Mediana për SIK me cilësi të

lartë

Vlera zvr

Probabiliteti (p)*

1 Angazhimi i personelit drejtues 1 1 3.26 0.0012 Trajnimi 0 1 4.75 0.0003 Vizioni strategjik 0 1 4.14 0.000

4Menaxheri për cilësinë e të

dhënave0 1 2.22 0.026

5 Struktura organizative 0 1 2.37 0.0186 Politikat dhe standardet 0 1 3.74 0.0007 Kultura organizative 0 1 1.78 0.0768 Kontrolli i cilësisë 1 1 2.14 0.0329 Kontrolli mbi inputet 0 1 3.34 0.00110 Përqendrimi te përdoruesi 0 1 2.54 0.01111 Karakteristikat e SIK-ut 0 1 3.84 0.00012 Marrëdhëniet e mira në punë 0 1 2.51 0.00513 Menaxhimi i ndryshimeve 1 1 1.65 0.10014 Matja dhe raportimi 1 1 3.72 0.000

15Menaxhimi i cilësisë për furnizuesit e të dhënave

0 1 1.78 0.076

16 Përmirësimi i vazhdueshëm 0 1 3.15 0.00217 Puna në grup 0 1 2.87 0.00418 Analiza kosto/përfitim 0 1 3.72 0.00019 Njohja me SIK-un dhe cilësinë 1 1 2.8 0.00520 Menaxhimi i rrezikut 0 1 1.48 0.13921 Aftësitë e personelit 1 1 2.47 0.01422 Mjedisi i punës 1 1 2.91 0.00423 Auditimi i SIK-ut 0 1 2.85 0.00424 Kontrollet e brendshme 1 1 2.58 0.010

Metoda joparametrike e përdorur në këtë rast lidhet me testin Mann-Whitney-Wilcoxon, që mat dallimet midis grupeve të vlerave të ndara sipas një variabli

Page 69: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

60

kategorik. Në këtë rast, variabli kategorik është ai i lidhur me nivelin e cilësisë së të dhënave në SIK, i cili merr vetëm dy vlera, në lidhje me nivelin e lartë apo nivelin e ulët të cilësisë.

Rezultatet nga ky testim jepen në tabelën 4.10 dhe treguan se ndër 24 variabla të marrë në shqyrtim, variablat që nuk kishin ndryshime të rëndësishme midis vlerave të realizimit të faktorëve për secilën kategori të variablit të varur, janë si më poshtë:

Kultura organizative

Menaxhimi i cilësisë për furnizuesit e të dhënave

Menaxhimi i ndryshimeve

Menaxhimi i rrezikutNëse vërehet përbërja e listës së 4 faktorëve më sipër, njëri prej tyre ishte ndër

faktorët më të realizuar sipas renditjes në tërësi, më konkretisht faktori i lidhur me menaxhimin e ndryshimeve, vlerësimi i mirë i të cilit nuk duket të ketë qenë i lidhur vetëm me rastet e SIK-ut me nivel të lartë për cilësinë e të dhënave. Nga ana tjetër, menaxhimi i rrezikut ishte një nga faktorët me vlerën më të ulët të medianës në lidhje me nivelin e realizimit, ndaj përfshirja në këtë rast duket shumë e arsyeshme. Ndër faktorët e tjerë, ai i lidhur me kulturën organizative kishte një medianë me vlerën 3.5, që e klasifikon atë në pjesën e fundit të listës së faktorëve më të realizuar sipas vlerës së medianës përkatëse, ndërkohë që nuk ishte as pjesë e faktorëve më të realizuar sipas renditjes në tërësi, siç mund të vërehet nga tabelat 4.5 dhe 4.6 më sipër. Faktori i mbetur, ai i lidhur me menaxhimin e cilësisë në lidhje me furnizuesit e të dhënave, nuk është i renditur ndër faktorët më të realizuar sipas renditjes në tërësi, ndërkohë që vlera e medianës për të ishte 4, pra nivel mbi mesataren.

Në përgjithësi, veçimi i këtyre faktorëve nga të tjerët duket shumë i arsyeshëm edhe në bazë të analizës së mëparshme, me përjashtim të faktorit të lidhur me menaxhimin e ndryshimeve. Gjithsesi, këta faktorë do të përjashtohen nga grupi i variablave shpjegues që do të marrim parasysh në vijim të studimit.

Nga tabela e mësipërme, shihet qartë që variabli me vlerën e vrojtuar të z mëtë madhe është i lidhur me faktorin e trajnimit, rreth 4.75, që është dhe njëkohësisht ai me ndryshimin më të rëndësishëm statistikisht. Nga ana tjetër, variabli me ndryshiminmë të vogël, dhe njëkohësisht më të parëndësishëm statistikisht, është ai i lidhur me faktorin e menaxhimit të rrezikut në lidhje me sistemin e zbatuar, me vlerë rreth 1.48.

Për të përcaktuar modelin më të mirë, me të gjithë variablat e rëndësishëm, u shfrytëzua metoda stepwise, e cila përfshin në mënyrë graduale variabla të rinj, të cilët janë të rëndësishëm statistikisht. Në rastin në fjalë, modeli përfundimtar kishte vetëm dy variabla të rëndësishëm:

Trajnimi

Matja dhe raportimiModeli stepwise përfshin si variablin e parë më të rëndësishëm ndër 24

variablat e mundshëm shpjegues atë të lidhur me trajnimin për SIK-un. Përfshirja e tij në model rrit saktësinë në përqindje në vlerën 67.6 %, ku siç mund të shihet në tabelën 4.11, përqindja e parashikimit të saktë për rastet me nivel të lartë cilësie të dhënash është më e lartë sesa përqindja përkatëse për rastet me nivel të ulët cilësie,

Page 70: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

61

më konkretisht 72.5% dhe 62.6% përkatësisht. Ky ndryshim tregon se modeli me vetëm këtë variabël shpjegues e parashikon më saktë suksesin e ngjarjes, që lidhet me nivelin e lartë të cilësisë së të dhënave. Ndryshe, mund të themi se gabimi i llojit I në parashikimin e rezultateve është më i ulët nga gabimi i llojit II.

Tabela 4.11. Tabela e klasifikimit - Regresioni logjistik, modeli alternativ

Vlerat e vrojtuara

Vlerat e parashikuara

Niveli i cilësisë Saktësia në përqindjeI lartë I ulët

Niveli i cilësisë

I lartë 66 25 72.5

I ulët 34 57 62.6

Përqindja totale 67.6

Niveli i cilësisë

I lartë 54 37 59.3

I ulët 21 70 76.9

Përqindja totale 68.1

Më tej, modeli stepwise përfshin si variablin e dytë më të rëndësishëm ndër 19variablat e mundshëm të mbetur atë të lidhur me matjen dhe raportimin për cilësinë e të dhënave. Përfshirja e tij në model rrit saktësinë në përqindje në vlerën 68.1 %, ku siç mund të shihet nga tabela 4.11, përqindja e parashikimit të saktë për rastet menivel të lartë cilësie të dhënash është më e ulët sesa përqindja përkatëse për rastet me nivel të ulët cilësie, më konkretisht 59.3% dhe 76.9% përkatësisht. Ky ndryshimtregon se modeli me këta dy faktorë shpjegues nuk parashikon më saktë suksesin e ngjarjes, por mossuksesin e saj, që lidhet me nivelin e ulët të cilësisë së të dhënave. ndryshe nga modeli me trajnimin si të vetmin variabël shpjegues. Ndryshe, mund të themi se gabimi i llojit I në parashikimin e rezultateve në këtë rast është më i lartë nga gabimi i llojit II. Ky model nuk mund të merret parasysh për qëllimet e këtij studimi.

Të dhënat mbi modelin e thjeshtë dhe modelin me variabla shpjegues tregojnë se shtimi i variablave shpjegues është i rëndësishëm statistikisht dhe përmirëson modelin e regresionit për rastin e studiuar, si në tabelën 4.12.

Nga tabela më sipër, shihet qartë se modeli përmirësohet me shtimin e variablave shpjegues. Vlera rënëse për -2LL tregon se modeli me dy variablat shpjegues shpjegon më mirë modelin në krahasim me modelin pa variabla shpjegues, dhe kjo mbështetet edhe nga vlerat e llogaritura për R2 në të dyja mënyrat. Vlera mbi 21% në rastin e dytë tregon se variablat shpjegues nuk kanë një lidhje shumë të forte me variablin e varur, gjithsesi modeli del se është mjaft i rëndësishëm nga vlerat në kolonën e fundit, në të dyja rastet.

Tabela 4.12. Të dhënat për rëndësinë e modeleve me variabla shpjegues, modeli alternativVariablat shpjegues

Vlera për -2LL

Vlera për

2

Vlera për R2

(Cox & Snell)Vlera për R2

(Nagelkerke) Vlera e

rëndësisë

0 229.06 23.25 0.12 0.16 0.000

2 220.87 31.43 0.16 0.21 0.000

Page 71: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

62

4.5.5. Interpretimi i variablave të modelit alternativ

Përtej rëndësisë statistikore që shfaq secili nga variablat në dy modelet me një dhe dy variabla shpjegues, ajo që mund të përcaktohet është efekti që ka secili prej tyre në mundësinë e përfshirjes së rastit në njërin grup apo në tjetrin.

Ajo që mund të vihet re sërish në këtë rast është se variabli i lidhur me faktorin e trajnimit ka ndikim pozitiv mbi nivelin e lartë të cilësisë së të dhënave edhe në modelet e krijuara sipas metodës stepwise, si në tabelën 4.13 më poshtë:

Tabela 4.13. Të dhënat e parametrave të modelit të regresionit logjistik, modeli alternativ

Variablat shpjegues

Variabli B S.E. Wald Rëndësia Exp(B)

1Trajnimi 1.487 0.320 21.669 0.000 4.426

Konstantja -0.663 0.211 9.873 0.002 0.515

2

Trajnimi 1.337 0.328 16.576 0.000 3.809

Matja_dhe_raportimi 0.980 0.347 7.988 0.005 2.664

Konstantja -0.931 0.238 15.273 0.000 0.394

Në rastin e modelit alternativ, vlerat nga kolona nën Wald tregojnë edhe një herë se trajnimi ka një rëndësi më të madhe sesa variabli i lidhur me faktorin e matjes dhe raportimit mbi nivelin e cilësisë së të dhënave. Po ashtu, edhe vlera konstante në modelin e dytë del më e rëndësishme se variabli i lidhur me matjen e raportimin.

Ndërkaq, rikujtojmë se vlerat e kolonës së fundit tregojnë sa rritet mundësia e SIK-ut me nivel të lartë në cilësinë e të dhënave nga rritja me 1 njësi e variablit përkatës. Kështu, në modelin e parë, rastet ku trajnimi ka vlerën 1 janë mbi 4 herë më të mundshme për të pasur nivel të lartë cilësie të dhënash, duke mos ndryshuar parametrat e tjerë në model. Në modelin e dytë, trajnimi me vlerën 1 rrit me thuajse 4 herë mundësinë që SIK përkatës të ketë nivel të lartë cilësie të dhënash, kurse kur variabli që lidhet me matjen dhe raportimin rritet me 1 njësi, kjo sjell që mundësia për SIK me cilësi të lartë të dhënash të rritet mbi 2.6 herë.

Nisur nga të dhënat e fundit, mund të themi gjithashtu se variabli i trajnimit është rreth 1.4 herë më i rëndësishëm për të përcaktuar nivelin e cilësisë së të dhënave në krahasim me variablin e lidhur me matjen dhe raportimin. Nëse do ta krahasonim me rëndësinë e vlerës konstante, ky raport do të dilte shumë herë më i madh.

Në lidhje me koeficientët pranë variablave përkatës, në mungesë të variablave të tjerë shpjegues, variabli i trajnimit del se rrit shumë mundësinë për SIK-un me nivel të lartë të cilësisë së të dhënave. Një ndikim disi më pak të rëndësishëm ka ky faktor kur modeli plotësohet nga variabli i lidhur me matjen dhe raportimin. Variabli i fundit ndërkaq ka ndikim shumë të rëndësishëm gjithashtu, që përkthehet me një probabilitet gati 100% të rastit me SIK me nivel të lartë të cilësisë së të dhënave.

Vlera konstante ka një koeficient negativ në të dyja rastet, që tregon për një ndikim të kundërt të saj në lidhje me nivelin e lartë të cilësisë së të dhënave, që bëhet

Page 72: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

63

më i rëndësishëm kur në model përfshihet dhe variabli i lidhur me matjen dhe raportimin.

4.6. Faktorët më të mirë sipas teknikës së pemëve të vendimit.

Një pemë vendimi emërtohet kështu pasi ngjan me një pemë, ku secila nyje përfaqëson një test për një atribut dhe secila degë përfaqëson një rezultat nga testi. Në këtë mënyrë, pema përpiqet të ndajë vrojtimet në nënbashkësi reciprokisht përjashtuese.

Ka disa algoritme ndarjeje për pemët e vendimit. Një algoritëm mjaft i njohur për realizimin e pemëve të vendimit, bazuar në ndarje njëfaktoriale, është algoritmi ID3 me një version të përmirësuar të tij, C4.5. Metodat lakmitare (greedy) të kërkimit, ku përfshihet realizimi dhe shkurtimi7 i strukturave të pemëve të vendimit, janë pjesë e algoritmeve të mësipërme me synimin për të eksploruar të gjithë hapësirën e modeleve të mundshme.

4.6.1. Koncepte kryesore

Algoritmi ID3 nis me të gjithë kampionët e trajnuar në nyjën rrënjë të pemës. Zgjidhet një atribut për të ndarë kampionët e mësipërm. Për çdo vlerë atributi një degë e re krijohet, dhe nënbashkësia përkatëse që ka vlerën e atributit të specifikuar tek nyja lëviz drejt nyjës bijë të sapokrijuar. Algoritmi aplikohet rekursivisht tek çdo nyje bijë derisa të gjithë kampionët në një nyje t’i përkasin një klase të vetme. Çdo rrugë drejt gjethes në pemën e vendimit përfaqëson një rregull klasifikimi. Këtu duhet tëmarrim parasysh që vendimi kritik në këtë algoritëm që krijon pemë vendimi është zgjedhja e atributit të duhur në një nyje. Përzgjedhja e atributeve në algoritmet ID3 dhe C4.5 bëhet mbështetur në minimizimin e një parametri entropie të informacionit të aplikuar tek shembujt në një nyje.

Metoda sipas teorisë së informacionit kërkon minimizimin e numrit të testeve që do ta lejojnë një nënbashkësi të klasifikohet në një bazë të dhënash. Pjesa e përzgjedhjes së atributit në algoritmin ID3 mbështetet në supozimin se kompleksiteti i pemës së vendimit është i lidhur ngushtë me sasinë e informacionit të dërguar nga vlera e atributit të dhënë.

Një heuristikë e mbështetur tek informacioni përzgjedh atributin që ofron masën më të lartë të informacionit të fituar, thënë ndryshe atributi që minimizon informacionin e nevojshëm në nënpemën përkatëse për të klasifikuar kampionin e marrë në shqyrtim.

Algoritmi C4.5 zgjeron fushën e klasifikimit nga atribute kategorike në numerike. Ky ndryshim favorizon atributet që i ndajnë të dhënat në nënbashkësi që

7Disa nga degët e pemëve të vendimit mund të shfaqin parregullsi gjatë fazës së trajnimit, p.sh. vlera të gabuara apo të largëta. Në këto raste, bëhet shkurtimi i pemëve, që përfshin heqjen e nyjeve ndarëse në një mënyrë që nuk ndikon në mënyrë të rëndësishme mbi nivelin e saktësisë së modelit;

Page 73: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

64

kanë entropi klase të ulët, thënë ndryshe shumica e elementeve në të i përkasin të njëjtës klasë. Algoritmi zgjedh atributin që ofron nivelin maksimal të diskriminimit midis klasave.

Përpara se të zbatohen disa nga metodat, duhet të plotësohen disa kërkesa kyç: Përshkrimi i vlerave të atributeve – të dhënat që do analizohen duhet të kenë

vlera të shprehura qartë, pra çdo informacion mbi një element duhet të shprehet brenda një grupi të caktuar karakteristikash. Çdo atribut duhet të ketë vlera diskrete ose numerike, por atributet nuk duhet të ndryshojnë nga një rast në tjetrin. Ky kufizim përjashton nga bashkësia fushat ku elementet kanë një strukturë të ndryshueshme;

Klasa të parapërcaktuara – kategoritë tek të cilat elementet duhet të caktohen duhet të jenë përcaktuar paraprakisht. Kjo njihet ndryshe si mësim i supervizuar;

Klasa diskrete – klasat duhet të dallohen qartë, pasi një element është ose nuk është pjesë e një klase të caktuar. Pritet që të ketë shumë më tepër elemente sesa klasa;

Të dhëna të mjaftueshme – përgjithësimi i dhënë në formën e pemëve të vendimit procedon duke identifikuar modele tek të dhënat. Metoda është e vlefshme nëse një numër i mjaftueshëm modelesh të qarta mund të dallohet nga koincidencat e rastit. Meqë ndarja bëhet përgjithësisht nga testet statistikore, atëherë duhet të ketë një numër të mjaftueshëm të elementeve për t’i bërë këto teste të efektshme. Sasia e të dhënave të kërkuara ndikohet nga faktorë të tillë si numri i veçorive dhe klasave dhe kompleksiteti i modelit të klasifikimit. Ndërsa numri i faktorëve rritet, më shumë të dhëna do duhen për të krijuar një model të besueshëm.

Modelet logjike të klasifikimit – këto metoda krijojnë vetëm klasifikues të tillë që mund të shprehen si pemë vendimi apo rregulla vendimi. Këto forma kufizojnë përshkrimin e një klase në një shprehje logjike, të përbërë nga pohime mbi vlerat e atributeve të veçanta. Disa programe mund të kërkojnë atribute me peshë ose kombinimet e tyre aritmetike për të pasur një përshkrim të besueshëm të klasave. Në këto raste, modelet logjike bëhen shumë komplekse dhe, në përgjithësi, nuk janë të efektshme.Pjesa më e rëndësishme e këtij algoritmi është procesi i gjenerimit të një peme

fillestare vendimi nga një bashkësi elementesh trajnimi. Si rezultat, algoritmi gjeneron një klasifikues në formën e një peme vendimi, një strukturë me dy lloje nyjesh: një gjethe, që tregon klasën, ose një nyje vendimi që specifikon testet për t’u realizuar mbi një vlerë të vetme atributi, me një degë dhe nënpemë respektive për çdo rezultat të mundshëm të testit.

Struktura e algoritmit të mësipërm mbështetet tek metoda CLS e Hunt për realizimin e një peme vendimi me një bashkësi T elementesh për trajnim.

Nëse supozojmë se një test ka n rezultate të ndryshme për një atribut të caktuar, kjo e ndan bashkësinë T në n nënbashkësi T1, T2, …, Tn. Për këtë rast, i vetmi informacion që kemi është shpërndarja e klasave brenda T dhe nënbashkësitë Ti. Nëse

Page 74: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

65

S është një bashkësi elementesh çfarëdo, atëherë frek (Ci, S) tregon numrin e elementeve brenda S që i përkasin klasës Ci (një nga k klasat e mundshme), kurse ∣S∣tregon numrin e elementeve në bashkësinë S.

Tani le të përdorim një funksion të quajtur Vlera për të zgjedhur atributin që duhet testuar, bazuar në konceptin e entropisë. Formula më poshtë jep mënyrën e llogaritjes së entropisë për bashkësinë S (bitet janë njësia e matjes):

Info(S) = −∑ 〖???? ? (? ?〗,?|? | ? ∙ log? ???? ? (? ?,? )

|? | ????? ? (4.4)

Pasi T është ndarë në përputhje me n rezultatet e atributit të përdorur gjatë testit X, mund të përcaktojmë funksionin si shumë mesatare mbi nënbashkësitë:Info? (T) = −∑ ((|T?|/|T|??? ? ∙ Info(T?)) (4.5)

Ndërkaq funksioni më poshtë mat informacionin e fituar nga ndarja e bashkësisë T në përputhje me testin X:Vlera(X) = Info(T) − Info? (T) (4.6)

Kriteri Vlera zgjedh një test X për të maksimizuar Vlera(X), thënë ndryshe ky kriter do të zgjedhë një atribut që arrin vlerën më të lartë të informacionit të fituar.

Gjithsesi, nëse kriteri i mësipërm ka pasur rezultate të mira në realizimin e pemëve të vendimit kompakte, ka një problem të madh: një anim të fortë në rastet kur testet nxjerrin shumë rezultate. Një zgjidhje u gjet me disa nga llojet e normalizimit. Në analogji me funksionet më sipër, u bënë ndryshimet më poshtë:

Split − Info(X) = −∑ (?|? ?||? | ? log? (|T?|/|T|??? ? )) (4.7)

Kjo përfaqëson informacionin potencial të gjeneruar pas ndarjes së bashkësisë T në n nënbashkësi Ti. Nga formula e mësipërme, mund të arrijmë në një formulë të re për funksionin e informacionit të fituar si vijon:Dobia(X) = Vlera(X)/ Split-info(X) (4.8)

Kjo formulë e re për funksionin Vlera shpreh pjesën e informacionit të krijuar nga ndarja që është e dobishme, thënë ndryshe që ndihmon në klasifikim. Kriteri i ri Dobia zgjedh një test që maksimizon raportin e përshkruar më sipër.

Ky kriter është mjaft i rëndësishëm dhe bën një zgjedhje më të mirë të testit sesa kriteri Vlera.

Një procedurë e ngjashme mund të bëhet me teste të tjera në pemën e vendimit. Në vend të matjes së funksionit Vlera, vlera maksimale e funksionit Dobiado të jetë kriteri për zgjedhjen e atributit, bashkë me një test për të ndarë elementet në nënbashkësi. Pema përfundimtare e vendimit që përdor këtë kriter të ri për ndarjen e bashkësisë së elementeve do të jetë më kompaktja.

Teknika që shfrytëzon avantazhet e pemës së vendimit C4.5 do të jetë pjesë e studimit në vijim, duke iu nënshtruar përmirësimeve të rastit, me qëllim rritjen e saktësisë së modelit parashikues të krijuar në lidhje me faktorët që përcaktojnë nivelin e cilësisë së të dhënave në SIK.

Page 75: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

66

4.6.2. Zbatimi i teknikës ndaj të dhënave të mbledhura

Në seksionin e mëparshëm trajtuam metodën e regresionit logjistik dhe e zbatuam atë në të dhënat e marra nga seksioni i pyetjeve mbi nivelin e perceptuar të realizimit për secilin faktor. Rezultatet kryesore treguan se,ndër shtatë faktorët epërfshirë në modelin përfundimtar, më i rëndësishmi ishte ai i lidhur me trajnimin.

Edhe në rastin e zbatimit të teknikës C4.5, në kategorinë e pemëve të vendimit, do të analizohen të dhënat e të njëjtit seksion, për të njëjtët faktorë të shprehur.

Nisur nga analiza paraprake e bërë në seksionet e mëparshme, për modelin fillestar duhet të përfshijmë variablat e lidhur me faktorët e mëposhtëm:

Angazhimi i personelit drejtues Trajnimi

Vizioni strategjik

Politikat dhe standardet Karakteristikat e SIK-ut

Matja dhe raportimi Analiza kosto/përfitim

Renditja e mësipërme është bërë duke marrë parasysh renditjen paraprake të tyre në seksionet e pyetësorit. Pema e vendimit e realizuar në bazë të tyre jepet në figurën 4.1.

Në bazë të saj, mund të thuhet se variabli më i rëndësishëm sipas kësaj metode është ai i lidhur me trajnimin. Ky variabël pra ndan më mirë rastet ku cilësia e të dhënave është në nivel të lartë ndaj atyre ku niveli i cilësisë së perceptuar është i ulët. Ndërkaq, renditja e faktorëve sipas rëndësisë në lidhje me pemën e vendimit C4.5është si vijon:

Trajnimi

Karakteristikat e SIK-ut

Angazhimi i personelit drejtues

Vizioni strategjik Matja dhe raportimi

Analiza kosto/përfitim Politikat dhe standardet

Renditja e mësipërme është bërë duke u nisur nga niveli i faktorit ndarës përkatës – sa më lart në pemë, aq më i rëndësishëm është – dhe më tej në bazë të normës së parashikimit në lidhje me rastet me nivel të lartë të cilësisë së të dhënave, bashkë me numrin e rasteve në total të parashikuar saktë.

Në lidhje me saktësinë në parashikim, të dhënat jepen në tabelën 4.14. Modeli i mësipërm vlerësohet se mundi të klasifikojë saktë 62 raste me nivel të lartë të cilësisë së të dhënave (rreth 68% në tërësi), dhe gjithashtu 68 raste me nivel të ulët të cilësisë së perceptuar të të dhënave (rreth 75% në tërësi).

Page 76: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

67

Figura 4.1. Pema e vendimit C4.5 për 7 faktorë

Saktësia e përgjithshme tregon se ky model është më i mirë nga ai i regresionit logjistik deri tani, me mbi 71% të rasteve që parashikohen saktë, ose 130 nga 182 raste gjithsej.

Tabela 4.14. Tabela e klasifikimit - Modeli C4.5 me 7 faktorë

Vlerat e vrojtuara

Vlerat e parashikuara

Niveli i cilësisë Saktësia në përqindjeI lartë I ulët

Niveli i cilësisë

I lartë 62 29 68.1

I ulët 23 68 74.7Përqindja e plotë 71.4

Page 77: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

68

Meqë suksesi i ngjarjes parashikohet në mënyrë më pak të saktë sesa mossuksesi përkatës, vlerësohet se gabimi i llojit I në parashikimin e rezultateve është më i lartë nga gabimi i llojit II, çka e bën këtë model jo shumë të mirë nga ky këndvështrim.

4.6.3. Interpretimi i variablave të modelit

Në lidhje me modelin e paraqitur me anë të figurës 4.1, del se variabli që klasifikon më mirë rastet kur kemi të bëjmë me një nivel të lartë apo të ulët cilësie të dhënash në SIK lidhet pikërisht me faktorin e trajnimit. Ky faktor del shumë i rëndësishëm pra dhe shërben si një tregues i mirë për të përcaktuar dhe cilësinë e të dhënave në SIK që do të përdoret në vijimësi, megjithatë ashtu siç mund të kuptohet, nuk është i mjaftueshëm. Klasifikimi mund të përmirësohet nëse merren parasysh dhe faktorë të tjerë, të përfshirë në listën e përmendur në seksionin e mëparshëm.

Tabela 4.15. Renditja e variablave sipas raportit sukses/dështim në parashikim

Nr Variabli shpjeguesRaporti midis dy

kategorive1 Trajnimi 0.672 Vizioni strategjik 0.65

3 Analiza kosto/përfitim 0.62

4 Politikat dhe standardet 0.62

5 Matja dhe raportimi 0.60

6 Marrëdhëniet e mira në punë 0.60

7 Kontrolli mbi input-et 0.608 Përmirësimi i vazhdueshëm 0.609 Karakteristikat e SIK-ut 0.6010 Struktura organizative 0.59

11 Auditimi i SIK-ut 0.59

12 Angazhimi i personelit drejtues 0.5913 Puna në grup 0.5914 Mjedisi i punës 0.58

15 Përqendrimi te përdoruesi 0.58

16 Kontrollet e brendshme 0.58

17 Njohja me SIK-un dhe cilësinë 0.5618 Kontrolli i cilësisë 0.56

19 Aftësitë e personelit 0.56

20 Menaxheri për cilësinë e të dhënave 0.53

Kështu, për variablin që shërben si klasifikues i nivelit të parë, të lidhur me trajnimin, mund të thuhet se nëse trajnimi realizohet mbi nivelin mesatar (vlera e studiuar – 1), atëherë niveli i cilësisë së të dhënave në SIK klasifikohet saktësisht si i

Page 78: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

69

lartë në 67% të rasteve në studim, që në fakt përbën dhe probabilitetin më të lartë për këtë nivel klasifikimi, si në tabelën 4.15. Kjo është arsyeja pse trajnimi është klasifikuesi më i mirë i parë në këtë model.

Nëse trajnimi realizohet nën nivelin mesatar, ka rreth 69% mundësi (59 nga 86 raste gjithsej) që SIK përkatës të ketë një nivel të ulët të cilësisë së të dhënave tëperceptuar. Kjo tregon që faktori i trajnimit ndikon mbi cilësinë e të dhënave paksa më shumë kur është në nivele të ulëta, të paktën sipas modelit bazuar në algoritmin C4.5 të pemëve të vendimit.

E njëjta logjikë mund të ndiqet dhe me variablat e vendosur në nyjet më të poshtme të pemës së paraqitur më sipër. Ndryshimi qëndron në faktin që tani bëhet fjalë për kombinime ngjarjesh, ku mund të përcaktohet ndër të tjera sa është e mundur të klasifikohet një rast si i përfshirë në kategorinë e nivelit të lartë të cilësisë së të dhënave nëse trajnimi realizohet mbi nivelin mesatar dhe gjithashtu karakteristikat e SIK-ut perceptohen si të realizuara nën nivelin mesatar. Në këtë rast, probabiliteti do të jetë i barabartë me 47%(8 nga 17 raste gjithsej), që do të thotë mundësia që modeli të gabojë në parashikimin e një rasti të suksesshëm është shumë e lartë.

Nga krahu tjetër, në rastet kur ekziston perceptimi se trajnimi realizohet mbi nivelin mesatar dhe karakteristikat e SIK-ut realizohen po ashtu mbi nivelin mesatar, probabiliteti që rasti në fjalë të lidhet me një SIK me nivel të lartë cilësie të dhënash është rreth 71%, duke përfshirë 56 nga 79 raste gjithsej. Pra, këta faktorë përforcojnë mundësinë e suksesit të parashikimit nëse realizohen në nivel të lartë, përndryshe efekti i tyre i kombinuar është thuajse i parëndësishëm.

Më tej, në rastet e mbetura nga kombinimi i nivelit të lartë të realizuar të trajnimit dhe nivelit të ulët të karakteristikave të SIK-ut në lidhje me cilësinë e të dhënave, mund të thuhet se faktori klasifikues më i mirë është ai i lidhur me angazhimin e personelit drejtues. Nëse ky faktor realizohet mbi nivelin mesatar, ka 54% mundësi (7 nga 13 raste gjithsej) që niveli i cilësisë së të dhënave të jetë i lartë. Nëse angazhimi i personelit drejtues perceptohet së është realizuar nën nivelin mesatar, ka 75% mundësi (3 nga 4 raste gjithsej) që niveli i cilësisë së të dhënave të jetë i ulët. Edhe në këtë rast, faktori përkatës bëhet më i rëndësishëm kur realizohet nën nivelin mesatar në lidhje me nivelin e cilësisë së të dhënave. Për faktorët e tjerë mund të bëhet i njëjti arsyetim si më sipër.

Një element tjetër që mund të interpretohet nga të dhënat që jepen nga pema e projektuar e vendimeve lidhet me rastet kur modeli tregon situatë me probabilitet 0 ose 1. Ka disa raste të tilla që janë të vendosura në degëzimin e djathtë të pemës dhe që tregojnë ndikim më të rëndësishëm të një ose disa faktorëve ndaj të tjerëve.

Kombinimi i faktorëve të ndryshëm dhe rezultati me probabilitetin përkatës 0 ose 1 jepen më konkretisht në tabelën 4.16 në faqen në vijim.

Rasti i parë lidhet me kombinimin e vlerave të larta të realizimit të faktorëve të lidhur me trajnimin, angazhimin e personelit drejtues dhe analizën kosto/përfitim me vlerat e ulëta të realizimit të faktorëve të lidhur me karakteristikat e SIK-ut dhe vizionin strategjik. Në këtë kombinim, vlera e kolonës së fundit (në 2 raste nga 2 të mundshme) tregon se faktori i lidhur me analizën kosto/përfitim ndikon në mënyrë të

Page 79: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

70

rëndësishme në parashikimin e suksesit të ngjarjes, pra nivelit të lartë të cilësisë. Nga kjo mund të thuhet se ndikimi i realizimit të ulët të faktorit të lidhur me vizionin strategjik në këtë kombinim është i parëndësishëm në lidhje me përfundimin e marrë. Ky përfundim përforcohet nëse shihet se vlera e ulët e realizimit për faktorin e analizës kosto/përfitim sjell që modeli të parashikojë me një mundësi të lartë mossuksesin e ngjarjes kryesore, me 67% të rasteve të përfshira (2 nga 3 gjithsej).

Tabela 4.16. Kombinimet e variablave që sjellin probabilitet 0/1Legjenda: TR – trajnimi; KS – karakteristikat e SIK; AN – angazhimi i personelit drejtues; VS – vizioni strategjik; AKP – analiza kosto/përfitim; MR – matja e raportimi; PS – politikat e standardet e vendosura;

NrKombinimi Niveli i

cilësisëRastet gjithsejTR KS AS VS AKP MR PS

1 I lartë I ulët I lartë I ulët I lartë - - I lartë 22 I lartë I ulët I lartë I lartë I ulët I ulët I ulët I lartë 23 I lartë I ulët I lartë I lartë I lartë I ulët I ulët I ulët 24 I lartë I ulët I lartë I lartë - I ulët I lartë I lartë 25 I lartë I ulët I lartë I lartë - I lartë - I ulët 2

Rasti i dytë lidhet me kombinimin e vlerave të larta të realizimit të faktorëve të lidhur me trajnimin, angazhimin e personelit drejtues dhe vizionin strategjik me vlerate ulëta të realizimit për faktorët e lidhur me karakteristikat e SIK-ut, analizën kosto/përfitim, matjen e raportimin dhe politikat e standardet mbi cilësinë e të dhënave. Në këtë rast, kombinimi sjell si ngjarje të sigurt SIK-un me nivel të lartë të cilësisë së të dhënave. Pra, në 2 raste ku të intervistuarit kanë treguar se analiza kosto/përfitim është realizuar në një nivel të ulët, kombinimi i këtij faktori me të tjerët e përmendur sjell gjithsesi një efekt absolut pozitiv në nivelin e përgjithshëm të cilësisë së të dhënave. Madje, ky përfundim përforcohet nëse shihet kombinimi i të njëjtave vlera të faktorëve të tjerë me një vlerë të lartë të realizimit të këtij faktori. Është pikërisht rasti i tretë nga tabela më sipër,ku përfundimi tregon se nga kombinimi i këtyre vlerave ka 100% mundësi që SIK-u të ketë nivel të ulët për cilësinë e të dhënave (në 2 raste nga 2 të mundshme).

Ndërkaq, rasti i katërt lidhet me kombinimin e vlerave të larta të realizimit të faktorëve të lidhur me trajnimin, angazhimin e personelit drejtues, vizionin strategjik dhe politikat e standardet me vlerat e ulëta të realizimit për faktorët e lidhur me karakteristikat e SIK-ut dhe matjen e raportimin në lidhje me cilësinë e të dhënave. Kombinimi i këtyre faktorëve sjell si ngjarje të sigurt në 2 raste të mundshme ekzistencën e një sistemi me nivel të lartë të cilësisë së të dhënave. Pra, në 2 raste ku të intervistuarit kanë treguar se realizimi i politikave dhe standardeve mbi cilësinë e të dhënave është perceptuar si i lartë, kombinimi i këtij faktori me të tjerët e përmendur sjell një efekt absolut pozitiv në nivelin e përgjithshëm të cilësisë së të dhënave. Ky përfundim përforcohet nëse shihet se kombinimi i të njëjtave vlera të faktorëve të tjerë me një vlerë të ulët të realizimit për këtë faktor sjell rënie të probabilitetit të suksesit të ngjarjes, duke përfshirë 50% të rasteve të studiuara (në 2 raste nga 4 të mundshme).

Page 80: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

71

Pra, faktori i lidhur me politikat dhe standardet bëhet shumë i rëndësishëm për përcaktimin e nivelit të cilësisë së të dhënave në këtë kombinim faktorësh.

Rasti i fundit sjell kombinimin e vlerave të larta të realizimit të faktorëve të lidhur me trajnimin, angazhimin e personelit drejtues, vizionin strategjik dhe matjen e raportimin me vlerën e ulët të realizimit për faktorin e lidhur me karakteristikat e SIK-ut. Ka sërish dy raste kombinimi të tillë që bëjnë ngjarje të sigurt një SIK me nivel të ulët për cilësinë e të dhënave. Në këtë rast, faktori i lidhur me matjen e raportimin bëhet i rëndësishëm, pasi vlera e lartë e realizimit të tij, kur kombinohet me vlerat respektive të faktorëve të tjerë, sjell efekt absolut negativ në suksesin e ngjarjes. Rëndësia e këtij faktori në këtë kombinim shihet dhe kur vlera e realizimit të tij është e ulët, që ndikon në rritjen e suksesit të ngjarjes kryesore, ku tashmë ka 67% mundësi që SIK-u të ketë cilësi të lartë të dhënash (në 4 nga 6 raste të mundshme).

Rastet e mësipërme të kombinimeve janë vetëm 10 gjithsej, dhe ndër to mund të shihet që faktori më i rëndësishëm në klasifikimin e ngjarjeve si tërësisht të sigurta është ai i lidhur me analizën kosto/përfitim, që ndikon në plot 6 raste të tilla, sipas modelit të ndërtuar. Situatat me probabilitet 0/1 tregojnë se kombinime të caktuara të vlerave të lidhur me faktorë të caktuar japin efekte të kundërta në nivelin e cilësisë, çka mund të tregojë se modeli në fjalë nuk është tërësisht i saktë. Në lidhje me këtë, do të shqyrtohet ndërtimi i një modeli alternativ që ndjek arsyetimin e njëjtë me kapitullin e kaluar, duke dhënë përfundimet e rastit mbi saktësinë e modelit dhe rëndësinë e faktorëve të ndryshëm. Gjithsesi, modeli i mësipërm do të jetë i rëndësishëm në kontrollin e hipotezave.

4.6.3. Modeli alternativ

Njësoj si në rastin e regresionit logjistik, për modelin alternativ do të marrim parasysh procedurën fillestare të eliminimit të faktorëve që nuk kanë dallim të rëndësishëm statistikisht midis dy kategorive të nivelit të cilësisë. Në 20 variablat e mbetur, modeli i pemës së vendimit që shfrytëzon teknikën C4.5 përfshin ndër të tjera 10 variablat e lidhur me faktorët si vijon:

Trajnimi

Politikat dhe Standardet Matja dhe raportimi

Njohja me SIK dhe cilësinë e të dhënave

Menaxheri për cilësinë e të dhënave

Kontrollet e brendshme

Karakteristikat e SIK Përqendrimi te përdoruesi

Përmirësimi i vazhdueshëm

Marrëdhëniet e mira në punëRenditja e mësipërme është bërë duke marrë parasysh vendosjen e secilit

variabël në pemën e projektuar në figurën 4.2, njësoj siç u bë dhe në modelin me 7 faktorë. Në bazë të saj, mund të thuhet se variabli më i rëndësishëm sipas kësaj

Page 81: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

72

metode për 20 variablat në studim mbetet ai i lidhur me trajnimin. Ky variabël edhe në këtë rast ndan më mirë rastet ku cilësia e të dhënave është në nivel të lartë ndaj atyre ku niveli i cilësisë së perceptuar është i ulët.

Gjithashtu, mund të vërehet se 6 ndër faktorët e përmendur janë të përfshirë edhe në listën e faktorëve më të realizuar. Nga ana tjetër, shohim dhe faktorë të tillë si ai i lidhur me menaxherin për cilësinë e të dhënave, që kishte një nga vlerësimet më të ulëta në lidhje me vlerën e medianës.

Ndërkaq, në lidhje me saktësinë në parashikim, modeli i mësipërm me mbi 10 variabla shpjegues vlerësohet se mund të klasifikojë saktë 81 raste me nivel të lartë të cilësisë së të dhënave (rreth 89% në tërësi), dhe gjithashtu 69 raste me nivel të ulët të cilësisë së perceptuar të të dhënave (rreth 76% në tërësi), si në tabelën 4.17.

Saktësia e përgjithshme tregon se ky model është më i mirë nga ata të shqyrtuar deri tani, me mbi 81% të rasteve në tërësi që parashikohen saktë, apo 150 nga 182 në tërësi.

Përqindja më e lartë e suksesit të parashikuar ndaj mossuksesit tregon sërish se gabimi i llojit I në parashikimin e rezultateve është më i ulët nga gabimi i llojit II.

Tabela 4.17. Tabela e klasifikimit - Modeli C4.5 me 20 faktorë

Vlerat e vrojtuara

Vlerat e parashikuara

Niveli i cilësisë Saktësia në përqindjeI lartë I ulët

Niveli i cilësisë

I lartë 81 10 89.0

I ulët 22 69 75.8

Përqindja e plotë 81.4

4.6.4. Interpretimi i variablave të modelit alternativ

Në këtë seksion, do të analizohen ndryshimet e vërejtura në modelin alternativ, në lidhje me faktorët e rinj të përfshirë në pemën e projektuar në figurën 4.2.

Analiza për këtë model do të nisë duke marrë parasysh faktin që faktori kryesor do të mbetet ai i lidhur me trajnimin, pasi ai ndan më mirë kategoritë e nivelit të cilësisë së të dhënave.

Më tej, e nisim arsyetimin nga krahu i djathtë i degëzimit kryesor. Të dhënat tregojnë se, kur faktori i lidhur me trajnimin ka vlerë të lartë realizimi, faktori që bën ndarjen e dytë më të mirë midis kategorive tashmë është ai i lidhur me matjen e raportimin. Nga krahu tjetër, variabli që bën ndarjen më të mirë të kategorive kur trajnimi ka vlerë të ulët realizimi është ai i lidhur me politikat e standardet e vendosura për cilësinë e të dhënave.

Page 82: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

73

Figura 4.2.Pema e vendimit C4.5 për 20 faktorë

Page 83: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

74

Në degën tjetër, që i përket vlerës së ulët të realizimit për matjen e raportimin, variabli që ndan më mirë kategoritë mbetet ai i lidhur me kontrollet e brendshme. Në krahun e majtë, dega që ka si nyje vlerën e lartë të realizimit për variablin e lidhur me politikat e standardet do të plotësohet nga variabli i lidhur me ekzistencën e menaxherit për cilësinë e të dhënave. Së fundmi, në degën e mbetur do të përfshihet variabli i lidhur me njohjen e koncepteve të SIK-ut dhe cilësisë së të dhënave.

Në nivelin e katërt, në degën më të djathtë të pemës, është vendosur variabli që lidhet me faktorin e angazhimit të personelit. Ky variabël kur ka vlerë realizimi të lartë e rrit edhe më tej probabilitetin e suksesit të ngjarjes kryesore. Në degën tjetër, në rastet ku karakteristikat e SIK-ut vlerësohen si të realizuara nën nivelin mesatar, nuk ka variabël plotësues që ndan më mirë kategoritë. Më majtas, në vijim të vlerave të larta të realizimit të kontrolleve të brendshme, variabli plotësues lidhet me marrëdhëniet e mira në punë, të cilat kur realizohen mirë përforcojnë probabilitetin për SIK me cilësi të lartë të dhënash. Në rastet kur kontrollet e brendshme nuk janë realizuar mirë, variabli që plotëson më mirë lidhet me përmirësimin e vijueshëm, përfshirja e të cilit në fakt nuk përmirëson probabilitetin e suksesit të ngjarjes.

Në krahun e majtë, dega që ka si nyje vlerën e lartë të realizimit për variablin e lidhur me menaxherin e cilësisë së të dhënave do të plotësohet nga variabli i lidhur me përqendrimin tek përdoruesi. Në degën që lidhet me realizim të dobët në lidhje me këtë menaxher nuk ka variabël plotësues që ndan më mirë kategoritë. Së fundmi, në degën që përcakton realizim të lartë të njohjes me SIK-un dhe cilësinë e të dhënave, variabli plotësues lidhet me ekzistencën e menaxherit për cilësinë e të dhënave, kurse dega me realizim të ulët nuk ka variabël plotësues që ndan më mirë kategoritë.

Në nivelet që pasojnë, përveç 10 faktorëve të përmendur më lart, në pemën e projektuar përfshihen dhe faktorë të lidhur me punën në grup, auditimin e SIK-ut, kontrollin e cilësisë së të dhënave, mjedisin e punës dhe aftësitë e personelit. Në krahasim me modelin me 7 faktorë, në këtë rast janë përfshirë vetëm 5 prej tyre, duke lënë jashtë këtij modeli variablat e lidhur me analizën kosto/përfitim dhe vizionin strategjik. Pra, shumica e variablave në modelin alternativ janë jashtë listës së 7 faktorëve. Ky numër i madh faktorësh nuk është i dobishëm në drejtim të përcaktimit më të saktë të faktorëve të rëndësishëm, ama ndihmon në saktësinë në parashikim, siç mund të vihet re nga vlerat korresponduese të tabelës 4.17.

Ndërkaq, nga vlerat e paraqitura në pemën e figurës 4.2, mund të veçohen disa raste ku realizimi ose jo në nivel të lartë i një variabli të caktuar ndryshon në kah të kundërt probabilitetin e suksesit të ngjarjes kryesore. Kështu, një nga këta variabla është pikërisht ai i lidhur me ekzistencën e menaxherit për cilësinë e të dhënave. Në të gjitha degëzimet ku ky variabël përfshihet, në rastet kur realizimi i tij perceptohet në nivel të lartë, raporti midis suksesit dhe mossuksesit të ngjarjes anon nga mossuksesi. E njëjta gjë vihet re dhe në rastet ku perceptimi për të është se realizohet në nivel të ulët. Madje, ka raste kur ekzistenca e tij në nivel të lartë çon në probabilitet 0 (5 raste) për SIK me cilësi të lartë të dhënash, dhe kur realizimi i ulët i këtij variabli, pra kur nuk ka menaxher të tillë ose një post të ngjashëm, ka situatë me probabilitet 1 (në 2 raste) për SIK me cilësi të lartë të dhënash.

Page 84: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

75

E njëjta gjë mund të thuhet dhe për rastet kur në pemën e figurës 4.2 përfshihen faktorë të tillë si përmirësimi i vazhdueshëm, ku madje në 5 raste ekzistenca e një niveli realizimi të lartë sjell probabilitet 0, kurse në 3 raste të tjera ku ky proces nuk është realizuar në një nivel të mirë, probabiliteti i SIK me cilësi të lartë të dhënash është 1.

Në këtë rast, numri i kombinimeve të tilla bëhet më i madh, dhe bashkë me numrin e madh të faktorëve, sjell që ky model, pavarësisht përmirësimit në nivel saktësie të përgjithshme dhe në lidhje me parashikimin e ngjarjes së suksesshme, të mos merret parasysh.

4.7. Faktorët më të mirë sipas rrjetave nervore artificiale

4.7.1. Modeli i një neuroni artificial

Një neuron artificial është një njësi përpunimi informacioni, thelbësore për funksionimin e rrjetave nervore artificiale. Çdo model i një neuroni artificial tregon se përbëhet nga tri elemente bazë:

Një bashkësi nyjesh lidhëse nga input-e të ndryshme xi, ose sinapse, secila prej të cilave karakterizohet nga pesha ose fuqia përkatëse wki. Indeksi i parë tek pesha i referohet neuronit në fjalë, kurse indeksi i dytë i referohet input-it të sinapsit tek i cili referohet pesha. Në përgjithësi, peshat e një neuroni artificial mund të ndodhen në një rang vlerash që shkojnë nga negative në pozitive.

Një mbledhës për të bërë shumën e sinjaleve input xi të mesatarizuar me peshën (fuqinë) përkatëse wki. Kjo shumë është një kombinim linear i të gjitha input-eve përkatëse me peshat përkatëse.

Një funksion aktivizimi f për kufizimin e vlerës maksimale të output-it yk për një neuron të caktuar.Në terma matematikorë, një neuron artificial është një model abstrakt i një

neuroni natyral, dhe aftësitë e tij përpunuese janë të formalizuara duke përdorur shënimet në vijim. Kështu, së pari, ka disa input-e xi,, i = 1, …, m. Çdo input xi

shumëzohet me peshën përkatëse wki. Peshat simulojnë forcën sinaptike biologjike në një neuron natyral. Shuma e mesatarizuar e produkteve xiwki, i = 1, …, m zakonisht shënohet me net në literaturën e lidhur me rrjetat nervore artificiale:net? = x? w? ? + x? w? ? + … + x? w? ? (4.9)

Më pas, vlera e shumës së mësipërme i kalon neuronit artificial yknë formën e një funksioni çfarëdo:y? = f(net? ) (4.10)

Funksionet e aktivizimit f janë të formave të ndryshme, dhe mund të marrin vlera negative dhe pozitive, në rangun -1 deri 1.

Parimet bazë të llogaritjeve për një nyje mund të zgjerohen për një rrjet nervorartificial me disa nyje, nëse ato janë në shtresa të ndryshme. Në këtë rast përpunimi i të dhënave nga input-et është i shtresëzuar në disa nivele.

Page 85: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

76

Nga ana tjetër, mund të themi se hapat e përpunimit në nivelin e nyjës janë shumë të thjeshta. Në rrjete neuronesh artificiale shumë të ndërlidhura, detyrat përllogaritëse shumëfishohen me rritjen e numrit të nyjeve. Në këtë rast, kompleksiteti i përpunimit varet nga arkitektura e rrjetave nervore artificiale.

Arkitektura e tyre përcaktohet nga karakteristikat e një nyjeje dhe karakteristikat e lidhjes së nyjës me rrjetën në tërësi. Karakteristikat bazë të një nyjeje të vetme janë dhënë më sipër, ndërsa tani do sqarohen më shumë parametrat e lidhjes me rrjetën.

Në mënyrë tipike, një arkitekturë rrjete përcaktohet nga numri i input-eve në rrjetë, numri i output-eve, numri tërësor i nyjeve elementare që zakonisht janë elemente identike në të gjithë rrjetën dhe organizimi dhe ndërlidhjet midis tyre. Rrjetat nervore zakonisht klasifikohen në dy kategori, në bazë të tipit të ndërlidhjeve: feedforward dhe ciklike.

Rrjeta thuhet se është e tipit të parë kur përpunimi përparon nga krahu i input-it drejt krahut të output-it në mënyrë të vijueshme, pa cikle apo kthime prapa. Në një skemë të shtresëzuar të këtij tipi rrjete, nuk ka lidhje midis nyjeve të të njëjtës shtresë dhe output-et e nyjeve në një shtresë të caktuar janë gjithnjë të lidhura si input-e me nyjet në shtresat pasardhëse. Kjo skemë parapëlqehet për shkak të modularitetit të shfaqur, thënë ndryshe nyjet në të njëjtën shtresë kanë të njëjtin funksionalitet ose gjenerojnë të njëjtin nivel abstraksioni për vektorët input.

Në rastet kur ka një lidhje që kthehet prapa si fidbek dhe që formon një rrugë rrethore në një rrjetë, zakonisht me një element vonese të përfshirë, atëherë rrjeta është ciklike.

Megjithëse shumë modele rrjetash nervore janë propozuar nga të dyja kategoritë, rrjeta e tipit të parë, shumështresore dhe me një mekanizëm mësimi me kthim prapa, është më e përdorura në praktikë. Praktikisht, rreth 90% e programeve tregtare dhe industriale janë bazuar në këtë model. Nga ana tjetër, rrjetat me shumë shtresa të ndërmjetme janë më të parapëlqyera për shkak se në botën reale, problemet kanë shumë variabla të pashpjegueshëm dhe nuk janë linearë, kurse rrjetat njështresore mund të jenë të dobishme për probleme të thjeshta të lidhur me modele lineare.

Rrjetat feedforward shumështresore janë një nga klasat më të rëndësishme dhe më popullore të rrjetave nervore të përdorura në zbatimet mbi problemet e jetës reale. Në mënyrë tipike, një rrjetë e tillë përbëhet nga një sërë input-esh që përbën shtresën e input-eve të rrjetës, nga një ose disa shtresa të fshehta të nyjeve përllogaritëse dhe më pas nga shtresa output e këtyre nyjeve. Përpunimi i të dhënave bëhet në drejtimin nga input-et tek output-et nga njëra shtresë në tjetrën. Ky lloj rrjete nervore njihet më mirë si MLP, që përfaqësojnë një përgjithësim të perceptronit të thjeshtë, një rrjetë me një shtresë të vetme.

Një MLP ka tre karakteristika dalluese:

Modeli i çdo neuroni në rrjetë përfshin zakonisht një funksion aktivizimi jolinear.

Page 86: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

77

Rrjeta përmban një ose disa shtresa neuronesh të fshehura që nuk janë pjesë e input-eve apo output-eve të rrjetës. Këto nyje të fshehura i mundësojnë rrjetës të mësojë detyra komplekse dhe aspak lineare duke marrë në vijimësi, shtresë pas shtrese, vlera më kuptimplota nga modelet e input-eve.

Rrjeta shfaq një shkallë të lartë të lidhjeve nga njëra shtresë në tjetrën.MLP-të kanë gjetur zbatim mjaft të mirë në zgjidhjen e disa problemeve

shumë të vështira, duke e trajnuar rrjetën në një mënyrë të supervizuar me një algoritëm mjaft të njohur, nën emërtimin e algoritmit me kthim prapa me gabime. Ky algoritëm mbështetet në rregullin e mësimit me korrigjim gabimesh. Praktikisht, mësimi me kthim prapa me gabime konsiston në dy faza të zhvilluara përgjatë shtresave të ndryshme të rrjetës, një hap para dhe një hap prapa.

Në hapin përpara, një kampion i trajnuar (vektor input-esh) aplikohet në nyjet input të një rrjete, dhe efekti i tij shpërndahet shtresë pas shtrese përgjatë tërë rrjetës. Në fund, një bashkësi output-esh prodhohet, që është dhe përgjigjja e vetë rrjetës ndaj input-eve të marra. Gjatë hapit para, peshat e të gjithë rrjetës janë fikse.

Gjatë hapit pas, peshat tashmë janë të rregulluara në përputhje me rregullin për korrigjimin e gabimeve. Më saktësisht, përgjigjja e rrjetës zbritet nga përgjigjja esynuar, që është pjesë e një kampioni të trajnuar, për të prodhuar një sinjal gabimi. Ky sinjal shpërndahet sërish prapa përgjatë rrjetit, në kah të kundërt me lidhjet sinaptike. Peshat sinaptike rregullohen për ta rregulluar përgjigjen e rrjetës drejt përgjigjes së dëshiruar.

Teknika që shfrytëzon avantazhet e rrjetave nervore shumështresore MLP do të jetë pjesë e studimit në vijim, duke iu nënshtruar përmirësimeve të rastit, me qëllim rritjen e saktësisë së modelit parashikues të ndërtuar në lidhje me faktorët që përcaktojnë nivelin e cilësisë së të dhënave në SIK.

4.7.2. Zbatimi i teknikës MLP ndaj të dhënave të mbledhura

Në vijim të logjikës së seksioneve të mëparshme, do të trajtohen të njëjtat të dhëna, për të njëjtin grup faktorësh, të përcaktuar në bazë të analizës faktoriale.

Në pjesën në vijim do të tregohet saktësia e modelit të bazuar në teknikën MLP dhe do të interpretohen rezultatet përkatëse. Më tej, do të bëhet krahasimi me metodat e marra në studim deri tani, për të parë ndryshimet e mundshme sipas rastit.

Modeli që synohet të jetë më i përshtatshmi sipas teknikës MLP duhet të ketë në shtresën e input-eve 7 vlera, që lidhen me vlerat e faktorëve të përcaktuar nga analiza faktoriale, dhe në shtresën e output-eve 2 vlera, që lidhen me kategoritë e ngjarjes kryesore, nivelit të cilësisë së të dhënave në SIK. Midis shtresës së input-eve dhe asaj të output-eve mund të ketë ose jo shtresa të tjera të fshehura të ndërmjetme, që mund të përmirësojnë saktësinë e modelit.

Ndër të gjitha modelet e mundshme, u gjet që modeli më i mirë duhet të kishte dhe një shtresë të ndërmjetme, të përbërë nga 6 nyje, i cili paraqitet në figurën 4.3.

Page 87: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

78

Figura 4.3. Modeli MLP me 6 nyje të ndërmjetme

Ky model shfaqi një nivel saktësie mbi 79%, duke qenë modeli më i mirë ndër ata të shqyrtuar deri tani, ku 144 raste nga 182 në tërësi u klasifikuan në mënyrë të saktë. Përqindja midis rasteve me nivel të lartë të cilësisë së të dhënave të përcaktuar në mënyrë të saktë dhe rasteve me nivel të ulët ishte plotësisht identike, me 72 raste të përcaktuara saktë nga 91 në tërësi për secilën kategori. Kjo tregon që dhe norma e gabimit të llojit I është e barabartë me normën e gabimit të llojit II, rreth 21% për secilin rast, siç shihet në tabelën 4.18.

Tabela 4.18. Tabela e klasifikimit - Modeli MLP

Vlerat e vrojtuara

Vlerat e parashikuara

Niveli i cilësisë Saktësia në përqindjeI lartë I ulët

Niveli i cilësisë

I lartë 72 19 79.1

I ulët 19 72 79.1

Përqindja e plotë 79.1

4.7.3. Interpretimi i variablave të modelit

Teknika e perceptronëve shumështresore nuk jep përfundime mbi rëndësinë e secilit faktor në përcaktimin e kategorisë ku përfshihet variabli kryesor. Ky arsyetim vlen për të gjithë format e modeleve të përfshira në klasën e rrjetave nervore, pasi qëllimi kryesor i teknikave në fjalë lidhet me përcaktimin me një saktësi sa më të lartë të vlerave për variablin kryesor, pa bërë dallime apo krahasime mes atyre që përcaktojnë vlerën përkatëse.

Kjo mangësi duhet të tejkalohet, pasi, në përputhje me objektivat e studimit, duhet të analizohet rëndësia apo pesha e variablave në saktësinë e përgjithshme të modelit. Kjo analizë më tej do të ndihmojë dhe në krahasimin e rezultateve të kësaj

Page 88: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

79

metode me metodat e studiuara deri tani, duke përfshirë dhe analizën statistikorepërkatëse.

Ajo që mund të shërbejë si një mënyrë e mirë për të vlerësuar peshën e secilit prej 7 faktorëve lidhet me përcaktimin e efektit të veçuar të secilit prej tyre në saktësinë e modelit përfundimtar. Zbatimi i kësaj procedure për secilin nga faktorët më vete, sjell renditjen e shprehur më poshtë:

Trajnimi

Politikat dhe standardet

Analiza kosto/përfitim

Vizioni strategjik

Karakteristikat e SIK-ut

Matja dhe raportimi

Angazhimi i personelit drejtuesNëse analizohet secili nga faktorët më vete, mund të shihet se, në përputhje me

rezultatet nga metodat e studiuara deri tani, faktori që ka peshën më të lartë në saktësinë e modelit lidhet me trajnimin e punonjësve. Ky faktor bëhet shumë i rëndësishëm pasi, nëse ai nuk përfshihet në model, saktësia e modelit bie në 70.88% në tërësi, duke parashikuar saktë vetëm 129 raste nga 182 të tilla.

Më tej, faktori i dytë me peshën më të rëndësishme në saktësinë e modelit, në mënyrë të ngjashme me rezultatet e marra nga analiza e faktorëve me realizimin më të mirë, është ai i lidhur me politikat dhe standardet në lidhje me cilësinë e të dhënave. Kjo renditje e këtij faktori nuk përputhet pra me rezultatet e metodave të tjera të zbatuara, megjithatë mund të thuhet se mungesa e këtij faktori bën që saktësia e modelit me 6 faktorë të mbetur të mos jetë më e lartë se 71.4% në tërësi, duke parashikuar në mënyrë të saktë vetëm 130 nga 182 raste të studiuara.

Në vijim, faktori tjetër me peshë më të rëndësishme nga të tjerët, në bazë të të njëjtës procedurë, është ai i lidhur me analizën kosto/përfitim mbi cilësinë e të dhënave. Kjo renditje përbën rezultatin më të mirë për këtë faktor ndër të gjitha metodat e studiuara, duke përsëritur rezultatet e marra nga metoda e regresionit logjistik, ku koeficienti Wald solli të njëjtin rezultat. Mungesa e faktorit të lidhur me analizën kosto/përfitim në modelin përfundimtar bën që saktësia e modelit të jetë 71.4%, duke përcaktuar me saktësi vetëm 130 raste nga 182 në tërësi. Siç mund të shihet, vlerat e parashikimit janë të njëjta në dy faktorët e fundit të përmendur, megjithatë renditja është bërë në këtë mënyrë sepse faktori i lidhur me politikat dhe standardet ka dhënë rezultate më të mira në shumë prova të realizuara me metodën MLP në krahasim me faktorin e lidhur me analizën kosto/përfitim.

Për tre faktorët e renditur pas atij të lidhur me analizën kosto/përfitim mund të bëhet e njëjta analizë, pasi renditja e tyre në këtë formë nuk përsërit asnjë nga rezultatet e marra nga metodat e tjera të studiuara. Kështu, faktori i lidhur me vizionin strategjik ka këtë peshë në saktësinë e modelit vetëm në rast se shohim rezultatet e metodës C4.5. Faktori tjetër, ai i lidhur me karakteristikat e SIK-ut, nuk përsërit asnjë nga renditjet sipas metodave të tjera, madje duhet të theksojmë që rëndësia e këtij faktori sipas metodave të mëparshme rezulton dukshëm më e lartë. Faktori pasues, i

Page 89: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

80

lidhur me matjen dhe raportimin, ka renditje thuajse të ngjashme në metodat e tjera të studiuara deri tani, gjithsesi procedura e zbatuar në këtë rast jep për këtë faktor një peshë më pak të rëndësishme nga rastet e mëparshme. Mungesa e secilit prej këtyre faktorëve në modelin përfundimtar bën që saktësia e përcaktimit të nivelit të cilësisë të dhënave të jetë në nivelin e 73.6%, përndryshe përfshinte 134 raste nga 182 në tërësi. Renditja e këtyre tre faktorëve në këtë mënyrë shpjegohet me faktin se në përgjithësi, në të gjitha provat e realizuara, faktori i lidhur me vizionin strategjik ishte i renditur më mirë nga dy të tjerët, dhe më pas faktori që renditej më mirë ndër të tre ishte ai i lidhur me karakteristikat e SIK-ut.

Së fundmi, faktori i renditur i fundit, duke përsëritur vetëm renditjen e tij në rezultatet e marra nga regresioni logjistik, është ai i lidhur me angazhimin e personelit drejtues. Kjo renditje pra është më e ulët nga pjesa më e madhe e metodave të studiuara deri tani, duke i dhënë një rëndësi më të ulët këtij faktori në raport me të tjerët. Mungesa e faktorit të lidhur me angazhimin e personelit drejtues në modelin përfundimtar bën që përcaktimi me sukses i nivelit të cilësisë së të dhënave të arrihet në 74.2% të rasteve, duke përfshirë kështu 135 nga 182 raste në tërësi.

Page 90: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

81

KAPITULLI 5: VLERËSIMI DHE NDRYSHIMI I MËTEJSHËM I TEKNIKAVE DATA MINING

Në kapitullin e mëparshëm, për të përcaktuar saktësinë në parashikim të secilës nga teknikat, është përdorur i gjithë kampioni me të dhëna, pra 182 nga 182 rastet në studim.

Në raste të tilla, kur i gjithë kampioni i të dhënave përdoret për të trajnuar një model të caktuar, mund të hasen probleme. Shpesh modele të tilla kanë prirjen për të mbajtur mend rezultatet në vend që të mësojnë logjikën përkatëse (Kirkos dhe autorë të tjerë, 2009).

Ky proces e vështirëson mjaft pjesën e parashikimit kur modeli ballafaqohet me vlera të reja, të pastudiuara më parë. Modeli arrin një nivel të lartë performance me bashkësinë e të dhënave të trajnimit (të dhënat fillestare), ndërsa me bashkësinë e re, performanca ulet ndjeshëm.

Ky ndryshim në fakt duhet të merret parasysh, sa kohë që suksesi më i madh i këtyre modeleve arrihet kur ata parashikojnë me një normë përqindjeje të konsiderueshme probleme klasifikimi me të dhëna nga jeta reale. Ndaj, testi më i mirë për këto modele është analizimi i të dhënave të reja, të pastudiuara më parë.

Për këtë arsye, përpara se të trajtohen mënyrat si mund të përmirësohen modelet e studiuara deri tani, së pari duhet bërë vlerësimi i secilit model.

5.1. Vlerësimi i modeleve të studiuara

Procesi i vlerësimit të modeleve të ndërtuara me anë të teknikave Data Mining përbën një nga çastet më të rëndësishme në krijimin e modeleve të suksesshme përkatëse.

Ideja bazë e vlerësimit të modelit është ndarja e bashkësisë së të dhënave në të paktën dy nënbashkësi. Njëra nga nënbashkësitë përdoret për të trajnuar modelin. Pasi modeli trajnohet, ai do të duhet të përcaktojë kategorinë e saktë të të dhënave nga nënbashkësia e dytë. Më tej, rezultatet e marra nga klasifikimi i nënbashkësisë së dytë krahasohen me të dhënat reale, duke na dhënë një normë përqindjeje të re për saktësinë e modelit.

Vlerësimi i modelit bën që modeli të mund të klasifikojë në mënyrë të saktë të dhënat e reja, duke mundur të realizojë diçka më të vështirë në krahasim me thjesht analizimin e të dhënave ekzistuese për lidhjet midis tyre.

Ka disa metoda të njohura për vlerësimin e modeleve, duke përfshirë këtu ndarjen e të dhënave në nënbashkësinë e trajnimit dhe në atë të vlerësimit, por edhe vlerësimin e kryqëzuar x-fish, ku x është një vlerë numerike çfarëdo. Në këtë punim, do të shfrytëzohen të dyja këto metoda për vlerësimin e secilit model të ndërtuar.

Vlerësimi i kryqëzuar x-fish funksionon sipas kësaj procedure (Han dheKamber, 2000):

1. Bashkësia e të dhënave ndahet në x pjesë

Page 91: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

82

2. Për çdo pjesë, bëhet trajnimi duke përfshirë x-1 pjesë dhe më pas testimi për pjesën e mbetur

3. Vlerësohet performanca përmes llogaritjes së mesatares së përgjithshmeNë pjesën në vijim, do të përdoret së pari metoda e vlerësimit të kryqëzuar 10-

fish, si një nga metodat më të përhapura për këtë proces. Më tej, si alternativë e dytë do të shihet vlerësimi i kryqëzuar 6-fish, që shkon në përputhje me “rregullin e artë”, sipas të cilit çdo nënpjesë duhet të përmbajë të paktën 30 raste me të dhëna, në mënyrë që të mund të kalojmë lehtësisht nga shpërndarja binomiale në shpërndarje normale (Flach, 2013). Për 182 raste në dispozicion, numri i nënbashkësive me të paktën 30 raste secila është 6. Së fundmi, do të analizohen dhe rezultatet e marra nga vlerësimi i kryqëzuar 182-fish, ku 181 raste përfshihen në trajnim dhe testimi bëhet mbi rastin e mbetur.

Nga ana tjetër, metoda e ndarjes së të dhënave krijon dy nënbashkësi, ku e para shfrytëzohet për të trajnuar të dhënat, dhe modeli më tej testohet duke shfrytëzuar nënbashkësinë e dytë. Nuk ka një ndarje të paracaktuar që përdoret për këtë metodë, por një nga më të përdorurat është ajo që i ndan të dhënat e kampionit në raportin 2:1, ku caktohet se 2/3 e të dhënave trajnohen dhe për pjesën e mbetur modeli testohet. Kjo mënyrë ndarjeje do të shfrytëzohet dhe në pjesën në vijim.

Duhet theksuar që baza e funksionimit të të dyja grupeve të metodave është e njëjtë, por tek vlerësimi i kryqëzuar merren të gjitha kombinimet e mundshme midis grupeve përkatëse dhe rezultati është një mesatare tipike, kurse në rastin e metodës së vlerësimit me ndarje, merret një kombinim i vetëm çfarëdo. Ky dallim mund të jetë i rëndësishëm edhe në lidhje me rezultatet përfundimtare.

5.1.1. Vlerësimi i kryqëzuar 10-fish

Kjo metodë dhe të tjerat në vijim do të zbatohen në të dhënat e marra nga seksioni i pyetjeve mbi nivelin e realizimit të faktorëve të lidhur me cilësinë e të dhënave në SIK, ashtu siç është vepruar me teknikat Data Mining të studiuara në kapitujt e mëparshëm.

Vlerësimi i kryqëzuar 10-fish i zbatuar mbi teknikën e regresionit logjistik bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë thuajse 61% të rasteve, thënë ndryshe në 111 nga 182 raste në tërësi. Niveli i saktësisë në këtë rast, ashtu siç pritej, është më i ulët krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Nëse do të shihen rezultatet më në detaj, mund të thuhet se ndarja e rasteve të përcaktuara saktë, midis atyre me nivel të lartë të cilësisë së të dhënave dhe atyre me nivel të ulët, është thuajse e barabartë (56 kundrejt 55), ku një vlerë disi më e lartë i përket rasteve të lidhura me suksesin e ngjarjes. Kjo sjell që, në rastin e regresionit logjistik, pas vlerësimit të kryqëzuar 10-fish, gabimi i llojit I të jetë më i ulët se gabimi i llojit II, 38.5% kundrejt 39.6%, që gjithsesi janë vlera shumë të larta.

Kur zbatohet mbi teknikën e pemëve të vendimit sipas algoritmit C4.5, vlerësimi i kryqëzuar 10-fish sjell rezultate të ngjashme. Në këtë rast, teknika mund të

Page 92: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

83

përcaktojë në mënyrë të saktë thuajse 60% të rasteve, thënë ndryshe në 110 nga 182 raste në tërësi. Njësoj si më sipër, sërish niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Madje, rënia në këtë rast është shumë më e madhe si normë përqindjeje. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë rreth 63% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 57 nga 91 raste në tërësi, dhe gjithashtu rreth 58% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 53 nga 91 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i ulët nga gabimi i llojit II, më konkretisht 37% kundrejt 42% në tërësi. Këto vlera janë sërish shumë të larta, megjithatë gabimi i llojit I zvogëlohet gjithnjë e më shumë.

Së fundmi, rrjetat nervore shfaqin vlera të tjera kur mbi to zbatohet vlerësimi i kryqëzuar 10-fish. Kështu, teknika MLP mund të përcaktojë në mënyrë të saktë mbi58% të rasteve, duke përfshirë 106 nga 182 raste në tërësi. Në këtë rast, sërish niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në kapitullin e mëparshëm. Gjithashtu, vlera më sipër është norma më e ulët e saktësisë për këtë metodë vlerësimi. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë rreth 56% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 51 nga 91 raste në tërësi, dhe gjithashtu rreth 60% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 55 nga 91 rastet e mbetura. Kështu, gabimi i llojit I është më i lartë nga gabimi i llojit II, më saktë 44% kundrejt rreth 40% në tërësi, që tregon se ky model përcakton me sukses më të lartë kategorinë e nivelit të ulët të cilësisë së të dhënave në SIK.

Në mënyrë të përmbledhur, vlerësimi i kryqëzuar 10-fish përmes tre teknikave të sipërpërmendura ofron modele që mund të parashikojnë në mënyrë të saktë mesatarisht 60% të rasteve në dispozicion, ku parashikimin më të saktë e jep teknika e regresionit logjistik, kurse parashikimin më pak të saktë e jep MLP e rrjetave nervore. Në dy nga rastet, gabimi i llojit të parë është më i ulët nga gabimi i llojit të dytë, çka do të thotë që vlerësimi i kryqëzuar 10-fish mundëson një parashikim më të saktë për nivelin e ulët të cilësisë së të dhënave në SIK kur zbatohet një nga teknikat më sipër. Raporti midis rasteve të përcaktuara saktë midis dy kategorive kryesore është thuajse i barabartë, ashtu si raporti i të dhënave në studim.

5.1.2. Vlerësimi i kryqëzuar 6-fish

Vlerësimi i kryqëzuar 6-fish i zbatuar mbi teknikën e regresionit logjistik bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë rreth 65% të rasteve, thënë ndryshe 118 nga 182 raste në tërësi. Niveli i saktësisë në këtë rast është paksa më i ulët krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Duke u shprehur më në detaje, mund të thuhet se ndarja e rasteve të përcaktuara saktë, midis atyre me nivel të lartë të cilësisë së të dhënave dhe atyre me nivel të ulët, është edhe në këtë rast thuajse e barabartë (58 kundrejt 60), ku një vlerë disi më e lartë i përket rasteve të lidhura me nivelin e ulët të cilësisë së të dhënave në SIK. Kjo sjell që, në rastin e regresionit logjistik, pas vlerësimit të

Page 93: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

84

kryqëzuar 6-fish, gabimi i llojit I të jetë më i lartë se gabimi i llojit II, më konkretisht 36% kundrejt 34%.

Vlerësimi i kryqëzuar 6-fish, kur zbatohet mbi teknikën e pemëve të vendimit sipas algoritmit C4.5, sjell rezultate më të ulëta. Në këtë rast, teknika mundi të përcaktojë në mënyrë të saktë mbi 63% të rasteve, thënë ndryshe 115 nga 182 raste në tërësi. Edhe në këtë rast niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Sërish, ndryshimi në këtë rast është më i madh në krahasim me regresionin logjistik. Ndërkaq, teknika mundi të përcaktojë në mënyrë të saktë rreth 65% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 59 nga 91 raste në tërësi, dhe gjithashtu rreth 62% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 56 nga 91 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i ulët nga gabimi i llojit II, më konkretisht rreth 35% kundrejt 38% në tërësi.

Së fundmi, vlerësimi i kryqëzuar 6-fish, i zbatuar mbi rrjetat nervore jep rezultate edhe më të ulëta. Më konkretisht, teknika MLP mundi të përcaktojë në mënyrë të saktë thuajse 60% të rasteve, duke përfshirë 109 nga 182 raste në tërësi. Sërish niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në kapitullin e mëparshëm. Gjithashtu, vlera më sipër është norma më e ulët e saktësisë për vlerësimin e kryqëzuar 6-fish. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë mbi 59% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 54 nga 91 raste në tërësi, dhe gjithashtu mbi 60% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 55 nga 91 rastet e mbetura. Vihet re kështu një ndryshim jo shumë i madh midis normës së gabimit të llojit I dhe gabimit të llojit II, më saktë 41% kundrejt 40% në tërësi, që tregon se ky model, njësoj si regresioni logjistik më sipër, përcakton me sukses më të lartë kategorinë e nivelit të ulët të cilësisë së të dhënave në SIK.

Duke përmbledhur rezultatet e mësipërme, vlerësimi i kryqëzuar 6-fish mundëson parashikimin në mënyrë të saktë për mesatarisht 63% të rasteve në dispozicion, ku parashikimin më të saktë e jep teknika e regresionit logjistik, kurse parashikimin më pak të saktë e jep teknika MLP nga rrjetat nervore. Vihet re pra një saktësi më e lartë në parashikim, nga ana tjetër teknikat e studiuara japin rezultate të ndryshme në krahasim me vlerësimin e kryqëzuar 10-fish. Ndërkaq, gabimi i llojit të parë është më i ulët nga gabimi i llojit të dytë në vetëm njërën nga teknikat, çka do të thotë që vlerësimi i kryqëzuar 6-fish mundëson një parashikim më të saktë për ngjarjen e lidhur me nivelin e ulët të cilësisë së të dhënave në SIK në dy nga tre teknikat në studim. Gjithsesi, ndarja në 6 nënbashkësi nuk ka ndryshuar raportin midis rasteve të parashikuara saktë në secilën kategori.

5.1.3. Vlerësimi i kryqëzuar 182-fish

Vlerësimi i kryqëzuar 182-fish i zbatuar mbi teknikën e regresionit logjistik bën që të mund të përcaktohen në mënyrë të saktë rreth 62% të rasteve, thënë ndryshe 112 nga 182 raste në tërësi. Niveli i saktësisë sërish është më i ulët krahasuar me

Page 94: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

85

saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion, por është më i lartë krahasuar me vlerësimin e kryqëzuar 10-fish. Duke u shprehur më në detaje, mund të thuhet se ndarja e rasteve të përcaktuara saktë, midis atyre me nivel të lartë të cilësisë së të dhënave dhe atyre me nivel të ulët, është disi në favor të kategorisë së nivelit të ulët, ku teknika mundi të përcaktojë saktë rreth 63% të rasteve, ndryshe 57 nga 91 në raste, kundrejt 55 rasteve me nivel të lartë cilësie, që përfaqësojnë mbi 60% të rasteve përkatëse. Kështu, në rastin e regresionit logjistik, vlerësimi i kryqëzuar 182-fish ofron një normë gabimi të llojit I pak më të lartë se gabimi i llojit II, më konkretisht 40% kundrejt 37%. Vihet re një nivel saktësie më i ulët nga vlerësimi i kryqëzuar 6-fish.

Vlerësimi i kryqëzuar 182-fish, kur zbatohet mbi teknikën e pemëve të vendimit sipas algoritmit C4.5, sjell rezultate më të ulëta. Në këtë rast, teknika mundi të përcaktojë në mënyrë të saktë rreth 57% të rasteve, thënë ndryshe 103 nga 182 raste në tërësi. Edhe në këtë rast niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Ndryshimi në këtë rast është shumë më i madh në krahasim me të gjithë rezultatet e tjera. Më konkretisht, teknika mundi të përcaktojë në mënyrë të saktë mbi 46% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 42 nga 91 raste në tërësi, dhe gjithashtu rreth 67% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 61 nga 91 raste në tërësi. Edhe në këtë rast, vlerësimi i kryqëzuar 182-fish mundëson një normë gabimi të llojit I më të lartë nga gabimi i llojit II, më konkretisht rreth 54% kundrejt 33% në tërësi. Vihet re që ndryshimi më i madh ka ndodhur në parashikimin për rastet me nivel të lartë cilësie të dhënash në SIK. Një model i tillë nuk mund të merret parasysh për parashikime.

Së fundmi, vlerësimi i kryqëzuar 182-fish, kur zbatohet mbi rrjetat nervore, jep rezultate shumë më të ulëta krahasuar me teknikat e tjera. Më konkretisht, teknika MLP mundi të përcaktojë në mënyrë të saktë rreth 56% të rasteve, duke përfshirë kështu 102 nga 182 raste në tërësi. Sërish niveli i saktësisë bie krahasuar me saktësinë e vrojtuar në kapitullin e mëparshëm, madje është më i ulti ndër rezultatet e deritanishme me rrjetat nervore. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë mbi 58% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 53 nga 91 raste në tërësi, dhe gjithashtu rreth 54% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 49 nga 91 rastet e mbetura. Në këtë rast, vihet re një ndryshimnegativ midis normës së gabimit të llojit I dhe gabimit të llojit II, më saktë rreth 42% kundrejt rreth 46% në tërësi, që tregon se ky model përcakton me sukses më të lartë kategorinë e nivelit të lartë të cilësisë së të dhënave në SIK, ajo çfarë na intereson më shumë pra në këtë studim.

Si përmbledhje, vlerësimi i kryqëzuar 182-fish mundëson parashikimin në mënyrë të saktë për mesatarisht 58% të rasteve në dispozicion, ku parashikimin më të saktë e jep teknika e regresionit logjistik, kurse parashikimin më pak të saktë e jep teknika MLP e rrjetave nervore. Vihet re pra një saktësi më e ulët në parashikim, madje është norma më e ulët nga të tre vlerësimet e mësipërme. Nga ana tjetër, teknikat e studiuara japin rezultate të ngjashme në krahasim me vlerësimin e

Page 95: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

86

kryqëzuar 6-fish. Kështu, gabimi i llojit të parë është më i ulët nga gabimi i llojit të dytë në vetëm njërën nga teknikat, çka do të thotë që vlerësimi i kryqëzuar 182-fish mundëson një parashikim më të saktë për ngjarjen e lidhur me nivelin e ulët të cilësisë së të dhënave në SIK në dy nga tre teknikat në studim. Gjithashtu, mund të thuhet sendarja në 182 nënbashkësi ka ndryshuar dukshëm raportin midis rasteve të parashikuara saktë për secilën kategori, duke devijuar shumë nga ndarja e barabartë që ekziston nga të dhënat e studimit.

5.1.4. Vlerësimi me metodën e ndarjes së të dhënave

Metoda tjetër e vlerësimit është ajo që i ndan të dhënat e kampionit në bashkësinë e trajnimit dhe bashkësinë e vlerësimit. Siç u përmend më sipër, në vijimdo të përdoret ndarja e të dhënave në raportin 2:1, që do të thotë se të dhënat e trajnuara do të jenë dyfishi i të dhënave që do të përdoren për të testuar (vlerësuar) teknikën përkatëse. Në rastin në studim, të dhënat për trajnim do të merren nga 120 tëanketuar, kurse të dhënat e 62 të tjerëve do të përdoren për të testuar teknikën përkatëse.

Metoda e ndarjes së mësipërme, kur zbatohet mbi teknikën e regresionit logjistik, bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë thuajse 61% të rasteve, thënë ndryshe në 38 nga 62 raste në tërësi. Niveli i saktësisë sërish është më i ulët krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Nëse do të shihen rezultatet më në detaj, mund të thuhet seme anë të regresionit logjistik u përcaktuan në mënyrë të saktë rreth 58% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 18 nga 31 raste në tërësi, dhe gjithashtu rreth 65% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 20 nga 31 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i lartë nga gabimi i llojit II, më konkretisht 42% kundrejt 35% në tërësi, megjithëse në terma absolutë ndryshimi është shumë i vogël.

Teknika e pemëve të vendimit sipas algoritmit C4.5 mund të përcaktojë me metodën e ndarjes në mënyrë të saktë thuajse 60% të rasteve, thënë ndryshe 37 nga 62 raste në tërësi. Niveli i saktësisë bie sërish krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë rreth 52% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 16 nga 31 raste në tërësi, dhe gjithashtu rreth 68% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 21 nga 31 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i lartë nga gabimi i llojit II, përkatësisht 48% kundrejt 38% në tërësi. Këto vlera janë shumë të larta, por kjo është e justifikueshme për specifikat e këtyre rasteve.

Zbatimi i metodës së ndarjes në rrjetat nervore me teknikën MLP mund të përcaktojë në mënyrë të saktë mbi 56% të rasteve, duke përfshirë pra 35 nga 62 raste në tërësi. Norma e saktësisë, ashtu si në të gjitha rastet e shqyrtuara në këtë kapitull, bie dhe për këtë teknikë, madje bie më shumë se për teknikat e tjera. Nga ana tjetër, teknika MLP mundi të përcaktojë në mënyrë të saktë rreth 55% të rasteve me nivel të

Page 96: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

87

lartë të cilësisë së të dhënave, apo 17 nga 31 raste në tërësi, dhe gjithashtu mbi 58% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 18 nga 31 rastet e mbetura, duke sjellë një lloj balance midis të dyja kategorive. Më tej rezulton se gabimi i llojit I është sërish më i lartë nga gabimi i llojit II, më saktë 45% kundrejt rreth 42% në tërësi, që tregon se kjo teknikë, përcakton me sukses më të lartë sërish kategorinë e nivelit të ulët të cilësisë së të dhënave në SIK, megjithëse me shumë pak ndryshim.

Duke përmbledhur rezultatet e këtij seksioni, mund të thuhet se vlerësimi me ndarje të dhënash mundëson parashikim të saktë për mesatarisht 59% të rasteve në tërësi, ku parashikimin më të saktë e jep me anë të teknikës së regresionit logjistik, ndërsa parashikimin më pak të saktë e jep sërish teknika MLP e rrjetave nervore. Në këtë rast, gabimi i llojit I është më i lartë se ai i llojit II në të tre teknikat e studiuara, çka tregon se vlerësimi sipas kësaj metode përcakton më saktë rastet me nivel të ulët cilësie të dhënash në SIK. Kjo metodë pra e ndryshon raportin e rasteve të përcaktuara saktë, duke favorizuar mossuksesin e ngjarjes, që nuk përmbush objektivat e studimit në fjalë.

5.1.5. Përmbledhje mbi metodat e vlerësimit të studiuara

Në pjesët e mësipërme të këtij seksioni studiuam disa metoda vlerësimi për teknikat e përdorura në këtë punim doktorate. Në metodat e vlerësimit u përfshinë metodat e vlerësimit të kryqëzuar 6, 10 dhe 182 herë, bashkë me metodën e vlerësimit me ndarje, ku përdorëm raportin e përafërt 2:1 midis të dhënave të trajnimit dhe atyre të testimit të modeleve përkatëse.

Në mënyrë të përmbledhur, mund të thuhet se metodat e vlerësimit mundësojnë një parashikim të saktë mbi kategorinë e rasteve të reja me një normë prej 60% nga rastet në tërësi, siç mund të shihet nga rezultatet e tabelës 5.1. Parashikimi më i saktë në tërësi mund të bëhet nga metoda e vlerësimit të kryqëzuar 6 herë, kurse parashikimi më pak i saktë lidhet me metodën e vlerësimit të kryqëzuar 182 herë. Kjo renditje tregon se grupimi i të dhënave duke supozuar shpërndarje normale jep një përcaktim më të mirë për kategorinë e rasteve të reja të studiuara.

Renditja e teknikave në tabelën më poshtë është bërë duke pasur parasysh së pari nivelin e përgjithshëm të saktësisë dhe më tej nivelin e saktësisë për rastet me nivel të lartë cilësie të dhënash.

Për të arritur në këto rezultate, në bazë të programeve kompjuterike në dispozicion, është mundësuar që bashkësia e të dhënave të trajnimit të respektojë raportin fillestar të ndarjes së kategorive, që, siç është përmendur në kapitullin e mëparshëm, jep një ndarje të barabartë me 91 raste për secilën kategori.

Përjashtim bën vetëm metoda e vlerësimit të kryqëzuar 182 herë, pasi në këtë rast merren 181 raste me të dhëna për trajnim, dhe rasti i mbetur përdoret për testim. Metodat e tjera të vlerësimit shfrytëzojnë si të dhëna trajnimi nënbashkësi të dhënash me numër të barabartë rastesh për secilën kategori, për të mos krijuar anshmëri (bias) që dëmtojnë rezultatet përfundimtare.

Page 97: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

88

Nëse shohim teknikat e përdorura për vlerësim, mund të thuhet se ka ndryshime të dukshme nga rezultatet e marra kur si bashkësi trajnimi përdoreshin të gjithë të dhënat në dispozicion nga seksioni i realizimit të faktorëve. Këto ndryshime vihen re në dy aspekte, duke përmendur këtu ndryshimin e madh nga performanca e teknikave individuale dhe gjithashtu ndryshimin mes normave relative të përqindjeve të saktësisë së përgjithshme.

Kështu, nga kapitulli i mëparshëm dimë se numri i përgjithshëm i rasteve të përcaktuar saktë nga teknika e regresionit logjistik ishte 126 nga 182, ose 69.2% në tërësi. Kuptohet që më pak të dhëna në dispozicion do ta zvogëlonin këtë normë, e cila në rastin më të mirë arriti në 64.8%, në vlerësimin e kryqëzuar 6 herë. Ndërkaq, vlera më e ulët e saktësisë në parashikim për këtë teknikë është 61%, në metodën e vlerësimit të kryqëzuar 10 herë, si në tabelën 5.1 më poshtë.

Tabela 5.1. Saktësia e parashikimit për secilën metodë vlerësimi sipas teknikave të përdorura

Metoda e vlerësimit Nivel i lartë ( në %) Nivel i ulët ( në %) Përqindja e plotëI kryqëzuar 10 herë

Regresioni logjistik 61.5 60.4 61

Algoritmi C4.5 62.6 58.2 60.4

Teknika MLP 56.0 60.4 58.2

Përqindja e plotë 59.9I kryqëzuar 6 herë

Regresioni logjistik 63.7 65.9 64.8

Algoritmi C4.5 64.8 61.5 63.2

Teknika MLP 59.3 60.4 59.9

Përqindja e plotë 62.6I kryqëzuar 182 herë

Regresioni logjistik 60.4 62.6 61.5

Algoritmi C4.5 46.2 67 56.6

Teknika MLP 58.2 53.8 56.0

Përqindja e plotë 58.1Me ndarje 2:1

Regresioni logjistik 58.1 64.5 61.3

Algoritmi C4.5 51.6 67.7 59.7

Teknika MLP 54.8 58.1 56.5

Përqindja e plotë 59.1

Po ashtu, teknika e pemëve të vendimit e përfaqësuar nga modeli C4.5 na jep një normë parashikimi më të lartë kur të dhënat në dispozicion ishin më të shumta.

Page 98: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

89

Nga kapitulli i mëparshëm mund të kujtojmë se numri i rasteve të përcaktuar saktë ishte 130, ose 71.4% në tërësi. Në metodat e vlerësimit të studiuara më sipër, rezultatet tregojnë se norma më e lartë e përqindjes ishte 63.2%, në vlerësimin e kryqëzuar 6 herë, ndërsa vlera më e ulët në parashikim për teknikën C4.5 të përdorur është 56.6%, në metodën e vlerësimit të kryqëzuar 182 herë.

Së fundmi, teknika e rrjetave nervore, e përfaqësuar nga modeli MLP, parashikonte në mënyrë të saktë kategorinë për plot 144 raste, ose 79.1% në tërësi, siç doli përfundimi në kapitullin paraardhës. Në lidhje me rezultatet e tabelës 5.1, mund të shihet se norma më e lartë e përqindjes për këtë teknikë ishte 59.9%, nga metoda e vlerësimit të kryqëzuar 6 herë, kurse vlera më e ulët në parashikim për teknikën MLP është 56%, në metodën e vlerësimit të kryqëzuar 182 herë.

Siç shihet, ndryshimin më të madh nga rezultatet e teknikave më sipër në krahasim me vlerat e parashikimit me të gjithë të dhënat në dispozicion e shfaq teknika MLP e rrjetave nervore. Më pas, ndryshimin më të madh e shfaq teknika C4.5 nga pemët e vendimit, dhe në fund ndodhet teknika e regresionit logjistik, norma e saktësisë së të cilës nuk ka ndryshuar shumë nga zbatimi i saj në të gjithë të dhënat në studim

Në lidhje me ndryshimin relativ midis normave të parashikimit të saktë, nga kapitulli i mëparshëm dhe nga analiza e mësipërme, mund të thuhet se teknika më e mirë ishte ajo e rrjetave nervore, e përfaqësuar nga modeli MLP, që arrinte të parashikonte saktë mbi 79% të rasteve. Më pas, teknika C4.5 e pemëve të vendimit mundi të parashikonte mbi 71% dhe më tej regresioni logjistik me mbi 69%. Kjo renditje nuk respektohet më kur të dhënat për trajnim zvogëlohen nga numri fillestar, madje janë të përmbysura.

Kështu, nga vlerat mesatare të përmendura më sipër, del se teknika me parashikimin më të saktë në këtë rast del ajo e regresionit logjistik, e cila del më mirë se teknikat e tjera në të gjitha metodat e vlerësimit të përdorura. Më pas, renditet teknika C4.5 e pemëve të vendimit, e cila në çdo vlerësim të realizuar renditet në këtë pozicion. Në fund, rezultatet nga metodat e vlerësimit të përdorura në këtë kapitull tregojnë se teknika me performancën më të dobët është teknika MLP e rrjetave nervore. Pra, kemi një renditje tërësisht të përmbysur.

Ndryshimet e mëdha nga rezultatet e mëparshme dhe ndryshimi në renditjen relative midis teknikave bën të mendojmë se të paktën disa prej tyre nuk janë shumë të qëndrueshme, të paktën nisur nga rezultatet e marra. Ky përfundim shërben si një nxitje e mirë për të gjetur një mënyrë përmirësimi të përshtatshme me teknikat e përdorura, siç është dhe metoda bagging.

5.2. Metoda bagging

Kjo metodë njihet ndryshe edhe si metoda bootstrap aggregating. Është formuluar nga Leo Breiman, në vitin 1994, me synimin për të përmirësuar klasifikimin duke kombinuar klasifikimet e bashkësive të të dhënave të trajnuara të zgjedhura rastësisht. Hyn në kategorinë e metodave ensemble, që janë algoritme të të

Page 99: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

90

mësuarit të supervizuar, dhe ndërkaq përmirëson modelet dhe teknikat që merren me klasifikimin në drejtim të qëndrueshmërisë dhe saktësisë. Përgjithësisht zbatohen mbi pemët e vendimit, por mund të zbatohen mbi të gjitha teknikat, duke pasur efekte të ndryshme mbi parametrat parashikues.

Kjo metodë përmirëson procedurat jo të qëndrueshme, që sipas vetë autorit të saj, përfshin rrjetat nervore dhe pemët e vendimit, për arsyen e vetme sepse ato ndryshojnë parametrat e parashikimit nëse ka ndryshime në të dhënat e marra në studim. Nga ana tjetër, mund të ndikojë negativisht në proceset e qëndrueshme, si p.sh. në teknikën e K fqinjve më të afërt.

Metoda bagging u përdor për herë të parë nga Breiman (1996), mbi disa bashkësi të dhënash të ndryshme, duke dhënë rezultatet e pritshme. Nga ana tjetër, e njëjta metodë është përdorur për të përmirësuar nivelin e performancës së teknikave Data Mining në përcaktimin e kategorisë së firmës audituese të përshtatshme (Kirkos dhe autorë të tjerë, 2009)

Kjo teknikë do të përdoret për qëllimet e këtij punimi doktorate dhe do tëzbatohet mbi teknikat e rrjetave nervore MLP, pemëve të vendimit C4.5 dhe regresionit logjistik të thjeshtë me qëllim rritjen e performancës së tyre.

5.2.1. Vlerësimi i kryqëzuar 10-fish

Vlerësimi i kryqëzuar 10-fish i zbatuar mbi teknikën e regresionit logjistik dhe i ndryshuar sipas metodës bagging bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë thuajse 63% të rasteve, thënë ndryshe në 114 nga 182 raste në tërësi, pra më mirë se në rastin fillestar. Më në detaj, mund të thuhet se ndarja e rasteve të përcaktuara saktë, midis atyre me nivel të lartë të cilësisë së të dhënave dhe atyre me nivel të ulët, është disi më e ndryshme nga metoda fillestare (58 kundrejt 56), ku vlera më e lartë sërish i përket rasteve të lidhura me suksesin e ngjarjes. Kjo sjell që, në rastin e regresionit logjistik, pas vlerësimit të kryqëzuar 10-fish të ndryshuar, gabimi i llojit I të jetë më i ulët se gabimi i llojit II, më konkretisht rreth 36% kundrejt rreth 38%. Pra, regresioni logjistik i vlerësuar me anë të vlerësimit të kryqëzuar 10-fish, i ndryshuar me metodën bagging, sjell ndryshime në saktësinë e përgjithshme të modelit dhe përmirëson nivelin e saktësisë në lidhje me rastet me nivel të lartë të cilësisë së të dhënave në SIK.

Kur zbatohet mbi teknikën e pemëve të vendimit sipas algoritmit C4.5, vlerësimi i kryqëzuar 10-fish i ndryshuar sjell rezultate më të ulëta. Në këtë rast, teknika mund të përcaktojë në mënyrë të saktë mbi 58% të rasteve, thënë ndryshe në 106 nga 182 raste në tërësi. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë rreth 63% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 57 nga 91 raste në tërësi, dhe gjithashtu rreth 54% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 49 nga 91 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i ulët nga gabimi i llojit II, më konkretisht 37% kundrejt 46% në tërësi. Gabimi i llojit I mbetet i njëjtë edhe pas ndryshimit të bërë, ndërsa është zvogëluar niveli i saktësisë për rastet e mossuksesit të ngjarjes.

Page 100: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

91

Së fundmi, rrjetat nervore shfaqin vlera të përmirësuara kur mbi to zbatohet vlerësimi i kryqëzuar 10-fish, i ndryshuar sipas metodës bagging. Kështu, teknika MLP tashmë mund të përcaktojë në mënyrë të saktë rreth 64% të rasteve, duke përfshirë 116 nga 182 raste në tërësi. Më konkretisht, teknika MLP mundi të përcaktojë në mënyrë të saktë rreth 66% të rasteve me nivel të lartë të cilësisë së tëdhënave, apo 60 nga 91 raste në tërësi, dhe gjithashtu rreth 62% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 56 nga 91 rastet e mbetura. Kështu, gabimi i llojit I është sërish më i ulët nga gabimi i llojit II, më saktë rreth 34% kundrejt rreth 38% në tërësi, që tregon se ky model, njësoj si të tjerët më sipër, përcakton me sukses më të lartë kategorinë e nivelit të lartë të cilësisë së të dhënave në SIK. Pra, mund të thuhet se kur zbatohet vlerësimi i kryqëzuar 10-fish tek teknika MLP e rrjetave nervore, ndryshuar sipas metodës bagging, rezultatet tregojnë përmirësime të dukshme dhe gjithashtu suksesi i ngjarjes parashikohet më mirë se mossuksesi.

Në mënyrë të përmbledhur, vlerësimi i kryqëzuar 10-fish përmes tre teknikave të sipërpërmendura dhe i ndryshuar ofron modele që mund të parashikojnë në mënyrë të saktë mesatarisht 62% të rasteve në dispozicion, ku parashikimin më të saktë e jep teknika MLP nga rrjetat nervore, kurse parashikimin më pak të saktë e jep algoritmi C4.5 nga pemët e vendimit. Në të tre rastet, gabimi i llojit të parë është dukshëm më i ulët nga gabimi i llojit të dytë, çka do të thotë që vlerësimi i kryqëzuar 10-fish mundëson edhe pas ndryshimit një parashikim më të saktë për ngjarjen e suksesshme, përndryshe nivelin e lartë të cilësisë së të dhënave në SIK. Si përfundim, ndryshimi i vlerësimit të kryqëzuar 10-fish sjell përmirësime në saktësinë e parashikimit për dynga teknikat në studim, duke përmirësuar dhe raportin e përcaktimit të saktë të rasteve në favor të kategorisë në lidhje me nivelin e lartë për cilësinë e të dhënave, duke plotësuar objektivat e studimit.

5.2.2. Vlerësimi i kryqëzuar 6-fish

Vlerësimi i kryqëzuar 6-fish i zbatuar mbi teknikën e regresionit logjistik bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë rreth 66% të rasteve, thënë ndryshe 120 nga 182 raste në tërësi. Niveli i saktësisë në këtë rast është sërish më i ulët krahasuar me saktësinë e vrojtuar në rastin kur shfrytëzohej i gjithë kampioni i të dhënave në dispozicion, por më i lartë krahasuar me vlerësimin fillestar. Duke u shprehur më në detaje, teknika mundi të përcaktojë në mënyrë të saktë mbi 69% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 63 nga 91 raste në tërësi, dhe gjithashtu rreth 63% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 57 nga 91 raste në tërësi. Kjo sjell që, në rastin e regresionit logjistik, pas vlerësimit të kryqëzuar 6-fish të ndryshuar, gabimi i llojit I të jetë më i ulët se gabimi i llojit II, më konkretisht 31% kundrejt 37%.

Vlerësimi i kryqëzuar 6-fish, kur zbatohet mbi teknikën e pemëve të vendimit sipas algoritmit C4.5, sjell rezultate të njëjta. Në këtë rast, teknika mundi të përcaktojë në mënyrë të saktë rreth 66% të rasteve, thënë ndryshe 120 nga 182 raste në tërësi. Ndërkaq, teknika mundi të përcaktojë në mënyrë të saktë mbi 70% të rasteve me nivel

Page 101: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

92

të lartë të cilësisë së të dhënave, apo 64 nga 91 raste në tërësi, dhe gjithashtu rreth 62% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 56 nga 91 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i ulët nga gabimi i llojit II, më konkretisht 30% kundrejt rreth 38% në tërësi. Edhe në këtë rast, vlerësimi i kryqëzuar 6-fish i ndryshuar përmirëson saktësinë e modelit C4.5 duke përmirësuar dhe raportin midis rasteve të përcaktuar saktë në të dyja kategoritë.

Së fundmi, vlerësimi i kryqëzuar 6-fish, i zbatuar mbi rrjetat nervore jep rezultate po ashtu të njëjta me teknikat e tjera pas ndryshimit. Më konkretisht, teknika MLP mundi të përcaktojë në mënyrë të saktë thuajse 66% të rasteve, duke përfshirë 120 nga 182 raste në tërësi. Kjo vlerë është normë më e lartë e saktësisë në krahasim me vlerësimin e kryqëzuar 6-fish fillestar. Nga ana tjetër, teknika mundi të përcaktojë në mënyrë të saktë rreth 69% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 63 nga 91 raste në tërësi, dhe gjithashtu rreth 63% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 57 nga 91 rastet e mbetura. Vihet re kështu një ndryshim negativ midis normës së gabimit të llojit I dhe gabimit të llojit II, më saktë 31% kundrejt rreth 37% në tërësi, që tregon se ky model, përcakton me sukses më të lartë kategorinë e nivelit të lartë të cilësisë së të dhënave në SIK.

Duke përmbledhur rezultatet e mësipërme, vlerësimi i kryqëzuar 6-fish, i ndryshuar sipas metodës bagging, mundëson parashikimin në mënyrë të saktë për mesatarisht 66% të rasteve në dispozicion, ku secila nga teknikat jep të njëjtën normë saktësie për rastet në studim. Vihet re pra një saktësi më e lartë në parashikim krahasuar me modelin fillestar, ku teknikat e studiuara japin rezultate të ndryshme në krahasim me rastin e parë. Gjithashtu, gabimi i llojit të parë është më i ulët nga gabimi i llojit të dytë në të tre teknikat, çka do të thotë që vlerësimi i kryqëzuar 6-fish mundëson një parashikim më të saktë për ngjarjen e lidhur me nivelin e lartë të cilësisë së të dhënave në SIK në këtë rast. Si përfundim, metoda bagging e zbatuar mbi vlerësimin e kryqëzuar 6-fish sjell përmirësime të dukshme në përgjithësi, bashkë me rritjen e numrit të rasteve të parashikuara saktë në lidhje me nivelin e lartë të cilësisë së të dhënave.

5.2.3. Vlerësimi i kryqëzuar 182-fish

Ndryshimi i realizuar mbi vlerësimin e kryqëzuar 182-fish për teknikën e regresionit logjistik parashikon në mënyrë të saktë mbi 63% të rasteve, thënë ndryshe 115 nga 182 raste në tërësi. Niveli i saktësisë është pak më i ulët krahasuar me vlerësimin e kryqëzuar 182-fish fillestar. Duke u shprehur më në detaje, mund të thuhet se ndarja e rasteve të përcaktuara saktë, midis atyre me nivel të lartë të cilësisë së të dhënave dhe atyre me nivel të ulët, është paksa në favor të kategorisë së nivelit të ulët, ku teknika mundi të përcaktojë saktë rreth 64% të rasteve, ndryshe 58 nga 91 në raste, kundrejt 57 rasteve me nivel të lartë cilësie, që përfaqësojnë rreth 63% të rasteve përkatëse. Kështu, në rastin e regresionit logjistik, vlerësimi i kryqëzuar 182-fish i ndryshuar ofron një normë gabimi të llojit I pak më të lartë se gabimi i llojit II, më konkretisht rreth 37% kundrejt 36%. Në raport me vlerësimin fillestar, ndryshimi

Page 102: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

93

ka sjellë që numri i rasteve të përcaktuara saktë të bjerë pak në anën e mossuksesit të ngjarjes, duke balancuar më shumë raportin mes dy kategorive.

Vlerësimi i kryqëzuar 182-fish, kur zbatohet i ndryshuar mbi algoritmin C4.5 të pemëve të vendimit, sjell rezultate më të ulëta. Në këtë rast, teknika mundi të përcaktojë në mënyrë të saktë rreth 60% të rasteve, thënë ndryshe 109 nga 182 raste në tërësi. Niveli i saktësisë është më i lartë se niveli përpara ndryshimit. Më konkretisht, teknika mundi të përcaktojë në mënyrë të saktë mbi 59% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 54 nga 91 raste në tërësi, dhe gjithashtu mbi 60% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 55 nga 91 raste në tërësi. Në këtë rast, vlerësimi i kryqëzuar 182-fish mundëson një normë gabimi të llojit I disi më të lartë nga gabimi i llojit II, më konkretisht rreth 41% kundrejt 40% në tërësi. Vihet re që ndryshimi më i madh ka ndodhur në parashikimin për rastet me nivel të lartë cilësie të dhënash në SIK, duke përmirësuar dukshëm nivelin e saktësisë për këto raste në dëm të rasteve me nivel të ulët cilësie. Ndryshimi i realizuar ka rritur saktësinë e përgjithshme dhe ka përmirësuar nivelin e saktësisë për rastet që lidhen me suksesin e ngjarjes kryesore.

Së fundmi, vlerësimi i kryqëzuar 182-fish, kur zbatohet i ndryshuar mbi rrjetat nervore, jep rezultate shumë të larta krahasuar me vlerësimin fillestar. Më konkretisht, teknika MLP mundi të përcaktojë në mënyrë të saktë rreth 63% të rasteve, duke përfshirë kështu 114 nga 182 raste në tërësi. Kështu, teknika mundi të përcaktojë në mënyrë të saktë rreth 62% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 56 nga 91 raste në tërësi, dhe gjithashtu rreth 64% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 58 nga 91 rastet e mbetura. Në këtë rast, vihet re sërish një ndryshim pozitiv midis normës së gabimit të llojit I dhe gabimit të llojit II, më saktë 38% kundrejt rreth 36% në tërësi, që tregon se ky model përcakton me sukses më të lartë kategorinë e nivelit të ulët të cilësisë së të dhënave në SIK. Ndryshimi i bërë ndaj vlerësimit të kryqëzuar 182-fish sjell përmirësime të konsiderueshme në saktësinë e përgjithshme, por jo në suksesin e ngjarjes.

Si përmbledhje, vlerësimi i kryqëzuar 182-fish i ndryshuar mundëson parashikimin në mënyrë të saktë për mesatarisht 62% të rasteve në dispozicion, ku parashikimin më të saktë e jep teknika e regresionit logjistik, kurse parashikimin më pak të saktë e jep teknika e pemëve të vendimit përmes algoritmit C4.5. Nga ana tjetër, teknikat e studiuara japin rezultate të ndryshme në krahasim me vlerësimet e kryqëzuara deri tani. Kështu, gabimi i llojit të parë është më i lartë nga gabimi i llojit të dytë në të tre teknikat e studiuara, çka do të thotë që ndryshimi i bërë tek vlerësimi i kryqëzuar 182-fish mundëson një parashikim më të saktë për ngjarjen e lidhur me nivelin e ulët të cilësisë së të dhënave në SIK. Pra, ndarja në 182 nënbashkësi ka përmirësuar disi nivelin e saktësisë së modelit në këtë rast, por nga ana tjetër ka ndryshuar edhe raportin midis rasteve të parashikuara saktë në secilën kategori, në krahasim me vlerësimin përpara ndryshimit.

Page 103: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

94

5.2.4. Vlerësimi me metodën e ndarjes së të dhënave

Metoda e ndarjes së mësipërme e ndryshuar, kur zbatohet mbi teknikën e regresionit logjistik, bën që kjo teknikë të mund të përcaktojë në mënyrë të saktë thuajse 63% të rasteve, thënë ndryshe në 39 nga 62 raste në tërësi. Niveli i saktësisë është i njëjtë me vlerësimin përpara ndryshimit. Më konkretisht, me anë të regresionit logjistik u përcaktuan në mënyrë të saktë mbi 61% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 19 nga 31 raste në tërësi, dhe gjithashtu rreth 65% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 20 nga 31 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është më i lartë nga gabimi i llojit II, më konkretisht 39% kundrejt 35% në tërësi, megjithëse në nivel absolut ndryshimiështë shumë i vogël. Vihet re se ndryshimi me metodën bagging ka sjellë një përmirësim të saktësisë sipas regresionit logjistik, por ka përmirësuar saktësinë e përcaktimit të rasteve me nivel të ulët cilësie të dhënash, në dëm të rasteve me nivel të lartë. Kështu, modeli pas ndryshimit nuk është më i përshtatshëm.

Teknika e pemëve të vendimit, sipas algoritmit C4.5 dhe e ndryshuar, mund të përcaktojë me metodën e ndarjes në mënyrë të saktë mbi 61% të rasteve, thënë ndryshe 38 nga 62 raste në tërësi. Niveli i saktësisë përmirësohet në krahasim me vlerësimin përpara ndryshimit. Gjithashtu, teknika mundi të përcaktojë në mënyrë të saktë rreth 55% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 17 nga 31 raste në tërësi, dhe gjithashtu rreth 68% të rasteve me nivel të ulët të cilësisë së të dhënave, apo 21 nga 31 raste në tërësi. Vlerat e vrojtuara tregojnë gjithashtu se gabimi i llojit I është sërish më i lartë nga gabimi i llojit II, përkatësisht 45% kundrejt 32% në tërësi. Vihet re se përmirësimi i saktësisë së modelit lidhet me rritjen e saktësisë për rastet me nivel të lartë të cilësisë së të dhënave, gjithsesi rastet me nivel të ulët përcaktohen më saktë nga kjo metodë edhe pas ndryshimit. Modeli në fjalë mund të mos merret i përshtatshëm.

Zbatimi i metodës së ndarjes në rrjetat nervore me teknikën MLP mund të përcaktojë në mënyrë të saktë pas ndryshimit rreth 68% të rasteve, duke përfshirë pra 42 nga 62 raste në tërësi. Norma e saktësisë, ashtu si në të gjitha rastet e shqyrtuara në këtë kapitull, bie dhe për këtë rast, por ndryshimi i bërë ka përmirësuar mjaft nivelin e saktësisë për vlerësimin në fjalë. Nga ana tjetër, teknika MLP mundi të përcaktojë në mënyrë të saktë rreth 71% të rasteve me nivel të lartë të cilësisë së të dhënave, apo 22 nga 31 raste në tërësi, dhe gjithashtu mbi 64% të rasteve me nivel të ulët të cilësisë së të dhënave, më saktë 20 nga 31 rastet e mbetura, duke ruajtur një lloj balance midis të dyja kategorive. Nga këto rezultate rezulton se gabimi i llojit I është tashmë më i ulët nga gabimi i llojit II, më saktë 29% kundrejt rreth 36% në tërësi, që tregon se kjo teknikë, pas ndryshimit, përcakton me sukses më të lartë kategorinë e nivelit të lartë të cilësisë së të dhënave në SIK, megjithëse me pak ndryshim në nivel absolut. Vihet re se përmirësimi i saktësisë së modelit është shoqëruar nga një normë më e lartë saktësie për parashikimin e rasteve me nivel të lartë të cilësisë së të dhënave, duke e bërë këtë model të ndryshuar më të përshtatshëm për kërkesat e studimit.

Page 104: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

95

Duke përmbledhur rezultatet e këtij seksioni, mund të thuhet se vlerësimi me ndarje të dhënash pas ndryshimit mundëson parashikim të saktë për mesatarisht 64% të rasteve në tërësi, ku parashikimin më të saktë e jep me anë të teknikës së rrjetave nervore, kurse parashikimi më pak i saktë jepet nga teknika e pemëve të vendimit përmes algoritmit C4.5. Pas ndryshimit të kësaj metode vlerësimi, gabimi i llojit I është më i ulët se ai i llojit II vetëm për një nga teknikat e studiuara, çka tregon se në përgjithësi vlerësimi sipas kësaj metode përcakton më saktë rastet me nivel të ulët cilësie të dhënash. Vihet re se ndryshimi në këtë rast përmirëson dukshëm nivelin e saktësisë në përgjithësi, ku për të tre teknikat ka rritje të rasteve të parashikuar saktë, që shoqërohet nga përmirësimi i parashikimit për rastet me nivel të lartë për cilësinë e të dhënave në SIK. Gjithsesi, në tërësi raporti midis saktësisë së përcaktimit për të dy kategoritë është njësoj i balancuar me vlerat përpara ndryshimit, pak a shumë si në rastin e të dhënave reale.

5.2.5. Përmbledhje mbi metodat e vlerësimit të studiuara pas ndryshimit

Në mënyrë të përmbledhur, mund të thuhet se metodat e vlerësimit mundësojnë një parashikim të saktë mbi kategorinë e rasteve të reja me një normë prej mbi 63% nga rastet në tërësi, siç mund të shihet nga rezultatet e tabelës 5.2 në faqen në vijim.

Ky rezultat është përmirësim i mirë krahasuar me rezultatin e nxjerrë përpara ndryshimit, që është një tregues i rëndësishëm për përfundimet në vijim. Ndërkaq, parashikimi më i saktë në tërësi tashmë mund të bëhet nga metoda e vlerësimit të kryqëzuar 6 herë, kurse parashikimi më pak i saktë lidhet me metodën e vlerësimit të kryqëzuar 10 herë. Kjo renditje tashmë tregon se ndryshimi i bërë ka përmirësuar më shumë rezultatet e metodave më poshtë të renditura në analizën fillestare dhe më pak rezultatet e metodave të tjera. Përmirësimi më i dukshëm ka ndodhur në metodën e vlerësimit me ndarje, me rreth 5% ndryshim, kurse përmirësimi më i ulët lidhet me vlerësimin e kryqëzuar 10 herë, me rreth 2% rritje.

Renditja e teknikave në tabelën 5.2 është bërë njësoj si në tabelën 5.1, duke pasur parasysh së pari nivelin e përgjithshëm të saktësisë së teknikës përkatëse, më tej saktësinë në lidhje me rastet me nivel të lartë të cilësisë së të dhënave dhe në fund në lidhje me përshtatshmërinë e modelit.

Edhe në këtë rast mund të thuhet se ka ndryshime të dukshme nga rezultatet e marra kur si bashkësi trajnimi përdoreshin të gjithë të dhënat në dispozicion nga seksioni i realizimit të faktorëve.

Kështu, norma e saktësisë për regresionin logjistik ishte në fillim 69.2% në tërësi, më pas nga vlerësimi fillestar norma mesatare ishte 62.2%. Pas ndryshimit, norma më e lartë e saktësisë për këtë teknikë është 65.9%, në metodën e vlerësimit të kryqëzuar 6 herë, kurse si vlerë mesatare, norma e saktësisë për regresionin logjistik jep një vlerë 63.7% në tërësi, më të lartë se përpara ndryshimit. Ndërkaq, vlera më e ulët e saktësisë në parashikim për këtë teknikë në këtë rast është sërish 62.6%, në metodën e vlerësimit të kryqëzuar 10 herë. Vihet re se ndryshimi i bërë ka

Page 105: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

96

përmirësuar saktësinë e teknikës së regresionit logjistik në të gjitha metodat e vlerësimit në studim.

Tabela 5.2. Saktësia e parashikimit për secilën metodë vlerësimi pas ndryshimitMetoda e vlerësimit Nivel i lartë ( në %) Nivel i ulët ( në %) Përqindja e plotë

I kryqëzuar 10 herë

Teknika MLP 65.9 61.5 63.7

Regresioni logjistik 63.7 61.5 62.6

Algoritmi C4.5 62.6 53.8 58.2

Përqindja e plotë 61.5I kryqëzuar 6 herë

Regresioni logjistik 69.2 62.6 65.9

Algoritmi C4.5 70.3 61.5 65.9

Teknika MLP 69.2 62.6 65.9

Përqindja e plotë 65.9I kryqëzuar 182 herë

Regresioni logjistik 62.6 63.7 63.2

Teknika MLP 61.5 63.7 62.6

Algoritmi C4.5 59.3 60.4 59.9

Përqindja e plotë 61.9Me ndarje 2:1

Teknika MLP 71 64.5 67.7

Regresioni logjistik 61.3 64.5 62.9

Algoritmi C4.5 54.8 67.7 61.3

Përqindja e plotë 64.0

Teknika C4.5 e pemëve të vendimit fillimisht dha një normë saktësie prej 71.4% në tërësi, më pas vlerësimi fillestar me katër metodat dha një rezultat mesatar prej 60%. Në metodat e vlerësimit të studiuara pas ndryshimit, rezultatet tregojnë se norma më e lartë e përqindjes ishte 65.9%, në vlerësimin e kryqëzuar 6 herë, ndërsa vlera mesatare rezulton 61.3% për të gjithë metodat së bashku. Vlera më e ulët në parashikim për teknikën C4.5 të përdorur në këtë rast është 58.2%, në metodën e vlerësimit të kryqëzuar 10 herë.

Me përjashtim të kësaj metode vlerësimi, ndryshimi i bërë ka përmirësuar rezultatet e kësaj teknike në mënyrë të dukshme në të tre metodat e tjera të vlerësimit.

Së fundmi, teknika MLP e rrjetave nervore fillimisht parashikonte në mënyrë të saktë kategorinë për 79.1% në tërësi, kurse vlerësimi fillestar dha një rezultat mesatar prej rreth 58%. Pas ndryshimit, nga tabela 5.2 mund të shihet se norma më e

Page 106: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

97

lartë e përqindjes për këtë teknikë është 67.7%, nga metoda e vlerësimit me ndarje në raportin 2:1, kurse vlera mesatare arrin në 65% në tërësi, duke shënuar përmirësimin më të madh nga vlerësimi fillestar. Ndërkaq, vlera më e ulët në parashikim për teknikën MLP është 62.6%, në metodën e vlerësimit të kryqëzuar 182 herë. Në lidhje me vlerësimin fillestar, pas ndryshimit kjo teknikë ka përmirësuar rezultatet e veta në të gjitha metodat e vlerësimit të studiuara, madje me dallim të rëndësishëm.

Siç shihet nga tabela 5.2, ndryshimin më të madh nga rezultatet e teknikave të ndryshuara tashmë në krahasim me vlerat e parashikimit me të gjithë të dhënat në dispozicion e shfaq sërish teknika MLP e rrjetave nervore, me rreth 14% në tërësi, përndryshe mesatarisht 26 raste të parashikuara saktë më pak. Më pas, ndryshimin më të madhe shfaq teknika C4.5 nga pemët e vendimit, dhe në fund teknika e regresionit logjistik, me ndryshim pak më të zvogëluar. Për të tre teknikat, ndryshimi ka zvogëluar ndjeshëm ndryshimet midis tyre në krahasim me parashikimin me të gjithë të dhënat në dispozicion.

Në lidhje me dallimin midis teknikave, sërish ka ndryshime nga renditja e tyre relative kur testimi bëhej mbi të gjithë të dhënat në dispozicion.

Kështu, nga vlerat mesatare të përmendura më sipër, del se teknika me parashikimin më të saktë pas ndryshimit rezulton ajo MLP e rrjetave nervore artificiale, e cila del më mirë se teknikat e tjera në dy nga katër metodat e vlerësimit të përdorura. Më pas, saktësinë më të lartë në parashikim e jep teknika e regresionit logjistik, e cila renditet më mirë se të tjerat në dy metodat e tjera të vlerësimit. Në fund, rezultatet nga metodat e vlerësimit të përdorura tregojnë se teknika me përmirësimin më të ulët pas ndryshimit është ajo e pemëve të vendimit, përfaqësuar nga modeli C4.5 përkatës. Kjo teknikë ka pasur performancë të njëjtë me teknikat e tjera vetëm në metodën e vlerësimit të kryqëzuar 6 herë, ndërkohë që performanca më e dobët tek metodat e tjera bën që tashmë, pas ndryshimit me metodën bagging, të kemi një renditje thuajse të përmbysur. Rezultatet në tërësi nga vlerësimet e bëra tregojnë që teknika me rezultatet më të qëndrueshme mbetet ajo e regresionit logjistik, e cila për shkak të mënyrës së funksionimit, nuk ndikohet shumë nga ndryshimet në të dhënat. Kjo gjë nuk mund të thuhet për dy teknikat e tjera, për të cilat dhe rezultatet e arritura tregojnë se madhësia e të dhënave të përdorura për trajnim dhe testim ndikojnë shumë në performancën e tyre.

Page 107: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

98

KAPITULLI 6: ANALIZA KRAHASUESE DHE KONTROLLI I HIPOTEZAVE

6.1. Analiza krahasuese midis rëndësisë dhe realizimit të faktorëve

Pas përcaktimit të faktorëve më të rëndësishëm dhe atyre më të realizuar nga kapitulli 4, në këtë seksion do të bëhet një analizë e ndryshimeve midis këtyre grupeve të faktorëve, duke kaluar edhe në analizën me anë të metodave statistikore, për t’i dhënë përgjigje pyetjes kërkimore në lidhje me këtë çështje, duke nxjerrë përfundime mbi mënyrën si janë vlerësuar faktorët që ndikojnë në nivelin e cilësisë së të dhënave në SIK.

Një analizë paraprake krahasuese mund të bëhet duke parë sërish faktorët e përbashkët midis të dy grupeve të faktorëve, që mund të nxirren lehtësisht nga tabela e mëposhtme përmbledhëse 6.1.

Tabela 6.1. Faktorët më të rëndësishëm dhe më të realizuarShënim (*): Faktorët e përbashkët janë shënuar me gërma në formë të pjerrët

Nga tabela, mund të thuhet që ka nëntë faktorë të përfshirë në të dyja listat, që tregon për një përputhje të konsiderueshme midis faktorëve më të rëndësishëm dhe atyre më të realizuar, në lidhje me vlerësimet e bëra nga kampioni i marrë në shqyrtim.

Nga ana tjetër, ndër 10 faktorët më të rëndësishëm, vetëm njëri prej tyre nuk është i përfshirë në listën e faktorëve më të realizuar, që do të thotë se realizimi i tij nuk është bërë ende në mënyrën më të mirë. Faktori në fjalë lidhet me përmirësimin e vazhdueshëm dhe në fakt është disi më poshtë në vlerësimin në tërësi në krahasim me

Lista me faktorët më të rëndësishëm* Lista me faktorët më të realizuar*Trajnimi Karakteristikat e SIK-utKarakteristikat e SIK-ut Kontrollet e brendshmeNjohja me SIK-un dhe cilësinë e të dhënave TrajnimiPolitikat dhe standardet e vendosura Politikat dhe standardet e vendosura Kontrollet e brendshme Matja dhe raportimi

Auditimi i SIK-utNjohja me SIK-un dhe cilësinë e të dhënave

Kontrolli mbi cilësinë e të dhënaveAngazhimi i personelit drejtues të organizatës

Angazhimi i personelit drejtues Puna në grupPërmirësimi i vazhdueshëm Auditimi i SIK-utMatja dhe raportimi Kontrolli mbi cilësinë e të dhënave

Menaxhimi i ndryshimeve

Page 108: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

99

faktorët e lidhur me kontrollin mbi cilësinë e të dhënave dhe menaxhimin e ndryshimeve, që ndodhen në fund të listës përkatëse, siç tregohet dhe nga tabela 6.1.

Nga tabela më sipër, del gjithashtu se ka dy faktorë në listën e faktorëve më të realizuar që nuk përfshihen në listën e faktorëve më të rëndësishëm, më konkretisht ata të lidhur me punën në grup dhe menaxhimin e ndryshimeve. Nga të dhënat e marra, del se të dy faktorët janë disi më pak të vlerësuar në krahasim me faktorët e lidhur me përmirësimin e vijueshëm dhe matjen e raportimin, që janë në fund të listës së faktorëve më të rëndësishëm sipas renditjes në tërësi.

Përtej krahasimit të mësipërm midis faktorëve më të rëndësishëm dhe atyre më të realizuar në bazë të përfshirjes ose jo të tyre në renditjet korresponduese, një analizë më e mirë është ajo që tregon ekzistencën ose jo të dallimeve të rëndësishme midis vlerësimit të nivelit të rëndësisë dhe realizimit të secilit faktor individual, siç tregohet në tabelën 6.2.

Tabela 6.2. Ndryshimi midis rëndësisë dhe realizimit për çdo faktorShënim (*): Ndryshimi merret jo i rëndësishëm për vlerën mbi 0.05, faktorët përkatës shfaqen me gërma të pjerrëta

Faktori Rëndësia Realizimi Vlera zvr Probabiliteti (p)*

1 4 4 3.34 0.001

2 4 4 7.7 0.000

3 4 3 6.5 0.000

4 4 3 5.0 0.000

5 4 3 3.21 0.001

6 4 4 10.47 0.000

7 4 3.5 4.98 0.000

8 5 4 6.93 0.000

9 4 4 6.32 0.000

10 4 4 4.59 0.000

11 4 4 8.09 0.000

12 4 4 -0.62 0.53

13 4 4 5.55 0.000

14 4 4 6.15 0.000

15 4 4 5.54 0.000

16 4 4 5.24 0.000

17 4 4 7.88 0.000

18 4 4 5.23 0.000

19 4 4 8.56 0.000

20 4 3 5.52 0.000

21 4 4 4.86 0.000

22 4 4 1.25 0.21

23 4 4 6.29 0.000

24 4 4 7.70 0.000

Page 109: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

100

Kjo analizë mori në shqyrtim vlerësimet e faktorëve sipas shkallës Likert, duke shfrytëzuar testimin me anë të metodave joparametrike për të dhënë përfundimet e rastit. Më konkretisht u shfrytëzua testi Wilcoxon mbi shenjat e rangjeve, që mat ndryshimet midis rangjeve të dy bashkësive të të dhënave të marra nga i njëjti grup njësish në studim.

Tabela 6.2 tregon se, në 24 faktorë të marrë në shqyrtim, vetëm në dy raste nuk vërehet një ndryshim statistikisht i rëndësishëm midis nivelit të realizimit dhe atij të rëndësisë, sipas të dhënave në studim. Këta dy faktorë lidhen konkretisht me marrëdhëniet e mira në mjedisin e punës dhe mjedisin e përshtatshëm të punës, duke treguar se këta faktorë janë vlerësuar në mënyrën e duhur dhe janë realizuar në përputhje me nivelin e perceptuar të rëndësisë së tyre brenda organizatës.

Në rastin e faktorit të lidhur me marrëdhëniet në mjedisin e punës, vlera negative e statistikës tregon se realizimi i këtij faktori ka vlera përgjithësisht më të larta se rëndësia e perceptuar e tij, por ndryshimi gjithsesi mbetet jo i rëndësishëm statistikisht. Ndërkaq, faktori i lidhur me mjedisin e mirë të punës tregon prirje të njëjtë me shumicën e faktorëve të studiuar, ku pra ekziston një ndryshim midis vlerave që anon nga rëndësia e faktorëve përkatës, megjithatë në këtë rast ajo mbetet statistikisht jo e rëndësishme.

Në lidhje me faktorët e tjerë, ajo që shihet qartë është statistika gjithnjë pozitive mes vlerësimeve për nivelin e rëndësisë dhe vlerësimeve për nivelin e perceptuar të realizimit, duke treguar se në përgjithësi, pavarësisht nga njohja e rëndësisë së tyre, nuk ka një vlerësim të mirë të çështjeve që lidhen me to, në mënyrë që të ndikojnë në cilësinë e të dhënave në SIK. Për të gjithë këta faktorë, ndryshim midis vlerave është statistikisht i rëndësishëm.

Nëse shihen ndryshimet në tërësi midis vlerave të medianës për rëndësinë dhe realizimin e secilit faktor, do të rezultojë i njëjti përfundim, i cili mund të shihet dhe nga tabela 6.3 më poshtë.

Nga të dhënat e tabelave në këtë pjesë mund të nxirret përfundimi se ka një dallim të rëndësishëm statistikisht midis nivelit të perceptuar të rëndësisë për faktorët që ndikojnë në cilësinë e të dhënave në SIK dhe realizimit të tyre. Pra, hipoteza H1 e punës kërkimore qëndron, duke vërtetuar supozimin paraprak mbi dallimet midis rëndësisë së faktorëve të veçantë dhe nivelit të realizimit të tyre.

Tabela 6.3. Ndryshimi midis rëndësisë dhe realizimitRëndësia Realizimi Vlera zvr Probabiliteti (p)

4 4 2.33 0.02

6.2 Analiza krahasuese midis të punësuarve në sektorin publik dhe privat

Siç u përmend dhe më sipër, një nga pyetjet e pyetësorit të realizuar lidhej me punësimin e individëve të përfshirë në studim, duke kërkuar prej tyre nëse ata ishin të punësuar në sektorin publik, në atë privat me pronësi të huaj apo shqiptare, të vetëpunësuar, etj.

Page 110: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

101

Ky kategorizim krijon mundësi të mjaftueshme për të analizuar dallimet midis perceptimeve të grupeve përkatëse të të interesuarve mbi rëndësinë e faktorëve individualë. Në këtë aspekt, pjesa në vijim do të trajtojë ndryshimet midis vlerësimeve për nivelin e rëndësisë së faktorëve individualë midis kategorive të të intervistuarve që i përkasin të punësuarve në sektorin publik dhe në atë privat. Rezultatet e ndara për secilin faktor jepen në tabelën e mëposhtme 6.4.

Tabela 6.4. Ndryshimet midis të punësuarve në sektorin privat dhe publik për çdo faktorShënim (*): Ndryshimi merret jo i rëndësishëm për vlerën mbi 0.05, faktorët përkatës shfaqen me gërma të pjerrëta

Faktori Sektori privat Sektori publik Vlera zvr Probabiliteti (p)*1 4 4 0.25 0.8

2 4 5 1.05 0.3

3 4 4 0.22 0.82

4 4 4 1.2 0.23

5 4 4 0.26 0.79

6 4 4 0.14 0.89

7 4 4 0.90 0.37

8 5 5 0.62 0.54

9 4 4 0.50 0.62

10 4 4 0.27 0.79

11 4 4 0.15 0.88

12 4 4 0.83 0.41

13 4 4 0.27 0.78

14 4 4 0.42 0.67

15 4 4 0.51 0.61

16 4 4 0.84 0.40

17 4 4 0.17 0.86

18 4 4 0.63 0.53

19 4 4 0.78 0.44

20 4 4 0.45 0.65

21 4 5 1.35 0.18

22 4 4 1.98 0.047

23 4 4 0.07 0.9424 4 4 1.26 0.21

Për shkak të shpërndarjes jo normale, u mor parasysh testimi me anë të metodave joparametrike, më konkretisht testi Mann-Whitney-Wilcoxon, që rikujtojmë këtu se mat dallimet midis grupeve të vlerave të ndara sipas një variabli kategorik. Në këtë rast, variabli kategorik është ai i lidhur me punësimin, i cili merr vetëm dy vlera, në lidhje me punësimin në sektorin privat apo në atë publik.

Të dhënat nga tabela në fjalë tregojnë se ndër faktorët e marrë në shqyrtim, vetëm ai i lidhur me mjedisin e përshtatshëm të punës (faktori nr. 22) pasqyron

Page 111: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

102

ndryshime të rëndësishme statistikisht midis grupeve të të intervistuarve. Vetë vlera kritike e vrojtuar dhe probabiliteti më i ulët nga 0.05 tregojnë se rëndësia e perceptuar për këtë faktor ndryshon midis të intervistuarve në sektorin publik dhe atyre në sektorin privat.

Ndër faktorët e tjerë, në bazë të vlerave të tabelës 6.4 nuk ka dallime të rëndësishme midis të dyja grupeve, por nëse analiza thellohet në drejtim të nënfaktorëve, mund të gjejmë disa raste ku sektori privat mendon ndryshe nga ai publik, të paktën në lidhje me të anketuarit e përfshirë në studim.

Kështu, të dhënat tregojnë se trajnimi është faktor njësoj i rëndësishëm për të dyja kategoritë, por nëse flasim për trajnimin e vazhdueshëm, sektori publik e vlerëson shumë më të rëndësishëm këtë nënfaktor në krahasim me sektorin privat (p=0.027). Po ashtu, e njëjta gjë mund të thuhet për nënfaktorin e lidhur me njohuritë mbi funksionimin e SIK-ut, ku të anketuarit nga sektori publik e shohin këtë çështje më të rëndësishme nga grupi tjetër (p=0.04). Ndërkaq, thuajse i rëndësishëm rezulton ndryshimi midis perceptimit të rëndësisë për punën në grup midis profesionistëve të ndryshëm brenda organizatës, ku sërish të anketuarit nga sektori publik e vlerësojnë këtë nënfaktor si më të rëndësishëm (p=0.077). Gjithsesi, faktorët përkatës në tërësi nuk shfaqin dallime të rëndësishme në perceptimin e nivelit përkatës të rëndësisë për dy kategoritë e punësimit të marra në shqyrtim.

Fakti që vetëm 1 nga 24 faktorët e mësipërm pasqyron ndryshime të rëndësishme statistikisht midis grupeve të përzgjedhura të të intervistuarve bën që hipoteza H2 të mos mbështetet nga të dhënat e studimit, pra të mos vërtetohet ndryshimi i supozuar fillimisht.

Përndryshe, mund të thuhet se të dhënat e studimit tregojnë se nuk ka dallime të rëndësishme statistikisht midis perceptimeve të të punësuarve në sektorin publik dhe atyre në sektorin privat mbi rëndësinë e faktorëve individualë në cilësinë e të dhënave në SIK.

6.3. Analiza krahasuese e teknikave të Data Mining me metodat statistikore

6.3.1. Analiza krahasuese për regresionin logjistik.

Në përputhje me objektivat e studimit, në këtë seksion do të analizohet rasti nëse ka dallime të rëndësishme nga ana statistikore midis faktorëve të përcaktuar sipas metodave statistikore me ata të përcaktuar sipas teknikës së mësipërme, regresionit logjistik.

Krahasimi do të bëhet duke pasur parasysh dhe renditjen e këtyre faktorëve. Ndërkaq, përpara se të analizohet testi statistikor më i përshtatshëm në këtë rast dhe të interpretohen rezultatet përkatëse, mund të bëhen disa sqarime paraprake në lidhje me faktorët e përzgjedhur.

Së pari, baza e krahasimit të metodave është e njëjtë, pasi mbështetet në analizën e të dhënave nga pjesa e realizimit të faktorëve. Krahasimi do të bëhet midis renditjeve përkatëse të përcaktuara në kapitullin paraardhës në lidhje me këto metoda.

Page 112: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

103

Së dyti, ndër 24 variabla, renditja e 7 faktorëve më të realizuar nuk përfshin të njëjtët faktorë si në rastin e regresionit logjistik, ndaj, për të bërë krahasimin midis dy grupeve, do të analizohet renditja e plotë e faktorëve, duke marrë prej saj vetëm renditjen e faktorëve të përfshirë në rezultatet e regresionit logjistik. Si rezultat, në tabelën më poshtë, 6.5, jepet përmbledhja midis dy metodave:

Ndërkaq, duhet të rikujtojmë që renditja në rastin e modelit të regresionit bëhet mbi bazën e koeficientit Wald, siç është paraqitur nga tabela 4.9.

Tabela 6.5. Faktorët kyç - metoda statistikore kundrejt regresionit logjistik*Shënim (*): Faktorët e renditur njësoj janë shënuar me gërma të pjerrëta

Rangu Faktorët më të realizuar Regresioni logjistik1 Karakteristikat e SIK Trajnimi2 Trajnimi Karakteristikat e SIK 3 Politikat dhe standardet e vendosura Analiza kosto/përfitim4 Matja dhe raportimi Matja dhe raportimi

5 Angazhimi i personelit drejtuesPolitikat dhe standardet e vendosura

6 Vizioni strategjik Vizioni strategjik 7 Analiza kosto/përfitim Angazhimi i personelit drejtues

Nga tabela më sipër mund të shihet se vetëm dy nga të shtatë faktorët ruajnë renditjen e tyre të njëjtë në të dyja metodat, ndërsa për të tjerët ka lëvizje në kahe të ndryshme. Ky vrojtim mund të jetë i mjaftueshëm për të parashikuar rezultatet e testit statistikor, gjithsesi analiza për të do të bëhet në seksionin në vijim.

Do të analizohet ndryshimi midis grupeve të faktorëve të përcaktuar nga metodat statistikore e regresioni logjistik dhe do të shihet më pas nëse ky ndryshim është i rëndësishëm nga ana statistikore apo jo. Për këtë testim, do të shfrytëzohet metoda joparametrike e gjetjes së korrelacionit të rangut midis grupeve të faktorëve.

Kjo metodë përcakton nëse në dy situata të ndryshme ka apo jo ndryshime të rëndësishme statistikisht midis renditjeve të grupit të faktorëve përkatës. Ndryshimet do të vlerësohen duke pasur për bazë vlerat e ndryshimit mes pozicionit të ri në grupin e faktorëve dhe pozicionit të vjetër për secilin faktor.

Hipoteza bazë lidhet me pohimin se për dy metodat e studiuara nuk ekziston korrelacioni i rangut, ose vlera e tij nuk është e rëndësishme statistikisht. Hipoteza alternative lidhet me pohimin se metodat kanë korrelacion të rëndësishëm mes tyre, që ndikon dhe në renditjen e ngjashme të faktorëve.

Fillimisht llogaritet koeficienti i korrelacionit të rangut, sipas formulës së mëposhtme:

?? = 1 − 6∑(? ? − ? ?)?? (? ? − 1)? , ku (6.1)

Xi është rangu i variablit i në renditjen e faktorëve më të realizuar; yi ështërangu i variablit i në regresionin logjistik dhe n është numri i variablave në secilin grup.

Page 113: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

104

Vlerat e rangjeve dhe ndryshimet përkatëse jepen në tabelën 6.6 në vijim.Ndërkaq, zëvendësimi i vlerave në formulën më sipër çon në përcaktimin e

vlerës së koeficientit të korrelacionit, të barabartë me 0.54. Vlera pozitive tregon që ka një lidhje pozitive mes renditjeve të faktorëve sipas të dyja metodave, pra ka një prirje përputhjeje midis renditjeve përkatëse. Gjithsesi, vlera e përcaktuar është mesatare në intervalin 0-1 të koeficientit të korrelacionit dhe do të duhet testimi i mëtejshëm për të nxjerrë nëse ky koeficient është i rëndësishëm statistikisht apo jo.

Për testin statistikor në vijim do të supozohet se shpërndarja e të dhënave është afërsisht normale.

Tabela 6.6. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë -metoda statistikore kundrejt regresionit logjistik

Variabli Rangu xi Rangu yi (? ? − ??) (? ? − ??)?Karakteristikat e SIK 1 2 -1 1Trajnimi 2 1 1 1Politikat dhe standardet e vendosura

3 5 -2 4

Matja dhe raportimi 4 4 0 0Angazhimi i personelit drejtues 5 7 -2 4Vizioni strategjik 6 6 0 0Analiza kosto/përfitim 7 3 4 16

Duke supozuar shpërndarje afërsisht normale pra, mund të përcaktojmë vlerat e mesatares dhe devijimit standard për koeficientin e korrelacionit si më poshtë, në përputhje me vlerat e popullimit:μ?? = 0

σ?? = ? ?? ? ? = ? ?

? = 0.41

Testimi do të bëhet me anë të vlerës së z, si më poshtë:

z = r − μσ = 0.540.41 = 1.31Vlera e vrojtuar e z është më e vogël se 1.96, që do të thotë se të dhënat që

kemi nuk janë të mjaftueshme për të hedhur poshtë hipotezën H0, pra metodat nuk kanë korrelacion të rëndësishëm midis tyre, që sjell si rezultat që renditjet e faktorëve të jenë të pavarura midis metodave në shqyrtim.

Në fakt, një rezultat i tillë ishte i pritshëm nisur nga analiza paraprake, dhe gjithashtu duke pasur parasysh mënyrat si është arritur në përcaktimin e secilit grup faktorësh kyç. Dallimet e shumta midis renditjeve të faktorëve individualë tregojnë se nuk ka një lidhje midis dy metodave dhe kjo u vërtetua edhe me anë të testimit të mësipërm.

Page 114: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

105

6.3.2. Analiza krahasuese e teknikës së pemëve të vendimit me metodat statistikore

Në përputhje me objektivat e studimit, në këtë seksion do të analizohet rasti nëse ka dallime të rëndësishme nga ana statistikore midis faktorëve të përcaktuar sipas metodave statistikore me ata të përcaktuar sipas teknikës së mësipërme, pemës së vendimit me modelin C4.5.

Krahasimi do të bëhet duke pasur parasysh dhe renditjen e këtyre faktorëve. Si rezultat, në tabelën më poshtë jepet përmbledhja midis dy metodave:

Tabela 6.7. Faktorët kyç - metoda statistikore kundrejt pemës së vendimit*Shënim (*): Faktorët e renditur njësoj janë shënuar me gërma të pjerrëta

Rangu Faktorët më të realizuar Pema e vendimit C4.51 Karakteristikat e SIK Trajnimi2 Trajnimi Matja dhe raportimi3 Politikat dhe standardet e vendosura Politikat dhe standardet e vendosura4 Matja dhe raportimi Analiza kosto/përfitim5 Angazhimi i personelit drejtues Vizioni strategjik6 Vizioni strategjik Karakteristikat e SIK7 Analiza kosto/përfitim Angazhimi i personelit drejtues

Nga tabela më sipër mund të shihet se vetëm njëri nga të shtatë faktorët ruan renditjen e tij të njëjtë në të dyja metodat, ndërsa për të tjerët ka lëvizje në kahe të ndryshme. Ky vrojtim mund të jetë i mjaftueshëm për të parashikuar rezultatet e testit statistikor, gjithsesi analiza për të do të bëhet në seksionin në vijim.

Do të analizohet ndryshimi midis grupeve të faktorëve të përcaktuar nga metodat statistikore e pema e vendimit dhe do të shihet më pas nëse ky ndryshim është i rëndësishëm nga ana statistikore apo jo. Për këtë testim, do të shfrytëzohet metoda joparametrike e gjetjes së korrelacionit të rangut midis grupeve të faktorëve. Më tej, do të mund të përcaktohet ndryshimi midis rezultateve nga regresioni logjistik dhe pema e vendimit, nëse është pra statistikisht i rëndësishëm apo jo.

Vlerat e rangjeve dhe ndryshimet përkatëse jepen në tabelën 6.8. Zëvendësimi i vlerave në formulën më sipër çon në përcaktimin e vlerës së koeficientit të korrelacionit, të barabartë me 0.39. Vlera pozitive tregon që ka një lidhje pozitive mes renditjeve të faktorëve sipas të dyja metodave, pra ka një prirje përputhjeje midis renditjeve përkatëse. Gjithsesi, vlera e përcaktuar është e ulët dhe do të duhet testimi i mëtejshëm për të nxjerrë nëse koeficienti i korrelacionit është i rëndësishëm statistikisht apo jo.

Duke supozuar shpërndarje afërsisht normale, mund të përcaktojmë vlerat e mesatares dhe devijimit standard për koeficientin e korrelacionit si më poshtë, në përputhje me vlerat e popullimit:

m?? = 0

Page 115: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

106

? ?? = ? ?? ? ? = ? ?

?= 0.41

Tabela 6.8. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë –metoda statistikore kundrejt pemës së vendimit

Variabli Rangu xi Rangu yi (? ? − ? ?) (? ? − ? ?)?Karakteristikat e SIK 1 2 -1 1Trajnimi 2 1 1 1Politikat dhe standardet e vendosura 3 7 -4 16Matja dhe raportimi 4 6 2 4Angazhimi i personelit drejtues 5 3 2 4Vizioni strategjik 6 4 2 4Analiza kosto/përfitim 7 5 2 4

Testimi do të bëhet me anë të vlerës së z, si më poshtë:

? = ? − ?? = 0.390.41 = 0.96Vlera e vrojtuar e z është më e vogël se 1.96, që do të thotë se të dhënat që

kemi nuk janë të mjaftueshme për të hedhur poshtë hipotezën H0, pra metodat nuk kanë korrelacion të rëndësishëm midis tyre, që sjell si rezultat që renditjet e faktorëve të jenë të pavarura midis metodave në shqyrtim.

Në fakt, një rezultat i tillë ishte i pritshëm nisur nga analiza paraprake, dhe gjithashtu duke pasur parasysh mënyrat si është arritur në përcaktimin e secilit grup faktorësh kyç. Dallimet e shumta midis renditjeve të faktorëve individualë tregojnë se nuk ka një lidhje midis dy metodave dhe kjo u vërtetua edhe me anë të testimit të mësipërm.

6.3.3. Analiza krahasuese e teknikës së rrjetave nervore me metodat statistikore

Në përputhje me objektivat e studimit, në këtë seksion do të analizohet rasti nëse ka dallime të rëndësishme nga ana statistikore midis faktorëve të përcaktuar sipas metodave statistikore me ata të përcaktuar sipas teknikës së mësipërme, teknikës së rrjetave nervore, më konkretisht MLP, duke analizuar renditjen e faktorëve përkatës.

Në tabelën 6.9 në faqen në vijim jepet përmbledhja midis dy metodave.Nga tabela më poshtë mund të shihet se asnjëri nga të shtatë faktorët nuk e

ruan renditjen e tij të njëjtë në të dyja metodat. Ky përfundim mund të vlejë për të kuptuar rezultatet e pritshme nga testi statistikor, që do të analizohet në seksionin në vijim.

Do të analizohet ndryshimi midis grupeve të faktorëve të përcaktuar nga metodat statistikore dhe teknika MLP, duke nxjerrë përfundimin më pas nëse ky ndryshim është i rëndësishëm nga ana statistikore apo jo. Për këtë testim, do të shfrytëzohet e njëjta metodë si në rastet e mëparshme.

Vlerat e rangjeve dhe ndryshimet përkatëse jepen në faqen në vijim në tabelën 6.10.

Page 116: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

107

Tabela 6.9. Faktorët kyç - metoda statistikore dhe perceptroni shumështresor (MLP)Rangu Faktorët më të realizuar Teknika MLP

1 Karakteristikat e SIK Trajnimi2 Trajnimi Politikat dhe standardet e vendosura3 Politikat dhe standardet e vendosura Analiza kosto/përfitim4 Matja dhe raportimi Vizioni strategjik5 Angazhimi i personelit drejtues Karakteristikat e SIK6 Vizioni strategjik Matja dhe raportimi7 Analiza kosto/përfitim Angazhimi i personelit drejtues

Zëvendësimi i vlerave në formulën e koeficientit të korrelacionit çon në përcaktimin e vlerës së koeficientit të korrelacionit, të barabartë me 0.18. Vlera e koeficientit është pozitive dhe tregon që ka një prirje pozitive mes renditjeve të faktorëve sipas të dyja metodave, që gjithsesi duhet testuar më tej nëse përbën vlerë të rëndësishme apo jo.

Tabela 6.10. Tabela përmbledhëse me ndryshimet e rangjeve të faktorëve individualë,metoda statistikore kundrejt MLP

Variabli Rangu xi Rangu yi (? ? − ? ?) (? ? − ? ?)2

Karakteristikat e SIK 1 5 -4 16Trajnimi 2 1 1 1Politikat dhe standardet e vendosura 3 2 1 1Matja dhe raportimi 4 6 -2 4Angazhimi i personelit drejtues 5 7 -2 4Vizioni strategjik 6 4 2 4Analiza kosto/përfitim 7 3 4 16

Duke supozuar shpërndarje afërsisht normale, edhe në këtë rast mund të përcaktojmë vlerat e mesatares dhe devijimit standard për koeficientin e korrelacionit si më poshtë:

m?? = 0? ?? = ? ?

? ? ? = ? ?? = 0.41

Testimi do të bëhet me anë të vlerës së z, si më poshtë:

? = ? − ?? = 0.180.41 = 0.44Vlera e vrojtuar e z është më e vogël se 1.96, që do të thotë se të dhënat që

kemi nuk janë të mjaftueshme për të hedhur poshtë hipotezën H0, pra metodat nuk kanë korrelacion të rëndësishëm midis tyre, që sjell si rezultat që renditjet e faktorëve të jenë të pavarura midis metodave në shqyrtim.

Ky rezultat ishte i pritshëm nisur nga analiza paraprake dhe mund të shpjegohet duke u nisur nga vetë mënyra si funksionon secila metodë. Dallimet e

Page 117: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

108

shumta midis renditjeve të faktorëve individualë tregojnë se nuk ka një lidhje midis dymetodave dhe kjo u vërtetua edhe me anë të testimit të mësipërm.

6.4. Analiza krahasuese midis teknikave Data Mining të përdorura

6.4.1. Analiza krahasuese e teknikës së pemëve të vendimit me regresionin logjistik

Në përputhje me objektivat e studimit, në këtë seksion do të analizohet nëse ka dallime të rëndësishme nga ana statistikore midis faktorëve të përcaktuar sipas regresionit logjistik me ata të përcaktuar sipas pemës së vendimit.

Do të merret parasysh renditja e faktorëve nga rezultatet e marra prej të dyja metodave. Për renditjen e faktorëve më të mirë sipas metodës së regresionit logjistik është përdorur sërish vlera rritëse e koeficientit Wald. Tabela më poshtë jep në mënyrë të përmbledhur renditjen e përcaktuar nga secila metodë për faktorët më të mirë:

Tabela 6.11. Faktorët kyç – regresioni logjistik kundrejt pemës së vendimit*Shënim (*): Faktorët e renditur njësoj janë shënuar me gërma të pjerrëta

Rangu Regresioni logjistik Pema e vendimit1 Trajnimi Trajnimi2 Karakteristikat e SIK Karakteristikat e SIK 3 Analiza kosto/përfitim Angazhimi i personelit drejtues 4 Matja dhe raportimi Vizioni strategjik 5 Politikat dhe standardet e vendosura Analiza kosto/përfitim6 Vizioni strategjik Matja dhe raportimi7 Angazhimi i personelit drejtues Politikat dhe standardet e vendosura

Duke parë faktorët e përfshirë, shihet se 2 prej tyre nuk e kanë ndryshuar renditjen, çka nënkupton një përputhje më të lartë midis rezultateve të marra prej metodave të mësipërme. Gjithsesi, testimi statistikor do të jetë ai që do të përcaktojë rëndësinë e ndryshimeve.

Njësoj si në rastin e mësipërm, do të testohet hipoteza H0 që tregon se nuk ka korrelacion të rëndësishëm midis rangjeve të faktorëve individualë midis të dyja metodave, kundrejt Ha që mbështet supozimin se ka një korrelacion të rëndësishëm midis rezultateve të të dyja metodave.

Duke zbatuar formulën e njohur mbi koeficientin e korrelacionit të rangut, shohim se vlera e tij del e barabartë me 0.43. Vlera pozitive tregon se ka një lidhje pozitive në renditjet e faktorëve sipas të dyja metodave, gjithsesi rëndësia statistikore e kësaj lidhjeje do të provohet nga llogaritjet e mëposhtme, duke rimarrë vlerat për μ??dhe σ?? nga analiza e deritanishme:

? = ? − ?? = 0.430.41 = 1.313

Page 118: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

109

Vlera e mësipërme e z të vrojtuar është sërish më e vogël nga ajo kritike, çka tregon se edhe në këtë rast, të dhënat që kemi nuk janë të mjaftueshme për të hedhur poshtë H0, pra nuk ka një lidhje të rëndësishme midis rezultateve të të dyja metodave. Ky përfundim ishte më pak i pritshëm nga rasti më sipër, gjithsesi edhe në këtë rast vërtetohet se metodat e ndryshme nuk mund të çojnë në rezultate të njëjta, duke pasur parasysh dhe supozimet bazë të tyre dhe mënyrën sesi përllogariten faktorët më të mirë përfundimtarë.

6.4.2 Analiza krahasuese e teknikës së rrjetave nervore me teknikat e tjera

Në përputhje me objektivat e studimit, në këtë seksion do të analizohet nëse ka dallime të rëndësishme nga ana statistikore midis faktorëve të përcaktuar sipas regresionit logjistik me ata të përcaktuar sipas teknikës C4.5 dhe më pas do të bëhet krahasimi me rezultatet e marra nga teknika MLP.

Do të merret parasysh sërish renditja e faktorëve nga rezultatet e marra prej të dyja metodave. Tabela më poshtë jep në mënyrë të përmbledhur renditjen e përcaktuar nga secila metodë për faktorët më të mirë:

Tabela 6.12. Faktorët kyç – krahasimi midis teknikave Data Mining

FaktoriRangu

Regresioni logjistik

Pema e vendimit

Teknika MLP

Angazhimi i personelit drejtues 7 3 7

Trajnimi 1 1 1Vizioni strategjik 6 4 4Politikat dhe standardet e vendosura 5 7 2Karakteristikat e SIK 2 2 5Matja dhe raportimi 4 5 6Analiza kosto/përfitim 3 6 3

Duke parë faktorët e përfshirë, shihet se vetëm njëri prej tyre nuk e ka ndryshuar renditjen, faktori i lidhur me trajnimin, çka përfaqëson një përputhje më të lartë në krahasim me rezultatet më sipër.

Njësoj si në rastin e mësipërm, do të testohet hipoteza H0 që tregon se nuk ka korrelacion të rëndësishëm midis rangjeve të faktorëve individualë midis dy prej metodave, kundrejt Ha që mbështet supozimin se ka një korrelacion të rëndësishëm midis rezultateve të dy metodave në studim.

Fillimisht do të bëhet krahasimi midis rezultateve të nxjerra nga regresioni logjistik kundrejt teknikës MLP. Duke zbatuar formulën e njohur mbi koeficientin e korrelacionit të rangut, shohim se vlera e tij del e barabartë me 0.54. Vlera pozitive është jo e vogël dhe mund të tregojë se ka një lidhje pozitive në renditjet e faktorëve sipas të dyja metodave, gjithsesi rëndësia statistikore e kësaj lidhjeje do të provohet nga llogaritjet e mëposhtme, duke rimarrë vlerat për μ?? dhe σ?? nga analiza e

deritanishme:

Page 119: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

110

? = ? − ?? = 0.530.41 = 1.313Vlera e mësipërme e z të vrojtuar është sërish më e vogël nga ajo kritike, çka

tregon se edhe në këtë rast, të dhënat që kemi nuk janë të mjaftueshme për të hedhur poshtë H0, pra nuk ka një lidhje të rëndësishme midis rezultateve të të dyja metodave. Ky përfundim ishte më pak i pritshëm nga rasti më sipër, gjithsesi edhe në këtë rast vërtetohet se metodat e ndryshme nuk mund të çojnë në rezultate të njëjta, duke pasur parasysh dhe supozimet bazë të tyre dhe mënyrën sesi përllogariten faktorët më të mirë përfundimtarë.

Më tej, do të bëhet krahasimi midis rezultateve të marra nga pema e vendimit C4.5 dhe atyre të lidhura me teknikën e perceptronit shumështresor. Koeficienti i korrelacionit të rangut në këtë rast është i barabartë me -0.07, që tregon se ky koeficient edhe në këtë rast nuk tregon korrelacion midis rezultateve. Për ta vërtetuar, bëhet hipoteza me testimet përkatëse:

? = ? − ?? = −0.070.41 = −0.17Vlera e vrojtuar e z është edhe më e vogël nga më përpara në terma absolutë,

që do të thotë se të dhënat nuk japin mbështetje për të hedhur poshtë hipotezën H0. Nuk ka pra një lidhje të rëndësishme midis renditjeve të faktorëve në të dyja rastet.

6.5. Analiza krahasuese e teknikave para dhe pas përmirësimit.

Nëse shihen rezultatet e marra nga analiza e bërë në kapitullin 5, del se ndryshimi i teknikave të zbatuara me anë të metodës bagging ka sjellë përmirësime.

Fillimisht, nëse shihen vlerat nga tabelat përkatëse, mund të nxirret përfundimi se ndryshimi me anë të metodës bagging e ka përmirësuar nivelin e parashikimit të teknikave përkatëse. Kjo mund të vërtetohet lehtë përsa kohë që në 12 raste, vetëm në 1 rast nuk ka ndryshim nga çasti para ndryshimit.

Gjithsesi, ky është përfundimi që mund të jepet thjesht duke krahasuar vlerat përkatëse, por një vlerësim më i rëndësishëm do të bëhet në vijim. Për këtë do të përdoren metodat joparametrike, meqë zgjedhja është e vogël dhe meqë nuk jemi të sigurt për shpërndarjen e të dhënave. Do të krahasojmë rezultatet para dhe pas ndryshimit. Metoda e përzgjedhur është ajo e shenjave të Wilcoxon-it.

Të dhënat për rezultatet e testimit me anë të testit të Wilcoxon jepen në tabelën 6.13.

Tabela 6.13. Dallimi para dhe pas ndryshimit

Para ndryshimit Pas ndryshimit Vlera zvr Probabiliteti (p)

59.93 63.32 2.94 0.003

Nga tabela 6.13 shihet qartë se vlerat para dhe pas ndryshimit kanë dallim të rëndësishëm. Kështu, nëse pyetja është a janë vlerat e normës së parashikimit të saktë pas ndryshimit më të larta se ato përpara ndryshimit, përgjigjen e marrim tek vlera e

Page 120: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

111

probabilitetit, që është shumë e vogël. Pra, ka dallim midis dy çasteve, ku vlerat pas ndryshimit janë më të larta në krahasim me përpara ndryshimit.

Në këtë mënyrë, hipoteza H5 u mbështet nga të dhënat në studim.Si përfundim, nëse bëjmë një përmbledhje për të gjithë hipotezat e ngritura në

këtë studim, katër prej tyre u mbështetën nga të dhënat në studim, ndërsa e vetmja që nuk gjeti mbështetje ishte hipoteza mbi dallimet në perceptimin e rëndësisë së faktorëve kyç midis nëpunësve publikë dhe punonjësve në sektorin privat.

6.6. Përmbledhje mbi rezultatet e krahasimit dhe hipotezat e ngritura

Në këtë kapitull u analizuan në mënyrë krahasuese rezultatet e marra nga kapitujt 4 dhe 5. Këto rezultate lidhen në mënyrë të drejtpërdrejtë me boshtin kryesor të këtij punimi doktorate, duke i dhënë përgjigje 5 hipotezave të ngritura.

6.6.1. Dallimet midis rëndësisë dhe realizimit të faktorëve.

U analizuan rezultatet e marra nga kapitulli 4 mbi faktorët më të rëndësishëm dhe ata më të realizuar sipas perceptimit të të anketuarve. Vihet re se kishte nëntë faktorë të përbashkët, të përfshirë ndër faktorët më të mirë sipas secilit vlerësim.

Pavarësisht nga kjo ngjashmëri në renditje, kur u krahasuan vlerat e vrojtuara midis dy seksioneve për të njëjtët faktorë, u arrit në përfundimin se vetëm dy faktorë nuk shfaqnin dallime të rëndësishme midis vlerave të shfaqura tek seksioni i rëndësisë së faktorëve dhe vlerave tek seksioni i realizimit. Këta dy faktorë ishin mjedisi i punës dhe marrëdhëniet e mira në punë, ndërsa për të gjithë faktorët e tjerë kishte dallime të dukshme dhe të rëndësishme statistikisht.

Përfundimisht, hipoteza H1 qëndron dhe u mbështet nga të dhënat e studimit.

6.6.2. Dallimet midis të punësuarve në sektorin privat dhe në atë publik.

U analizuan rezultatet e marra mbi nivelin e rëndësisë së faktorëve. Kategoritë e punësimit ishin të koduara me numra, dhe grupet e përcaktuara për testim kishin përkatësisht vlerat 1, 2 dhe 3.

Rezultatet treguan se, ndër 24 faktorë, vetëm njëri prej tyre shfaqte dallime të rëndësishme të vlerave midis dy kategorive kryesore, pra të punësuarve në sektorin privat (përfshin vlerat 1 dhe 2) dhe atë publik (vlera 3). Faktori ishte sërish mjedisi i mirë i punës, i cili në këtë rast tregonte se nëpunësit publikë e vlerësojnë nivelin e rëndësisë së këtij faktori ndryshe nga punonjësit në sektorin privat. Faktorët e tjerë nuk shfaqin dallime të rëndësishme statistikisht, me përjashtim të disa nënfaktorëve të veçantë.

Përfundimisht, hipoteza H2 nuk u mbështet nga të dhënat e studimit.

6.6.3. Dallimet midis teknikave Data Mining dhe metodave statistikore.

Page 121: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

112

U analizuan rezultatet e marra nga kapitulli 4, ku theksi kryesor u vu në renditjen e faktorëve më të mirë midis teknikave Data Mining dhe faktorëve më të realizuar të përcaktuar me anë të shpeshtësisë së herëve që një faktor përfshihej në tre faktorët më të realizuar nga secili i anketuar.

Për të pasur bazë të njëjtë krahasimi, u desh të merreshin për bazë 13 faktorët më të realizuar me anë të metodës së mësipërme, meqë të dhënat do të lidheshin me seksionin e realizimit të faktorëve në pyetësor.

Rezultatet treguan se, me anë të testit të korrelacionit të rangut, asnjë nga teknikat nuk kishte renditje të njëjtë me metodën e shfrytëzuar në lidhje me shpeshtësinë e herëve.

Edhe pse renditja e disa faktorëve mund të ishte e njëjtë, sërish nuk mjaftonte për të hedhur poshtë hipotezën H3.

Përfundimisht, hipoteza H3 qëndron dhe u mbështet nga të dhënat e studimit.

6.6.4. Dallimet midis teknikave Data Mining.

U analizuan rezultatet e marra nga kapitulli 4, ku theksi kryesor u vu në renditjen e faktorëve më të mirë midis teknikave Data Mining.

Rezultatet treguan se, me anë të testit të korrelacionit të rangut, asnjë nga teknikat nuk kishte renditje të njëjtë me të paktën një nga teknikat e tjera.

Vihet re se i vetmi faktor që nuk ka ndryshuar renditjen e tij është trajnimi, që del kështu faktori më i mirë. Ndërkaq, edhe pse renditja e tij ishte e njëjtë, sërish nuk mjaftonte për të hedhur poshtë hipotezën H4.

Përfundimisht, hipoteza H4 qëndron dhe u mbështet nga të dhënat e studimit.

6.6.5. Dallimet para dhe pas përmirësimit të teknikave Data Mining.

U analizuan rezultatet e marra nga kapitulli 5, ku theksi kryesor u vu në normat e parashikimit të saktë me anë të teknikave Data Mining,të përdorura para dhe pas zbatimit të metodës bagging.

Rezultatet treguan se, me anë të testit të shenjave të Wilcoxon-it, vlerat e parashikimit para dhe pas ndryshimit kishin dallime të rëndësishme.

Vihet re se ndër 12 raste, vetëm në 1 rast vlerat e parashikimit të saktë nuk janë përmirësuar nga zbatimi i metodës bagging. Kështu, mund të themi se kjo metodë përmirësoi performancën e teknikave Data Mining të përdorura.

Përfundimisht, hipoteza H5 qëndron dhe u mbështet nga të dhënat e studimit.Si përmbledhje, ndër pesë hipotezat të ngritura në fillim të studimit, katër prej

tyre qëndrojnë. Kjo do të thotë që pritshmëritë janë përmbushur thuajse plotësisht.

Page 122: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

113

KAPITULLI 7: KONKLUZIONE DHE REKOMANDIME

Cilësia e të dhënave mbetet një çështje shumë e rëndësishme. Nga ana tjetër, të gjitha të dhënat janë të vlefshme, por jo të gjitha janë të rëndësishme në një kontekst të caktuar. Në këtë punim doktorate, u trajtuan faktorët kyç që ndikojnë në cilësinë e të dhënave në SIK, duke nxjerrë një sërë përfundimesh të rëndësishme. Në seksionet në vijim, do të trajtohet fillimisht një përmbledhje e punimit, e pasuar nga arritjet dhe kufizimet e punimit dhe kapitulli do të mbyllet me rekomandimet për një program të mundshëm në lidhje me ruajtjen e një niveli të lartë të cilësisë së të dhënave.

7.1. Përmbledhje e punimit.

Qëllimi kryesor i këtij punimi doktorate ishte të tregonte se cilësia e të dhënave, ky koncept sa i vjetër, aq edhe i ri për aspektet që përfshin, mund të trajtohet me anë të teknikave moderne inteligjente, nën emrin e Data Mining. Më konkretisht, përmes këtij punimi, është dashur të tregohet se niveli i cilësisë së të dhënave në SIK mund të trajtohet si një problem klasifikimi, ku mjafton të njihet cilat janë nivelet përkatëse në realitet dhe pastaj, në bazë të tyre, të bëhet trajnimi i komponentëve inteligjentë për të mundësuar një parashikim sa më të saktë të rasteve të reja, të pashqyrtuara më parë.

Përpara se të përmenden arritjet dhe kufizimet e këtij punimi, do të trajtohet në mënyrë të përmbledhur kontributi i çdo kapitulli të punimit në një njohje më të mirë të problemit dhe zgjidhjeve të mundshme.

Kështu, kapitulli i parë trajtoi disa nga proceset e ndryshme që ndikojnë mbi cilësinë e të dhënave. Në disa raste, të dhënat jo të mira vijnë nga burime dytësore, jashtë bazës së të dhënave, përmes konvertimit të të dhënave, regjistrimit të të dhënave nga një individ, apo edhe ndërfaqeve të ndryshme për integrimin e të dhënave. Në raste të tjera, të dhënat dëmtohen për shkak të përpunimit të brendshëm nga sistemi ekzistues. Po ashtu, në shumë raste ndodh që cilësia e të dhënave të bjerë pa pësuar ndryshime në të dhënat vetë. Më tej, shpjeguam motivet kryesore të trajtimit të këtij punimi doktorate bashkë me qëllimet përkatëse. Përveç propozimit të modeleve të përshtatshme përmes teknikave Data Mining për përcaktimin e nivelit të cilësisë së të dhënave në SIK, qëllime të tjera dytësore ishin gjetja e faktorëve më të rëndësishëm dhe atyre më të realizuar, në bazë të rezultateve të marra nga anketa e zhvilluar. Më tej, u paraqitën objektivat dhe hipotezat kryesore, të cilat shërbyen si pika kyç të strukturës së përcaktuar për punimin e doktoratës. Punimi në fjalë është i rëndësishëm për shumë grupe interesi dhe mund të zgjerohet në drejtime të reja, të paeksploruara në këtë studim.

Kapitulli i dytë është kapitulli ku bëhet përmbledhja e literaturës së lidhur me fushat e interesit. Kështu, fillimisht u trajtuan konceptet kryesore dhe literatura e rëndësishme në lidhje me fushën e cilësisë së të dhënave, e cila shpesh është

Page 123: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

114

kombinuar me aspekte të menaxhimit të cilësisë. Trajtimi vijoi me shpjegimin e literaturës së rëndësishme në lidhje me SIK-un, ku u trajtuan konceptet kryesore dhe u mundësua orientimi i lexuesit drejt elementeve të lidhur me cilësinë e të dhënave. Së fundmi, u trajtuan konceptet kryesore lidhur me Data Mining, dhe literatura përkatëse u trajtua duke pasur parasysh kontekstin e këtij punimi. Pas eksplorimit në tre fushat kryesore të interesit, u pa e arsyeshme që të eksploroheshin edhe ndërthurjet midis fushave respektive. Janë shfrytëzuar për këtë disertacion më shumë se 100 artikuj, botime etj. gjithsej, ndër të cilët rreth 40 në lidhje me cilësinë e të dhënave, rreth 10 në lidhje me SIK, dhe rreth 20 në ndërthurjen midis tyre. Më tej, janë konsultuar rreth 10 artikuj në lidhje me Data Mining dhe rreth 30 të tjerë në ndërthurjen midis Data Mining dhe SIK. Për shkak edhe të një pune disavjeçare kërkimore mbi cilësinë e të dhënave dhe faktorët përkatës nga autorë të ndryshëm, në këtë rast literatura në përgjithësi nuk është shumë bashkëkohore, për sa kohë që konceptet kryesore nuk kanë pësuar ndryshime të rëndësishme në vitet e fundit, të paktën në lidhje me cilësinë e të dhënave.

Kapitulli 3 është shumë i rëndësishëm, pasi në të përshkruhet metodologjia e ndjekur për kërkimin shkencor përgjatë të gjithë punimit. Ky kapitull fillon me përcaktimin e metodologjisë që do ndiqet në vijimësi, duke përmendur këtu disa faza. Kështu, në çastin e përshkrimit të literaturës së rëndësishme, kërkimi kishte natyrë eksploruese, për të kuptuar më së shumti mjedisin ku përfshihet cilësia e të dhënave si koncept, bashkë me konceptet e fushave të tjera. Më pas, faktorët e nxjerrë nga konsultimi me literaturën dhe ndërtimi i pyetësorëve i jep kërkimit një trajtë eksperimentuese, pasi tashmë këta faktorë testohen në një grup të gjerë dhe pritet të merren rezultate të mira në lidhje me parashikimin e faktorëve më të mirë që ndikojnë në nivelin e cilësisë së të dhënave në SIK. Mbledhja e rezultateve nga pyetësorët krijoi mundësinë për analizim të tyre duke zbatuar teknikat Data Mining të gjykuara si më të përshtatshmet për problemet e klasifikimit. Këtu, është shfrytëzuarmetodologjia e modelimit, ndërkohë që përcaktohen një grup faktorësh më të mirë nga të tjerët, të cilët do të jenë pjesë e modeleve të ndërtuara me anë të teknikave Data Mining. Përdorimi i këtij kombinimi metodologjish është bërë për të plotësuar objektivat e vëna në fillim të punës për projektin në fjalë.

Kapitulli 4 u mor kryesisht me analizimin e rezultateve të marra nga mbledhja e të dhënave të pyetësorit. U nxorën përfundime të rëndësishme mbi të dhënat e përgjithshme të individëve të anketuar, bashkë me perceptimin e tyre mbi faktorët më të rëndësishëm dhe më të realizuar në lidhje me nivelin e cilësisë së të dhënave në SIK. Këto përfundime do të shërbenin për të kontrolluar vërtetësinë e 4 hipotezave të ngritura në fillim të punimit dhe për analizën e mëtejshme në vazhdim të kapitullit. Kështu, mbështetur në të dhënat e marra nga seksioni i realizimit të faktorëve dhe të shndërruara më tej në vlera binare, u krijuan modele të ndryshme për parashikimin e nivelit të cilësisë së të dhënave në SIK përmes teknikave Data Mining. Modelet u ndërtuan duke marrë parasysh së pari grupin e zvogëluar të përbërë prej 7 faktorëve, të krijuar pas analizës faktoriale mbi të dhënat e mbledhura nga pyetësorët, dhe më tej, për krahasim, grupin e plotë të faktorëve të përfshirë në pyetësorët e shpërndarë.

Page 124: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

115

Kapitulli 5 shfrytëzon modelet e trajtuara në fund të kapitullit paraardhës për të kuptuar më tej nëse teknikat e përdorura bëjnë një parashikim të mirë edhe për rastet e reja, për të cilat ato nuk janë trajnuar. Për këtë u përdorën metodat e vlerësimit, ku u zgjodhën 4 të tilla. Më konkretisht, u përzgjodh një metodë vlerësimi me ndarje në raportin 2:1 midis të dhënave për trajnim dhe të dhënave për testim të mëtejshëm. Gjithashtu, u përfshinë në vlerësim dhe 3 metoda vlerësimi të kryqëzuar x-fish, ku të dhënat u ndanë në përkatësisht 10, 6 dhe 182 grupe për trajnim dhe testim të mëtejshëm. Me përjashtim të metodës së vlerësimit të kryqëzuar 182-fish, të gjitha metodat e tjera të vlerësimit mundën të respektojnë ndarjen fillestare të barabartë mes rasteve me nivel të ulët dhe atyre me nivel të lartë të cilësisë së të dhënave në SIK. Ruajtja e raportit për të dhënat e trajnuara mundëson një rezultat përfundimtar më të saktë dhe jo të anuar drejt njërës prej kategorive kryesore. Më tej, u studiua përdorimi i metodës bagging, e cila përmes rikombinimit të të dhënave mund të japë rezultate të përmirësuara për parashikimin e saktë të problemit në shqyrtim. Përfundimet e marra nga zbatimi i metodës bagging mbi teknikat Data Mining do të shërbejnë për kontrollin e vërtetësisë së hipotezës nr. 5 të ngritur në kapitullin 1.

Kapitulli 6 është kapitulli ku bëhet kontrolli i vërtetësisë së hipotezave kryesore të ngritura në këtë punim doktorate. Krahas kontrollit të hipotezave, në secilin rast bëhet dhe një analizë paraprake krahasuese midis elementeve të kontrolluara, për të ndihmuar në interpretimin e rezultateve përfundimtare. Ndër 5 hipotezat e ngritura në fillim të studimit, përfundimet nga kontrolli statistikor i realizuar tregojnë se në 4 raste të dhënat e mbledhura mbështesin hipotezën e ngritur. Rasti i vetëm që nuk mbështetet nga të dhënat në studim lidhet me faktorët më të rëndësishëm të përcaktuar përkatësisht nga individët e punësuar në sektorin publik dhe ata të punësuar në sektorin privat. Në bazë të kontrollit statistikor të bërë, përfundimet tregojnë se nuk ka dallim të rëndësishëm midis perceptimeve të dy grupeve të të anketuarve të përfshira në studim. Në lidhje me pritshmëritë fillestare, përfundimet tregojnë se vërtetësia e 4 prej hipotezave kryesore të ngritura i ka përmbushur ato thuajse plotësisht.

Në vazhdim të kapitullit, do të trajtohen më në detaj arritjet e këtij punimi doktorate, kufizimet kryesore bashkë me rekomandimet për një arkitekturë të përshtatshme për cilësinë e të dhënave.

7.2. Arritjet e punimit.

Në këtë punim doktorate, u shfrytëzua kombinimi i disa metodologjive në funksion të një pune cilësore për të arritur përfundime të rëndësishme në lidhje me cilësinë e të dhënave në SIK. Për këtë arsye, fillimisht u rishikua literatura e rëndësishme për përcaktimin e faktorëve kyç që do të ishin pjesë e studimit hap pas hapi, për të mundësuar modelimin e problemit të cilësisë së të dhënave në SIK me anë të teknikave të përshtatshme Data Mining, si qëllimi kryesor në këtë studim.

Page 125: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

116

Më tej, punimi vijon me përcaktimin e faktorëve të rëndësishëm për cilësinë e të dhënave, duke u nisur nga literatura që i mbështet ata. Faktorët e marrë nga literatura janë plot 20, dhe do të shihen të ndarë sipas grupeve që kanë.

Kështu, në kuadër të menaxhimit të cilësisë dhe cilësisë së të dhënave në përgjithësi, disa ndër faktorët e përcaktuar për të qenë pjesë e pyetësorëve të shpërndarë janë: trajnimi, angazhimi i personelit drejtues, vizioni i qartë për cilësinë e të dhënave, ekzistenca e menaxherit për cilësinë e të dhënave, struktura organizative, politikat dhe standardet e vendosura, matja dhe raportimi, etj. Ndërsa, në kuadër të SIK-ut, faktorët e lidhur kryesisht me to, ishin: karakteristikat e SIK-ut, auditimi, kontrolli mbi input-et dhe kontrollet e brendshme. Kombinimi i të dyja grupeve jep listën e mëposhtme të faktorëve, të shfrytëzuar në pyetësorët e dërguar në fazën e testimit paraprak:

Angazhimi i personelit drejtues; Trajnimi;

Vizioni i qartë për cilësinë e të dhënave;

Ekzistenca e një menaxheri për cilësinë e të dhënave;

Struktura organizative;

Politikat dhe standardet e vendosura;

Kontrolli i cilësisë së të dhënave;

Kontrolli mbi input-et;

Përqendrimi te kërkesat e përdoruesit;

Karakteristikat e SIK-ut;

Marrëdhëniet në mjedisin e punës;

Menaxhimi i ndryshimeve;

Matja dhe raportimi;

Menaxhimi i cilësisë në lidhje me furnizuesit e të dhënave;

Përmirësimi i vazhdueshëm; Puna në grup;

Analiza kosto/përfitim;

Aftësitë e personelit punonjës; Auditimi i SIK-ut;

Kontrollet e brendshme;Pasi u përcaktuan këta faktorë si të rëndësishëm për nivelin e cilësisë së të

dhënave, mbështetur në literaturën e hulumtuar, u kalua tek përgatitja e pyetësorëve. Pyetësori u gjykua si mjeti më i përshtatshëm për të mbledhur të dhëna mbi punësimin e të anketuarve, detyrat e tyre në lidhje me SIK që kanë përdorur, dhe gjithashtu mbi nivelin e rëndësisë dhe realizimit të faktorëve individualë. Këto pyetje janë të ndara në përmbajtjen e pyetësorit midis pjesëve të ndryshme të tij.

Individët e zgjedhur për pyetësorin ishin kontabilistë, të cilët puna e përditshme i lidh me SIK-un e përdorur nga organizatat në Shqipëri ose më gjerë. Ky grup profesionistësh u zgjodh pasi ishte kategoria më e afërt me SIK-un dhe me më tepër njohuri mbi çështjet e cilësisë së të dhënave në SIK. Frame i përdorur lidhej me

Page 126: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

117

institucionet përfaqësuese të kësaj kategorie, të tilla si IEKA dhe SHKFSH. Sampling frame përfshinte në tërësi 702 individë.

Ndërkaq, 182 individë mundën të plotësojnë pyetësorin, çka tregon për një normë përgjigjeje 26%. Pyetësorët e plotësuar ishin më së shumti të shpërndarë përmes postës elektronike individuale, ndërsa një pjesë e vogël e tyre mundën të plotësoheshin të shtypura në letër. Në formën e tij elektronike, pyetësori ishte më i mbrojtur nga mundësia e mosplotësimit të tij, pasi të gjitha fushat ishin të detyrueshme për t’u plotësuar.

Pas testimit paraprak, pati ndryshime të rëndësishme në të gjitha pjesët e pyetësorit, ku në fillim u shtuan koncepti i SIK-ut dhe ai i katër dimensioneve për cilësinë e të dhënave. Në pjesën e dytë, pati riformulime pyetjesh, më konkretisht u kalua nga pyetja mbi tipin e SIK-ut (të blerë, të gatshëm, të krijuar vetë, etj.) në pyetjen mbi emrin e SIK të përdorur.

Pjesa e tretë pësoi më shumë ndryshime drejt variantit përfundimtar, ku u shtuan faktorët e mëposhtëm:

Kultura organizative

Njohja me SIK-un dhe cilësinë e të dhënave Menaxhimi i rrezikut

Mjedisi i mirë i punësKëta faktorë të rinj e çuan numrin e faktorëve në 24 në tërësi, ndërkaq pati dhe

riformulime pyetjesh, duke filluar nga riemërtimi deri tek shtimi i nënfaktorëve, që do të plotësonin kuadrin e faktorit përkatës.

Një element tjetër mjaft pozitiv lidhet me ruajtjen e anonimatit për individët që plotësuan këtë pyetësor, pasi në të nuk kërkohen informacione personale me përjashtim të punësimit. Garantimi i faktit që plotësimi i tyre nuk do të njihet asnjëherë nga persona të tjerë bëri që cilësia e këtij pyetësori dhe norma e përgjigjes të kishin një ndikim pozitiv.

Në kapitullin 4 u arritën përfundime të rëndësishme në lidhje me të dhënat e mbledhura nga plotësimi i pyetësorëve. Kështu, fillimisht u pa që, në lidhje me punësimin, shumica e të anketuarve ishin të punësuar në sektorin privat (41%), në biznese me pronësi shqiptare, më pas kategoria e dytë përbëhej nga të punësuarit në biznese të huaja (25%), dhe vetëm 15% ishin nëpunës në sektorin publik. Pjesa tjetër e kategorive kishte përqindje më të ulëta.

Përvoja në vite me SIK-un ishte pyetja e radhës, e cila pati një shpërndarje të larmishme vlerash, me një mesatare prej 5 vitesh, por ku vlerat lëviznin nga 1 deri në 34 vite përvojë.

Po ashtu, edhe llojet e SIK-ut të përdorur ishin të larmishme. Gjithsesi, shumica e të anketuarve përdornin sisteme të realizuara brenda vendit, ku kryesonteAlpha (41%) me të gjithë versionet e saj, më pas renditet Financa 5, dhe në fund Bilanc. Ndër sistemet e realizuara jashtë Shqipërisë, më popullori është SAP, që përdorej nga 7% e të anketuarve. Si përfundim, rreth 92% e të anketuarve kanë përdorur SIK të realizuar këtu, kurse mbi 16% e tyre kanë përdorur SIK të realizuar

Page 127: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

118

jashtë vendit, çka tregon se një pjesë e mirë e të anketuarve kanë përdorur më shumë se një SIK, mundësisht të alternuar mes produkteve vendase dhe të huaja.

Pyetja për rolin e të anketuarve në lidhje me SIK-un ka pasur një shpërndarje të mirë përgjigjesh, ku gjithsesi roli kryesor ishte ai që e përdorte SIK-un për qëllime të përgjithshme (40%), më tej roli i dytë më i rëndësishëm përfshinte ata që përdornin SIK-un për të përgatitur apo nxjerrë të dhëna (33%).

Pyetja e radhës ishte pyetja që përcakton një pjesë të rëndësishme të vazhdimësisë së studimit dhe lidhet me nivelin e perceptuar të cilësisë së të dhënave në SIK. Në bazë të rezultateve, del se niveli i përgjithshëm është mbi mesataren, ndërsa kur kërkohet të vlerësohen dimensionet përkatëse, vlerësimi ndryshon. Kështu, dimensioni më i vlerësuar është saktësia, ndërsa më pak i vlerësuari është plotësia.

Në kapitullin 4 është analizuar dhe shpërndarja e të dhënave, pasi përmes kësaj mund të zgjidhen mënyra të ndryshme për të vlerësuar rezultatet e anketës. Në bazë të kontrolleve të ndryshme të realizuara mbi normalitetin e të dhënave, del se vlerat përkatëse nuk kanë shpërndarje normale, madje kanë një zhvendosje të pikës kulmore në të djathtë, drejt niveleve të larta të vlerësimit.

Ky përfundim bën që në përcaktimin e faktorëve më të rëndësishëm dhe atyre më të realizuar të përdoreshin metoda vlerësimi joparametrike, si p.sh. mediana. Kështu, në rastin e nivelit të rëndësisë së faktorëve të veçantë, për të gjetur faktorët më të rëndësishëm, rezultatet tregojnë se i vetmi faktor me medianë më të lartë nga të tjerët është ai i kontrollit mbi cilësinë e të dhënave (vlera e medianës, 5), ndërsa të gjithë të tjerët e mbetur e kanë vlerën e medianës 4. Niveli i rëndësisë është i lartë për të gjithë faktorët sipas perceptimit individual të të anketuarve, prandaj vetëm mediana nuk shërben për të përcaktuar faktorët më të rëndësishëm.

Në këtë rast, do të përdorej metoda e shpeshtësisë së herëve që një individ i anketuar përfshin në tre faktorët më të rëndësishëm një faktor të caktuar ose nënfaktorët e tij përkatës. Në bazë të saj, tre faktorët më të rëndësishëm janë:

Trajnimi

Karakteristikat e SIK-ut

Njohja me SIK-un dhe cilësinë e të dhënaveKëta faktorë dalin më të rëndësishmit për nivelin e cilësisë së të dhënave sipas

kësaj analize, ndërkohë që ndër faktorët e tjerë mund të përmendim politikat dhe standardet e vendosura, auditimin, kontrollet e brendshme, angazhimin e personelit drejtues, matjen e raportimin, etj.

Në lidhje me faktorët më të realizuar tashmë, mediana sërish nuk i ndan mirë të gjithë faktorët, pasi shumica vlerësohet me medianë 4, ndërkohë që 4 faktorë janë vlerësuar më ulët nga të tjerët, konkretisht vizioni i qartë, menaxheri për cilësinë e të dhënave, menaxhimi i rrezikut dhe struktura organizative. Do të zbatohet sërish metoda më sipër dhe tre faktorët më të realizuar janë:

Karakteristikat e SIK-ut

Kontrollet e brendshme

Trajnimi

Page 128: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

119

Ndërkaq, faktorë të tjerë më pak të vlerësuar janë politikat dhe standardet e vendosura, matja e raportimi, angazhimi i personelit drejtues, kontrolli mbi cilësinë e të dhënave, etj.

Në lidhje me krahasimin e këtyre rezultateve me atë çfarë thotë literatura përkatëse mbi faktorët kyç, mund të thuhet se faktorët e perceptuar si të realizuar më mirë nga të tjerët janë më afër situatës së përshkruar nga literatura, në krahasim me faktorët e perceptuar si më të rëndësishëm. Në rastin e dytë, faktorët që mbështesin literaturën përkatëse janë karakteristikat e SIK-ut dhe angazhimi i personelit drejtues, kurse në rastin e parë atyre i shtohet dhe puna në grup.

Ndër faktorë e mbështetur nga literatura, rezultatet e studimit treguan se popullata e përzgjedhur për anketim pohuan vetëm dy prej tyre si faktorë kyç, më konkretisht angazhimin e stafit drejtues dhe karakteristikat e SIK-ut. Nga ana tjetër, nga rezultatet e pyetësorëve dolën disa faktorë të rinj kyç, ndër të cilët mund te përmenden:

Trajnimi;

Politikat e Standardet;

Matja e raportimi;

Njohja me SIK-un dhe cilësinë e të dhënave;Më tej, për të përmirësuar aftësinë parashikuese dhe për të lehtësuar

interpretimin e rezultateve, u gjykua e arsyeshme që të bëheshin disa ndryshime tek të dhënat fillestare. Së pari, të dhënat e shprehura sipas shkallës Likert tashmë do të shpreheshin sipas dy kategorive, përndryshe me vlera binare. Së dyti, do të gjendej një metodë që zvogëlon numrin e faktorëve. Metoda është Përzgjedhja e Atributeve bazuar në Korrelacion (CFS), dhe mundësoi zvogëlimin e faktorëve në vetëm 7, si më poshtë:

Angazhimi i personelit drejtues Trajnimi

Vizioni Strategjik

Politikat dhe standardet Karakteristikat e SIK-ut

Matja dhe raportimi

Analiza kosto/përfitimKrahasuar me faktorët e përfshirë në listë nga anketimi i bërë, faktorë të rinj

kyç në këtë grup ishin analiza kosto/përfitim dhe vizioni i qartë strategjik i lidhur me cilësinë e të dhënave.

Kjo listë faktorësh u bë e vlefshme për të gjitha modelet e ndërtuara në vijim me ndihmën e teknikave Data Mining.

Teknika e parë e studiuar është ajo e regresionit logjistik. Përfshirja e të gjithë variablave (7) në modelin e regresionit logjistik, të zbatuar mbi të gjithë bashkësinë e të dhënave, bëri që të parashikohen me saktësi 126 raste nga 182 në total, ndryshe 69.2%, ku përfshihen 74% e rasteve me nivel të lartë të cilësisë dhe 65% me nivel të ulët.

Page 129: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

120

Modeli është gjithashtu i rëndësishëm, në bazë të statistikës 2 dhe vlerës probabilitare p. Ndërkaq, vlera e korrigjuar e koeficientit R2 është mbi 24%.

Në interpretimin e variablave të përfshirë, mund të thuhet se variabli i Trajnimit është më i rëndësishmi nga të tjerët. Pas këtij variabli, më i rëndësishmi mbetet variabli i karakteristikave të SIK-ut. Nëse do të përfshihej dhe vlera konstante në analizë, ai do të ishte variabli më i rëndësishëm, megjithëse me efekt të kundërt nga faktorët e sipërpërmendur në lidhje me nivelin e lartë të cilësisë së të dhënave në SIK.

Po ashtu, trajnimi rezulton si faktori më i rëndësishëm shpjegues ndër të tjerët (mbi 2 herë më i rëndësishëm).

Përveç modelit fillestar, është ndërtuar dhe një model alternativ, për të kuptuar çfarë ndodh nëse nuk marrim parasysh supozimet e mëparshme. Për ta ndërtuar modelin në fjalë, u përdor metoda ANOVA njëfaktoriale për të kuptuar cili nga faktorët nuk ndryshon vlerë në mënyrë të rëndësishme kur variabli kryesor ndryshon.

Nga kjo analizë, u eliminuan 4 faktorë, më konkretisht kultura organizative, menaxhimi i cilësisë për furnizuesit e të dhënave, menaxhimi i ndryshimeve dhe menaxhimi i rrezikut. Modeli tashmë me 20 faktorë ka ende shumë variabla. Për të gjetur modelin ideal, u gjykua e drejtë të përdorej metoda stepwise, që do të ndalonte shtimin e variablave kur vlerat e probabilitetit p të mos jenë më të vogla nga 0.1. Metoda stepwise nxori faktorët më poshtë:

Trajnimi

Matja dhe raportimiKëta dy faktorë përbëjnë modelin alternativ përfundimtar dhe së bashku mund

të parashikojnë në mënyrë të saktë 124 raste, apo 68.2% në tërësi, ku përqindja e parashikimit të saktë për rastet me nivel të lartë cilësie të dhënash është më e ulët sesa përqindja përkatëse për rastet me nivel të ulët cilësie, më konkretisht 59.3% dhe 76.9% përkatësisht. Përgjithësisht parapëlqehen modele ku përcaktohet më mirë ngjarja kryesore, në këtë rast niveli i lartë i cilësisë së të dhënave.

Modeli alternativ është i rëndësishëm, por jo në nivelin e modelit fillestar, ndoshta edhe për shkak të numrit më të vogël të variablave shpjegues. Edhe në këtë rast, trajnimi është më i rëndësishëm nga variabli tjetër në shpjegimin e nivelit të cilësisë së të dhënave.

Në rastin e pemëve të vendimit, më konkretisht modelit C4.5, saktësia në parashikim kur përfshihen të gjithë faktorët në studim rritet në krahasim me regresionin logjistik, duke përcaktuar tashmë 130 nga 182 raste në tërësi, ku përfshihen 68% e rasteve me nivel të lartë të cilësisë dhe 75% me nivel të ulët.

Teknika C4.5, ashtu si të gjithë pemët e vendimit, mundëson që të njihen faktorët më të rëndësishëm ndaj të tjerëve. Kjo realizohet duke kuptuar kush nga faktorët është në nivelet më të larta të pemës. Në rastin në studim, renditja e faktorëve është si vijon:

Trajnimi

Karakteristikat e SIK Angazhimi i personelit

Page 130: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

121

Vizioni strategjik

Matja dhe raportimi

Analiza kosto/përfitim

Politikat dhe standardetSipas kësaj renditjeje, sërish faktori i trajnimit është më i rëndësishmi në këtë

model, tashmë për faktin se ai i ndan më mirë nga të gjithë faktorët e tjerë rastet me nivel të lartë ndaj rasteve me nivel të ulët, që është dhe thelbi i ndarjes së degëve në pemët e vendimit. Ndarësi i dytë më i mirë është faktori i karakteristikave të SIK, kurse i treti është angazhimi i personelit. Për faktorët e tjerë mund të bëhet i njëjti arsyetim deri tek faktori i fundit.

Kur këta 7 faktorë bëhen pjesë e modelit C4.5, mund të krijohen edhe kombinime që përshkruajnë ngjarje të sigurta, ku vlera e nivelit të cilësisë së të dhënave është gjithmonë 0 ose 1. Nga analiza e bërë, dalin 5 raste kombinimesh të tilla, ku secili mund të parashikojë saktë 2 raste në tërësi. Pra, nga këto kombinime, mund të parashikohen saktë 10 raste gjithsej, që nuk përbëjnë një numër të madh në krahasim me numrin e rasteve gjithsej.

Ky fakt bëri që të studiohej një model alternativ, që mbase përmirësonte edhe raportin mes rasteve të përcaktuar saktë me nivel të lartë dhe atyre me nivel të ulët cilësie. Modeli në fjalë u gjet duke ndjekur të njëjtën logjikë si në rastin e modelit alternativ të regresionit logjistik.

Pra, tani kemi një pemë me 20 faktorë, ku ndër 10 të parët disa faktorë që mund të përmenden janë trajnimi, matja e raportimi, politikat e standardet, kontrollet e brendshme, karakteristikat e SIK-ut, etj.

Edhe në këtë rast pra, faktori më i rëndësishëm mbetet trajnimi, duke treguar se është vërtet një faktor që përcakton shumë për nivelin e mundshëm të cilësisë së të dhënave në një organizatë apo institucion. Përveç tij, në 10 faktorët më të rëndësishëm të modelit alternativ, ka dhe 5 faktorë të tjerë që përfshihen në listën e 7 faktorëve që kemi marrë si model kryesor.

Në lidhje me saktësinë në parashikim, ky model me më shumë faktorë ka një nivel më të lartë saktësie, më konkretisht 150 nga 182 raste gjithsej, ose 81% e rasteve. Në këtë rast, numri i rasteve me nivel të lartë të parashikuar saktë është më i madh, konkretisht si normë përqindjeje raporti është 89% kundrejt 76% për rastet me nivel të lartë të cilësisë së të dhënave.

Nga ana tjetër, modeli alternativ, duke pasur më shumë faktorë, ka më shumë kombinime që sjellin ngjarje të sigurt, dhe që më shpesh përcaktojnë saktë nivelin e ulët të cilësisë së të dhënave. Ky fakt bën që modeli të mos merret parasysh, edhe për shkak të numrit të madh të faktorëve, çka sjell vështirësi në interpretim.

Në rastin e rrjetave nervore artificiale, më konkretisht përfaqësuesit MLP të tyre, saktësia në parashikim rritet edhe më shumë. Tashmë modeli i ri mund të parashikojë saktë 144 nga 182 raste gjithsej, thënë ndryshe 79% të rasteve, ku ka një ndarje të barabartë mes rasteve të parashikuar saktë me nivel të lartë cilësie dhe atyre me nivel të ulët.

Page 131: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

122

Modeli MLP që mundëson këtë parashikim përbëhet nga 7 nyje hyrëse, njësoj me numrin e faktorëve, 2 nyje dalëse, njësoj me kategoritë e nivelit të cilësisë, dhe një shtresë e ndërmjetme me 6 nyje. Ndërkaq, në lidhje me faktorët më të rëndësishëm, teknika MLP ka renditjen si vijon:

Trajnimi

Politikat dhe standardet

Analiza kosto/përfitim

Vizioni strategjik

Karakteristikat e SIK Matja dhe raportimi

Angazhimi i personelitNga kjo analizë, rezulton se faktori më i rëndësishëm mbetet prapë trajnimi,

kurse i dyti më i rëndësishëm është faktori i lidhur me politikat dhe standardet e vendosura. Më tej mund të vijohet me analizën kosto/përfitim, etj.

Më tej, për të kuptuar nëse teknikat e përdorura Data Mining bëjnë një parashikim të mirë edhe për rastet e reja, për të cilat ato nuk janë trajnuar, përdoren metodat e vlerësimit. Një metodë e njohur e vlerësimit është ajo e njohur si metoda e vlerësimit të kryqëzuar 10-herë, por që ka performancën e saj maksimale kur bashkësia e të dhënave në trajnim është mbi 300. Në lidhje me këtë metodë vlerësimi, mund të thuhet se teknika Data Mining me performancën më të lartë është ajo e regresionit logjistik, me 61% të rasteve të parashikuara në mënyrë të saktë. Më tej, teknika e dytë më e mirë rezulton ajo e algoritmit C4.5, dhe më pas teknika MLP, me përkatësisht 60% dhe 58%.

Përveç metodës së vlerësimit të kryqëzuar 10 herë, që në rastin në studim nuk sugjerohet të merret e mirëqenë, metoda të tjera vlerësimi përfshijnë metodat e vlerësimit të kryqëzuar 6 herë (që i përafrohet shpërndarjes normale) dhe 182 herë (një më pak se numri gjithsej i rasteve), bashkë me metodën e vlerësimit me ndarje 2:1.

Metoda e vlerësimit të kryqëzuar 6 herë klasifikon si teknikën më të mirë sërish regresionin logjistik (65%), më tej algoritmin C4.5 (63%) dhe në fund teknikën MLP (60%). Metoda e vlerësimit të kryqëzuar 181 herë tregon si teknikë më të mirë regresionin logjistik (62%), më pas e njëjta renditje me 57% dhe 56% të rasteve të parashikuara saktë përkatësisht. Metoda e vlerësimit me ndarje 2:1 ruan të njëjtën renditje, ku regresioni parashikon saktë 61% të rasteve, algoritmi C4.5 60%, kurse MLP 57% të rasteve gjithsej.

Është propozuar metoda bagging si një metodë përmirësimi e mëtejshme, e cila shfaq rezultate të tjera nga metodat e vlerësimit fillestare. Mund të thuhet se edhe renditja e teknikave është thuajse e përmbysur tashmë, ku përmirësohet shumë performanca e MLP, më pak performanca e regresionit, dhe në fund është algoritmi C4.5.

Pasi u përcaktuan listat e faktorëve më të mirë sipas metodave të ndryshmedhe pasi u vlerësuan dhe ndryshuan modelet e krijuara nga teknikat Data Mining, në

Page 132: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

123

përputhje me objektivat e studimit, duhet të përcaktohej nëse të dhënat e studiuara mbështesnin apo jo hipotezat e ngritura në fillim të materialit.

Për këtë, u fillua nga rasti i parë që mund të kontrollohet nëpërmjet hipotezës përkatëse të ngritur. Në kapitullin 1, H1 ka pasur pohimin si vijon:

H1: Ka dallim të rëndësishëm midis perceptimeve të rëndësisë mbi faktorët e cilësisë së të dhënave në SIK dhe realizimit të tyre; Ky pohim nënkupton krahasimin e vlerave të rëndësisë kundrejt vlerave të

realizimit për çdo faktor individual që përcakton nivelin e cilësisë së të dhënave në SIK. Për këtë, fillimisht është bërë një analizë krahasuese, në bazë të së cilës është vënë re se ka plot 9 faktorë të përbashkët në renditjet e faktorëve më të rëndësishëm kundrejt atyre më të realizuar. Në çdo rast, analiza më e mirë është ajo që bëhet përmes metodave statistikore.

Në këtë rast, meqë shpërndarja nuk ishte normale, do të shfrytëzoheshin metodat joparametrike. Zbatimi i tyre mbi të dhënat për çdo faktor bën që rezultatet e marra të tregojnë se vetëm 2 faktorë nga 24 gjithsej nuk kanë dallime të rëndësishme midis vlerave të rëndësisë dhe realizimit. Këta faktorë janë të lidhur me marrëdhëniet e mira në punë dhe mjedisin e përshtatshëm të punës. Në të gjitha rastet e tjera, vihet re një ndryshim që anon nga vlerat e rëndësisë.

Pra, në përgjithësi faktorët janë të nënvlerësuar, pasi shumica e tyre tregohen si shumë të rëndësishëm, por nga ana tjetër, niveli i realizimit është më i ulët.

Ndërkaq, në lidhje me hipotezën H1, mund të thuhet se të dhënat në studim embështesin atë.Hipoteza H2 ka pasur formulimin si vijon:H2: Ka dallim të rëndësishëm midis të punësuarve në sektorin shtetëror dhe atyre në sektorin privat për perceptimet e rëndësisë mbi faktorët e cilësisë së të dhënave në SIK;Ky pohim nënkupton krahasimin e vlerave të rëndësisë midis kategorisë së të

anketuarve që janë të punësuar në sektorin publik kundrejt kategorisë së të anketuarve që janë të punësuar në sektorin privat, pavarësisht nga pronësia e huaj apo shqiptare. Për këtë, është bërë një analizë statistikore e përshtatshme. Edhe në këtë rast, meqë shpërndarja nuk ishte normale, do të shfrytëzoheshin metodat joparametrike.

Zbatimi i tyre mbi të dhënat për çdo faktor bën që rezultatet e marra të tregojnë se vetëm 1 faktor nga 24 gjithsej ka dallime të rëndësishme midis të dyja kategorive të shqyrtuara. Ky faktor është menaxhimi i ndryshimeve. Në të gjitha rastet e tjera, vihet re që nuk ka dallim statistikisht të rëndësishëm midis grupeve përkatëse.

Pra, në përgjithësi vlerësimi i rëndësisë për faktorët individualë është i njëjtë midis nëpunësve të sektorit publik dhe punonjësve në sektorin privat, me përjashtim të një faktori.

Kështu, në lidhje me hipotezën H2, mund të thuhet se të dhënat në studim nuk e mbështesin atë.

Hipoteza H3 ka pasur formulimin si vijon:H3: Nuk ka korrelacion midis metodave statistikore dhe teknikave Data Mining mbi faktorët kyç që ndikojnë mbi cilësinë e të dhënave në SIK;

Page 133: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

124

Ky pohim nënkupton krahasimin e renditjeve midis rezultateve të marra nga seksioni i realizimit të faktorëve kundrejt renditjeve nga secila teknikë Data Mining. Për këtë, fillimisht është marrë renditja korresponduese e të gjithë faktorëve të përfshirë në teknikat Data Mining për faktorët më të realizuar. Gjithashtu është bërë dhe një analizë paraprake për secilin krahasim, ku është parë se midis faktorëve më të realizuar dhe faktorëve më të mirë sipas regresionit logjistik, 2 faktorë ruajnë renditjen e tyre. Më tej, midis faktorëve më të realizuar dhe faktorëve më të mirë sipas pemëve të vendimit vetëm 1 faktor ruan renditjen e tij. Së fundmi, midis faktorëve më të realizuar dhe faktorëve më të mirë sipas teknikës MLP nuk ka asnjë faktor që ruan renditjen e tij. Në mbështetje të kësaj analize, për të përforcuar përfundimet paraprake, është bërë një analizë statistikore e përshtatshme. Edhe në këtë rast, meqë shpërndarja nuk ishte normale, do të shfrytëzoheshin metodat joparametrike.

Zbatimi i tyre mbi të dhënat bën që rezultatet e marra të tregojnë se në asnjë rast nuk ka korrelacion midis metodave statistikore dhe teknikave Data Mining.

Pra, në përgjithësi metodat nuk janë të lidhura me njëra tjetrën. Kështu, në lidhje me hipotezën H3, mund të thuhet se të dhënat në studim e

mbështesin atë.Hipoteza H4 ka pasur formulimin si vijon:H4: Nuk ka korrelacion midis teknikave Data Mining për faktorët kyç që ndikojnë mbi cilësinë e të dhënave në SIK;Ky pohim nënkupton krahasimin e renditjeve midis rezultateve të marra nga

secila teknikë Data Mining. Për këtë, është bërë dhe një analizë paraprake për secilin krahasim, ku është parë se midis tre teknikave të ndryshme, vetëm 1 faktor ruan renditjen e tij dhe ky është trajnimi. Në mbështetje të kësaj analize, për të përforcuar përfundimet paraprake, është bërë një analizë statistikore e përshtatshme. Edhe në këtë rast, meqë shpërndarja nuk ishte normale, do të shfrytëzoheshin metodat joparametrike.

Zbatimi i tyre mbi të dhënat bën që rezultatet e marra të tregojnë se në asnjë rast nuk ka korrelacion midis tre teknikave Data Mining.

Pra, në përgjithësi metodat nuk janë të lidhura me njëra tjetrën as në këtë rast. Kështu, në lidhje me hipotezën H4, mund të thuhet se të dhënat në studim e

mbështesin atë.Pra, si përmbledhje, deri tani 3 hipoteza nga 4 të ngritura fillimisht mbështeten

nga të dhënat në studim.Në analizën krahasuese që mund të bëhet për hipotezën 5, del se midis

metodave të vlerësimit para dhe pas ndryshimit me anë të metodës bagging ka dallime, pasi në 11 nga 12 rastet në shqyrtim performanca përkatëse është përmirësuar. Në mbështetje të kësaj, është realizuar dhe analiza statistikore përkatëse.

Kjo analizë i përgjigjet hipotezës H5, e cila pohon si vijon:H5. Zbatimi i metodave të reja përmirëson performancën e teknikave Data MiningAnaliza statistikore e bërë me anë të metodave parametrike nxjerr përfundimin

e parashikuar, që do të thotë se ndryshimi i bërë e ka përmirësuar vlerësimin e bërë.

Page 134: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

125

Me fjalë të tjera, të dhënat në studim e mbështesin hipotezën H5. Pra, si përmbledhje, 4 hipoteza nga 5 të ngritura fillimisht mbështeten nga të dhënat nëstudim, duke përmbushur thuajse plotësisht pritshmëritë fillestare.

Në lidhje me zbatimin e teknikave Data Mining, në përgjithësi ato dhanë saktësi në parashikimin e nivelit të cilësisë së të dhënave në një normë mbi 60%, ku teknika e bazuar mbi modelin e perceptonit shumështresor të rrjetave nervore artificiale mundi të parashikojë saktë thuajse 80% të rasteve, kur si bashkësi trajnimi dhe testimi përfshihej e gjithë bashkësia e të dhënave të nivelit të realizimit për çdo faktor.

Këto rezultate tregojnë se teknikat e përdorura mund të shërbejnë për klasifikimin e një problemi të tillë, si ai i përcaktimit të nivelit të cilësisë së të dhënave në SIK. Kjo gjë konfirmohet edhe nga hipotezat e ngritura, që fillimisht tregojnë se teknikat Data Mining japin rezultate të ndryshme nga metodat statistikore të ndjekura. Më tej, këto rezultate përmirësohen kur mbi to zbatohet metoda bagging, duke arritur vlera të mira parashikimi.

7.3. Kufizimet e punimit.

Përgjithësisht, ky punim doktorate është mbështetur mbi disa supozime kryesore, që përcaktojnë dhe kufizimet e tij, sidomos në lidhje me procesin e anketimit.

Kështu, popullata e përzgjedhur për anketim përfshin në mënyrë specifike të gjithë profesionistët e fushës së Kontabilitetit që janë të regjistruar pranë institucioneve përfaqësuese të tyre, si IEKA apo SHKFSH. Ky pohim nënkupton se të gjithë ata individë me eksperiencë në fushën e Kontabilitetit, por që nuk janë të regjistruar pranë institucioneve të mësipërme, mbeten jashtë fokusit të këtij studimi dhe perceptimet e tyre nuk merren parasysh në funksion të objektivave të këtij studimi.

Më tej, nëse profesionistët e Kontabilitetit shihen si njerëz që punojnë shumë me sisteme të tilla si SIK, atëherë kjo vlen edhe për profesionistët nga fusha e TI-së që janë pjesë e personelit që punon ngushtë me këto sisteme. Popullata që përfshin individë të sektorit të TI-së që punojnë apo njohin këto sisteme nuk ka qenë në fokusin e këtij punimi dhe nuk mund të përfshihet në përfundimet e tij. Gjithsesi, në seksionin në vazhdim ka rekomandime të orientuara më së shumti drejt punonjësve apo profesionistëve të fushës së TI-së në organizatat shqiptare.

Në lidhje me studimin e ndikimit të faktorëve të ndryshëm në nivelin e cilësisë së të dhënave, përtej faktorëve të ndryshëm të studiuar, një drejtim i ri i kërkimit mund të lidhet me ndikimin e dimensioneve të cilësisë së të dhënave në nivelin e përgjithshëm të saj, më konkretisht saktësisë, plotësisë, regjistrimit në kohë dhe qëndrueshmërisë. Aktualisht ka studime që lidhin këto dimensione në mënyrë shumë të ngushtë, gjithsesi ka hapësirë për studime të mëtejshme.

Një tjetër kufizim i përgjithshëm lidhet me kontekstin e zhvillimit të studimit, që është i kufizuar gjeografikisht brenda territorit të shtetit shqiptar. Ashtu si shumë

Page 135: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

126

studime të tjera, ky punim ka arritur gjithsesi të krijojë një kornizë të mirë, që mund të shërbejë si bazë për krahasim me studime të tjera në të njëjtën fushë nga kërkues të tjerë.

Një kufizim tjetër i punimit, që njëkohësisht shërbeu për një parashikim më të mirë të nivelit të cilësisë së të dhënave, lidhet me kategoritë e klasifikimit përkatëse. Kështu, shfrytëzuam shndërrimin e të dhënave për të kaluar në një situatë me dy vlera të mundshme, nga pesë që ishin fillimisht. Ruajtja e pesë niveleve sipas shkallës Likert mund të japë përfundime më të detajuara mbi ndikimin e secilit faktor në përcaktimin e nivelit të cilësisë, madje edhe modele të përmirësuara mbi bazën e teknikave Data Mining.

Së fundmi, teknikat e përdorura janë të lidhura me klasifikimin e rasteve, ku njihet paraprakisht ndarja e rasteve në realitet midis kategorive të parapërcaktuara. Studiues të tjerë mund të krijojnë modele bazuar në teknika të tjera klasifikimi apo grupimi të të dhënave nga bashkësia e teknikave Data Mining, si p.sh. ajo e fqinjve më të afërt, ajo e k-mesatareve, etj., për parashikimin e nivelit të cilësisë së të dhënave me ose pa njohuri paraprake.

7.4. Një arkitekturë e përshtatshme për cilësinë e të dhënave.

Organizatat kërkojnë një nivel sa më të lartë për cilësinë e të dhënave që transferohen në mjedisin e tyre. Përtej njohjes së faktorëve që mund ta realizojnë këtë objektiv të gjithëkohshëm, organizatat mund të ndërtojnë një arkitekturë të përshtatshme që të përcaktojë ngjarjet që ndikojnë, të matë dhe gjithashtu të kontrollojë nivelin e cilësisë në magazinën e të dhënave.

7.4.1. Ndërgjegjësimi në rritje për cilësinë e të dhënave

Çështjet në lidhje me cilësinë e të dhënave janë bërë gjithnjë e më shumë shqetësimi kryesor për drejtuesit e organizatave, duke u ndikuar nga tre elemente kryesore.

Së pari, ka pasur gjithmonë një prirje që lidhej me shprehjen “duhet të shoh të dhënat që ta menaxhoj më mirë biznesin tim”. Kjo prirje është përforcuar vitet e fundit, pasi vetë punonjësit e njohurive besojnë se të dhënat janë të nevojshme për t’u kuptuar që puna të realizohet mirë. Së dyti, shumë organizata kuptojnë se janë të shpërndara shumë, shpesh në mbarë botën, dhe kjo kërkon një proces efektiv integrimi të burimeve të të dhënave të shpërndara në distanca të largëta. Së treti, kërkesat e rritura për përshtatje me standardet nënkuptojnë që përdorimi pa kujdes i të dhënave nuk do të kalojë pa u vënë re.

Përdoruesit që janë pjesë e personelit të organizatës janë bërë të ndërgjegjshëm që cilësia e të dhënave është një problem serioz dhe i kushtueshëm. Organizata duhet të mbështesë inisiativat për të përmirësuar cilësinë e të dhënave. Gjithsesi, shumica e përdoruesve brenda organizatës nuk e dinë mirë zanafillën e problemeve në lidhje me cilësinë e të dhënave apo si mundet organizata e tyre ta përmirësojë atë. Një pjesë e

Page 136: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

127

tyre e mendojnë cilësinë e të dhënave si të jetë thjesht një problem ekzekutimi i teknikave të TI-së. Në këtë mjedis, përdorimi i teknikave të TI-së nuk është zgjidhja e vetme. Madje një këndvështrim tjetër thotë se cilësia e të dhënave thuajse nuk ka të bëjë fare me TI-së.

7.4.2. Zanafilla e problemeve në lidhje me cilësinë e të dhënave

Gjëja më e thjeshtë është të fajësohet burimi fillestar i të dhënave për çdo gabim të mundshëm që shfaqet në programet e mëtejshme. Shpesh madje fajësohet personi që ka regjistruar të dhënat i pari. Mbase problemet në lidhje me cilësinë e të dhënave mund të zgjidhen përmes kushtëzimeve më të mira në ndërfaqen e përdoruesit që merret me regjistrimin e të dhënave fillestare. Një rast mund të jetë përcaktimi i formatit të plotësimit të vlerave në një fushë të dhënë, duke kontrolluar p.sh. nëse plotësohet tekst në vend të numrave, ose nëse numri nuk i përgjigjet kritereve përkatëse. Kjo mund të jetë një zgjidhje, po gjithsesi zgjidhjet teknike nuk janë të vetmet.

Në lidhje me këto çështje, Michael Hammer thotë (Hammer, 1994):“Problemet në dukje të vogla në lidhje me cilësinë e të dhënave janë në fakt tregues të rëndësishëm të proceseve të ndërprera të biznesit.”

7.4.3. Krijimi i kulturës së cilësisë dhe riinxhinierimi i proceseve

Zgjidhjet teknike për të përmirësuar cilësinë e të dhënave nuk do të funksionojnë mirë nëse nuk janë pjesë e një kulture të përgjithshme pune, që duhet të vijë nga strukturat drejtuese të organizatës. Qëndrimi ndaj cilësisë në industrinë japoneze të automobilave përshkon çdo nivel të organizatave përkatëse. Për një organizatë që kërkon një nivel të lartë të cilësisë së të dhënave, hapat e mëposhtëm do të ishin të përshtatshëm:

Përkushtimi i drejtuesve të lartë për krijimin e një kulture të cilësisë së të dhënave;

Orientimi i riinxhinierimit të proceseve drejt niveleve drejtuese;

Shpenzimi i parave për të përmirësuar mjedisin rreth procesit të regjistrimit të të dhënave;

Shpenzimi i parave për përmirësimin e integrimit midis programeve të ndryshme;

Shpenzimi i parave për të ndryshuar mënyrën e realizimit të proceseve;

Nxitja e ndërgjegjësimit për punën në grup në të gjitha nivelet;

Nxitja e bashkëpunimit ndërdepartamental; Shpërblimi i situatave ku cilësia e të dhënave ka nivel shumë të lartë;

Matja dhe përmirësimi i vijueshëm i cilësisë së të dhënave;

Page 137: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

128

7.4.4. Ekzistenca dhe roli i rojes së të dhënave

Roja i të dhënave është përgjegjës për të arritur një konsensus në rang organizate mbi përkufizimet, rregullat e biznesit dhe vlerat e lejuara për të dhënat e ruajtura në magazinën e të dhënave të organizatës dhe më tej për publikimin dhe zbatimin e përkufizimeve dhe rregullave. Historikisht, këtë rol e luan administratori i të dhënave, një rol brenda departamentit të TI-së. Gjithsesi, do ishte shumë më mirë sikur ky rol të luhej nga një person i rekrutuar prej komunitetit te ekspertëve nga fusha e biznesit.

Kuptohet që ky është një rol mjaft i vështirë, por edhe i rëndësishëm. Rojet e të dhënave duhet të jenë liderë të respektuar, të përkushtuar për të zgjidhur probleme komplekse ndërdepartamentale dhe vijimisht të mbështetur nga drejtuesit e lartë të organizatës, sidomos kur kërkohet konsensusi i organizatës si një e tërë.

Ndonjëherë rojet e të dhënave mbështeten nga analistët e garantimit të cilësisë, të cilët garantojnë që të dhënat e ruajtura në magazinën e të dhënave të jenë të sakta dhe të plota. Analistët përcaktojnë gabimet e mundshme me të dhënat dhe i çojnë drejt zgjidhjes. Ata shpesh janë përgjegjës për verifikimin e integritetit të proceseve të biznesit, parë kjo nga këndvështrimi i aplikimeve të Inteligjencës së Biznesit. Roli i analistit rekrutohet zakonisht nga komuniteti i biznesit, shpesh i ndërthurur me komunitetin e TI-së. Sapo gabimi zbulohet nga analisti përkatës, ai korrigjohet në burim dhe rregullohet në proceset e mëtejshme apo thjesht shënjohet për t’u korrigjuar në mënyrë automatike. Gjithsesi, vetëm një numër relativisht i vogël gabimesh mund të korrigjohen brenda magazinës së të dhënave, të tjerat kërkojnë ndërhyrjen dhe konsensusin e drejtuesve të lartë.

Analisti që garanton cilësinë e të dhënave ka një punë të konsiderueshme për të bërë gjatë çastin të ngarkimit të të dhënave në magazinën e të dhënave për të bërë të mundur që sistemi i korrigjimit të funksionojë siç duhet. Për shkak të domosdoshmërisë për verifikim të vijueshëm të të dhënave, puna e analistit nuk duhet të mbarojë sapo magazina vihet në funksionim.

7.4.5. Përdorimi i teknologjisë për përmirësimin e cilësisë së të dhënave

Pas aprovimit të personelit drejtues dhe krijimit të strukturës organizative të përshtatshme, atëherë vjen çasti për zgjidhjet e duhura teknike. Në lidhje me zgjidhjet teknike, duhet të realizohen hapat e mëposhtëm:

Përcaktimi i hershëm dhe i detajuar i problemeve në lidhje me cilësinë e të dhënave;

Plotësimi i kritereve specifike nga burimet e të dhënave dhe përpjekja për të arritur integrimin me to që të merren të dhëna më të mira;

Përshkrimi i detajuar i gabimeve me të dhënat që pritet të ndodhin më shpesh; Krijimi i një strukture të përshtatshme për kapjen e të gjitha gabimeve që

ndikojnë në cilësinë e të dhënave;

Page 138: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

129

Krijimi i një strukture të përshtatshme për të matur në mënyrë preçize dhe të vijueshme parametrat e lidhur me cilësinë e të dhënave;

Krijimi i parametrave që matin nivelin e pranueshëm të cilësisë së të dhënave në lidhje me të dhënat përfundimtare;

7.4.6. Rëndësia e profilizimit të të dhënave

Profilizimi i të dhënave është analiza sistematike e të dhënave që përshkruan më tej përmbajtjen, konsistencën dhe strukturën përbërëse të tyre. Një profilizim i thjeshtë mund të bëhet edhe kur duam të përzgjedhim vlera të ndryshme në një tabelë bazash të dhënash relacionare. Në ditët e sotme ka një shumëllojshmëri mjetesh për të bërë profilizim të dhënash specifike. Përgjithësisht blerja e mjeteve të tilla është zgjidhje më e mirë sesa krijimi i tyre nga vetë organizata, sepse ato ofrojnë shumë funksione të gatshme dhe të lehta për t’u kuptuar. Një mjet i gatshëm rrit më shumë produktivitetin për personelin përkatës.

Profilizimi i të dhënave realizon detyra të ndryshme strategjike dhe taktike. Në fillim të projektit për krijimin e një magazine të dhënash, pas përcaktimit të një burimi të dhënash potencial, duhet të realizohet një vlerësim i shpejtë në lidhje me profilizimin e të dhënave. Ky vlerësim do të ndihmojë në marrjen e vendimit mbi vazhdimin ose jo të projektit në fjalë dhe duhet bërë shumë shpejt pas përcaktimit të burimit të mundshëm (1-2 ditë).

Eliminimi i shpejtë i një alternative burimi të dhënash është një hap mjaft i mirë, edhe pse mund të mos jetë shumë i mirë. Zbulimi i vonshëm i këtij problemi mund të jetë i rrezikshëm për organizatën, sidomos nëse kanë kaluar muaj nga fillimi i projektit.

7.4.7. Rregullimi i cilësisë së të dhënave me sistemet burim

Profilizimi i të dhënave është një proces zbulimi i vazhdueshëm dhe kur në proces përfshihet dhe magazina e të dhënave, vendi ideal për trajtimin e çështjeve mbi cilësinë e të dhënave është burimi i tyre. Ndërkaq, ekipi përgjegjës për magazinën e të dhënave duhet të veprojë në mënyrë të kujdesshme që të marrë reagimin më të mirë nga zotëruesit e sistemeve burim. Gjithashtu, ekipi drejtues i organizatës duhet të krijojë kulturën e duhur brenda saj për të gjetur problemet në lidhje me cilësinë e të dhënave dhe për t’i korrigjuar ato përmes punës në grup nga i gjithë ekipi punonjës.

Ekipi i magazinës së të dhënave duhet të jetë i ndjeshëm ndaj ndikimit që procesi i riinxhinierimit ka në sistemet burim, si në nivelin e zbatimit, ashtu dhe në atë operacional. Situata ideale do të ishte krijimi i një liste unike me problemet në lidhje me cilësinë e të dhënave dhe shqyrtimi i mëtejshëm i saj nga një ekip i përbashkët i punonjësve në magazinën e të dhënave dhe në sistemet burim, të udhëhequr nga një menaxher i lartë. Në një situatë ideale, kjo listë nuk do të pësonte shumë ndryshime në vijimësi, por ne nuk jemi në një botë ideale.

Page 139: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

130

7.4.8. Përcaktimi i një shtegu drejt sistemit burim

Nëse organizata ka një sistem për menaxhimin e të dhënave master që bashkon kopjet e të dhënave të lidhura me klientët, produktet, apo vendndodhjen, atëherë mund të mendohet që sistemet burim kanë në zotërim kopjet origjinale të tyre. Mund të ndodhë që listat e klientëve të përditësohen në sistemin e mësipërm dhe më pas kopja e tyre të merret nga sistemi burim, ose që profili individual i një klienti të merret nga sistemi i menaxhimit të të dhënave prej një sistemi burim përgjegjës. Në të gjitha rastet, një bashkërendim i tillë është i nevojshëm për mirëmenaxhimin e cilësisë së të dhënave në organizatë, për sa kohë që ka ndarje punësh të përcaktuar qartë.

Gjithsesi, vetë magazina e të dhënave mund të ndryshohet gradualisht në një sistem të menaxhimit të të dhënave master dhe kjo ndihmon në hapat e pastrimit dhe përshtatjes së të dhënave të ndryshme me kërkesat e sistemeve të menaxhimit të të dhënave master. Pas këtij ndryshimi, drejtuesit e lartë duhet të autorizojnë personelin e magazinës së të dhënave për të transferuar të dhënat në versionin përfundimtar drejt sistemit burim, duke evituar kështu përsëritjen e të njëjtave procese në mënyrë të pafundme.

7.4.9. Kontrollet e Cilësisë: Thelbi i Arkitekturës

Elementi kryesor në arkitekturën e cilësisë së të dhënave është bashkësia e kontrolleve të cilësisë, që veprojnë si filtra diagnostikues. Një kontroll cilësie është thjesht një test, i zbatuar në një çast çfarëdo gjatë proceseve të ndryshimit apo migrimit të të dhënave. Nëse testi del me sukses nuk ndodh asgjë dhe kontrolli nuk shoqërohet me masa. Në rast se testi dështon, nga kontrolli dalin dy përgjegjësi kryesore:

Të regjistrohet gabimi në skemën e gabimeve

Të vendoset nëse procesi duhet të ndalohet, të shtyhet, apo thjesht të shënjohen të dhënatMegjithëse të gjithë kontrollet janë të ngjashëm, mund t’i ndajmë ata në tre

tipe, sipas nivelit të rëndësisë: kontrollet në kolonë, të strukturës dhe sipas rregullave të biznesit.

Kontrollet sipas kolonave testojnë të dhënat në një kolonë të vetme. Këto kontrolle përfshijnë teste të thjeshta dhe të zakonshme. Disa shembuj të këtyre testeve përfshihen më poshtë:

Vlera nuk duhet të jetë bosh;

Vlera duhet të përfshijë karaktere;

Vlera duhet të përfshihet brenda një intervali; Vlera duhet t’i përgjigjet një formati specifik;

Kontrollet e strukturës testojnë marrëdhënien midis të dhënave në kolona të ndryshme. Mund të testohen dy ose më shumë fusha për të verifikuar nëse përbëjnë një hierarki marrëdhëniesh midis tyre. Këto kontrolle përfshijnë testimin e

Page 140: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

131

marrëdhënieve midis fushave të tabelave të ndryshme apo edhe testimin e disa fushave njëkohësisht për të parë nëse përbëjnë adresa vendbanimi të vlefshme. Disa shembuj testimesh të tilla përfshijnë:

Një kombinim fushash duhet të përfshijë dhe një fushë çelës për tabelën me të dhëna;

Të gjitha lëndët e para duhet të kenë një tabelë burim;

Të gjithë furnitorët duhet të furnizojnë të paktën një produkt;

Një furnitor mund të mos ketë porosi;Kontrollet sipas rregullave të biznesit përdorin teste më komplekse që nuk

mund të përfshihen në kontrollet e mësipërme. Kështu, një profil klienti mund të testohet për një rregull kompleks që lidhet me variablin kohë. Këto kontrolle mund të përfshijnë dhe kontrolle mbi cilësinë e të dhënave në lidhje me plotësimin e një limiti të parapërcaktuar, të cilat më tej mund të nxjerrin gabim nëse limiti arrihet apo tejkalohet.

Tabela 7.1. Rregullat e biznesit - shembujTipi i kontrollit Shembuj

Të dhëna të thjeshta

Sasia e porosisë nuk mund të jetë më e vogël se minimumi i lejuar;Nëse ka zero porosi, atëherë sasia e porositur duhet të jetë zero;Data e përfshirjes së një furnitori duhet të korrespondojë me datën e porosisë së fundit marrë prej tij.

Të dhëna komplekse Dy burime për të njëjtën lëndë të parë duhet të kenë prioritete të ndryshme;

Vlera

Përcaktimi nëse për një lëndë të parë çfarëdo bëhen më shumë se dy porosi në një muaj të caktuar;Numri i porosive në tërësi për lëndët e para më të rëndësishme nuk duhet të ndryshojë me më shumë se 10% çdo muaj

Kontrollet sipas rregullave të biznesit mund të ndahen më tej në kontrolle për rregulla të dhënash të thjeshta, komplekse dhe kontrolle mbi vlerat. Shembuj të ndryshëm në lidhje me këto rregulla jepen në tabelën 7.1 më sipër.

7.4.10. Skema e gabimeve

Skema e gabimeve është një skemë e centralizuar që ka si qëllim të regjistrojë çdo gabim të shënuar nga kontrollet e cilësisë në magazinën e të dhënave. Kjo skemë mund të përdoret dhe në programet e tjera që integrojnë të dhëna nga burime të ndryshme.

Tabela kryesore është tabela mbi faktet e gabimeve. Në të regjistrohet çdo ngjarje e kontrolluar: çdo gabim i kapur nga kontrollet e cilësisë në procesin e ndryshimit apo migrimit të të dhënave. Thelbi i kësaj tabele është përshkrimi fizik i regjistrimeve të kësaj tabele. Më konkretisht, çdo gabim i nxjerrë nga kontrollet e cilësisë prodhon një rekord të veçantë në këtë tabelë, dhe çdo rekord i tabelës lidhet me një gabim të vërejtur.

Page 141: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

132

Figura 7.1. Skema e gabimeve

Tabelat shoqëruese të tabelës kryesore përfshijnë të dhënat mbi datën e gabimit, procesin gjatë të cilit gabimi ndodhi, dhe kontrollin që e zbuloi. Data e gabimit nuk saktëson minutën dhe sekondën e saktë të gabimit, por më tepër synon renditjen e gabimeve në tërësi sipas kohës kur janë zbuluar. Nga ana tjetër, ekziston një e dhënë për kohën e gabimit, që mundëson gjetjen e kohës midis dy gabimeve të zbuluara në mënyrë të njëpasnjëshme.

Të dhënat për procesin gjatë të cilit zbulohet gabimi duhet të përshkruajnë sa më mirë këtë proces dhe për këtë qëllim, ndër to mund të përfshihet:

Koha e parashikuar e realizimit të procesit Koha reale e fillimit dhe mbarimit të procesit

Numri i regjistrimeve të përpunuara

Numri i testeve të kontrollit të realizuara Numri i gabimeve të zbuluara

Konfliktet e mundshme të proceseve

Pesha maksimale e gabimitTabela për kontrollet përcakton kriteret e secilit kontroll dhe çfarë ndodh nëse

zbulohet gabimi. Kjo tabelë përmban: Tipi i kontrollit – në kolonë, i strukturës ose sipas rregullave të biznesit. Tipi i

kontrollit mund të plotësohet me një përcaktim për llojin e gabimit

Moduli ETL - përmban një ose më shumë të dhëna që përshkruajnë në çfarë faze të procesit ETL realizohet kontrolli përkatës

Përcaktimi i funksionimit të kontrollit – një projektim i thjeshtë dhe i kuptueshëm i kontrollit, ku përshkruhet me fjalë testi që do të realizohet dhe funksionet e përdorura

Veprimi përjashtues – mund të kërkohet ndalimi i procesit, dërgimi i rekordit në një skedar të përkohshëm apo thjesht shënjimi i të dhënave për verifikim të mëtejshëm. Të dhënat mbi veprimin rregullues mund të pasurohen me elemente të tjerë më të detajuarShpesh kjo tabelë plotësohet dhe me peshën e gabimit të zbuluar, një vlerë

midis 0 dhe 1. Në varësi të rregullave të biznesit, mund të ndodhë që kjo vlerë të ndryshojë për gabime të caktuara në çaste kritike apo kur ka shumë gabime të një lloji të caktuar.

Page 142: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

133

Tabela kryesore e të dhënave mbi gabimet përmban një fushë çelës, fushën e kohës së gabimit dhe atë të peshës së gabimit, përveç fushave të tjera. Fusha çelës ka si vlerë një numër të plotë unik dhe është e nevojshme për të renditur gabimet edhe kur ato zbulohen njëkohësisht. Po ashtu, ajo i vjen në ndihmë administratorit të bazës së të dhënave për të nxjerrë nga kjo tabelë të dhënat e një rreshti të vetëm.

Ndërkaq, qëllimi kryesor i arritjes së nivelit 6 Sigma është arritja e më pak se 3.4 gabime në 1 milion të dhëna mesatarisht. Tabela e të dhënave për procesin ku zbulohet gabimi përmban informacion të mjaftueshëm për ta testuar këtë gjë. Gjithashtu, pesha e gabimit në tabelën kryesore lejon një vlerësim më të mirë për rëndësinë e gabimeve të gjetura në rastin kur ekipi përgjegjës nuk dëshiron të ndëshkohet njësoj për çdo gabim të bërë. Pesha e çdo gabimi mund të zvogëlojë rëndësinë tërësore të gabimeve, për rrjedhojë edhe numrin e gabimeve të llogaritura.

Skema e gabimeve përfshin dhe një tabelë për detajet e çdo gabimi. Çdo rekord i kësaj tabele identifikon një fushë individuale në një të dhënë që ishte pjesë e gabimit të tabelës kryesore. Kështu, një gabim kompleks që përcaktohet në një rekord në tabelën kryesore të gabimeve mund të gjenerojë shumë rekorde në tabelën e detajuar. Tabelat kanë të përbashkët fushën e numrit të gabimit. Tabela e detajuar përcakton tabelën, rekordin, fushën dhe situatën që ka çuar në gabimin e zbuluar, duke shtuar gjithashtu dhe të dhënat mbi procesin, datën dhe kontrollin e bërë. Së fundmi, duhet thënë se plotësimi i tabelave me të dhëna bëhet vetëm prej kontrolleve të cilësisë.

Ndërkaq, skema e gabimeve lidhet shumë me fazën e përpunimit ETL dhe kjo bën që kueritë komplekse të mos lejohen gjatë përpunimit ETL. Zgjidhja do të ishte një arkitekturë paralele ku kontrollet e vijueshme thjesht regjistrojnë skedarët me të dhënat e gabimeve ndërsa përpunimi ETL vijon pa ndërprerje. Kjo është një zgjidhje e mirë, por jo për ata që duan të njihen me gabimet e zbuluara në kohë reale.

Në një organizatë të madhe me shumë pajisje kompjuterike, shumë njësi kujtese, një skemë e vetme gabimi nuk mjafton. Ekzistenca e shumë skemave të gabimit për pajisje të ndryshme thjeshton procesin e mbledhjes dhe menaxhimit të gabimeve në nivel pajisjeje, por gjithashtu rrit kompleksitetin e përpunimit të të gjithë të dhënave të gabimeve për të parë nivelin e cilësisë së të dhënave në rang organizate.

7.4.11. Rregullimi i gabimit

Pas gabimit të zbuluar, duhet të përcaktohet çfarë do të ndodhë më tej. Siç është përmendur më sipër, mund të ndalohet procesi, të dërgohet rekordi i prekur në një skedar të përkohshëm për t’u përpunuar më tej, apo thjesht të shënjohet e dhëna gabim dhe të vijohet me proceset e tjera. Alternativa e fundit është gjithnjë më e mira. Ndalimi i procesit është i dëmshëm pasi kërkon ndërhyrje manuale për të zbuluar problemin dhe më tej për të rifilluar apo për ta lënë përfundimisht procesin. Dërgimi i rekordeve në skedarë të përkohshëm shpesh përbën një zgjidhje jo shumë të mirë pasi nuk është shumë e qartë nëse këto rekorde do të rregullohen dhe do të rihyjnë në proceset ndryshuese. Deri në çastin që rekordet do të rikthehen në proces, integriteti i

Page 143: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

134

përgjithshëm i bazës së të dhënave është në pikëpyetje pasi ka rekorde që mungojnë. Alternativa e fundit, shënjimi i të dhënave gabim shpesh funksionon mirë. Të dhënat e këqija në tabelën e gabimeve mund të shënjohen dhe të detajohen më tej me të dhënat e auditit.

Të dhënat që mungojnë ose të shkruara gabim mund të verifikohen me një vlerësues më të pranueshëm, një vlerë të gjeneruar artificialisht që është e përafërt me atë që mund të ishte vlera e saktë. Të dhënat e auditit mund të përshkruajnë të dhënatgabim në mënyrë të mjaftueshme për të mos çorientuar punonjësit e organizatës. Shumica e punonjësve të magazinës së të dhënave nuk janë të kënaqur me këtë metodë pasi për ta krijimi i të dhënave nuk është diçka e mirë. Gjithsesi, alternativat e ndalimit të procesit apo zëvendësimit të vlerës gabim me zero ose vlerë bosh do të bënin që në këto tabela të mos pasqyrohej realiteti, ndaj një vlerësues më i paanshëm do të ishte zgjidhje më e mirë.

7.4.12. Tabela e auditit

Të dhënat e auditit krijohen gjatë procesit të ndryshimit të të dhënave për çdo tabelë. Një shembull tabele auditi bashkë me tabelën kryesore për një procestransporti jepet më poshtë:

Figura 7.2. Tabela e auditit

Tabela kryesore më sipër përmban shumë fusha çelës të jashtme që e lidhin atë me tabelat e tjera, disa fusha të tjera që e lidhin me tabela dytësore dhe disa të dhëna numerike.

Tabela e auditit përmban të dhëna metadata të regjistruara në çastin që u krijua tabela kryesore. Kërkesat e organizatës për nivelin e cilësisë së të dhënave do të përcaktojnë edhe në çfarë mase mund të përdoren metadata për të regjistruar të dhënat në rast gabimi. Për të parë si krijohen të dhënat në tabelën e auditit, mund të nisemi nga supozimi që tabela kryesore përditësohet me të dhëna një herë në ditë. Le të

Page 144: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

135

mendojmë që një ditë nuk ka asnjë gabim të shënuar. Kjo bën që për këtë ditë të ketë vetëm një fushë auditi të bashkëngjitur në çdo rekord të hedhur. Të gjithë fushat e lidhura me gabime të mundshme nuk plotësohen. Fusha e vetme e auditit krijohet gjatë hapit të fundit të procesit të transportit, mbështetur edhe në skemën e gabimeve.

Situata e mësipërme është imagjinare, pasi në realitet ka gjithmonë gabime. Nëse do të kishim disa raste të tilla, p.sh. vlerat e uljes në dollarë për produkte të caktuara janë gabim, atëherë do duheshin disa fusha auditi për çdo rekord të tillë.

Fusha e cilësisë së të dhënave mund të jetë e tipit tekst, me disa vlera të mundshme, p.sh. Zero, Pak apo Shumë Gabime. Nëse është vlerë numerike, mund të llogaritet si ndryshimi mes vlerës 1 (cilësi maksimale) dhe raportit të gabimeve ndaj numrit të kontrolleve. Për ta llogaritur këtë vlerë mjafton të mbështetemi tek tabelat e skemës së gabimeve.

Fushat e plotësisë, vlefshmërisë dhe jashtë intervalit janë të dobishme për të dhënë një përshkrim më të mirë të nivelit të besueshmërisë së çdo rekordi të regjistruar në tabelën kryesore. Këto fusha janë shumë të rëndësishme sidomos për punonjësit e biznesit sepse i rritin atyre besueshmërinë në vërtetësinë e të dhënave. Plotësia tregon nëse janë përfshirë të gjitha faktet e rëndësishme për çdo rekord. Vlefshmëria lidhet me faktin nëse ka të dhëna brenda një rekordi që kanë shkelur rregullat e biznesit. Fusha e të dhënave jashtë intervalit përshkruan nëse ka ndonjë vlerë brenda rekordit që del jashtë kufijve të intervalit të përcaktuar nga kontrolli i cilësisë së të dhënave. Në ndonjë rast, mund të përdoret si vlerë kufi varianca maksimale ku duhet të përfshihen vlerat e çdo rekordi.

Fusha e kontrolleve të pasuksesshme përmban si vlerë numrin e kontrolleve që tregojnë gabim për një rekord të caktuar. Fusha e rekordit të ndryshuar tregon nëse rekordi është ndryshuar apo jo që nga krijimi i tij. Tabela kryesore përmban shumë të dhëna të akumuluara nga tabelat e tjera, çka e bën atë subjekt të shumë rishikimeve. Një tabelë me të dhëna transaksionesh do të ishte subjekt i më shumë ndryshimeve. Në secilin rast, fusha e rekordit të ndryshuar mund të bashkohet me të dhënat e kohës së përditësimit të rekordit që duhet të kenë një vlerë të paracaktuar në rastin kur nuk ka pasur ndryshim.

Ndërkaq, fushat e nxjerrjes, pastrimit dhe rregullimit të të dhënave lidhen me kohën kur mbaron procesi i ndryshimit të të dhënave për rekordin e radhës.

Fushat e tjera janë shembuj të versioneve të të dhënave që mund të rezervohen si e dhënë për të parë çfarë versioni ishte ai që u përdor në çastin kur u krijua rekordi. Këto versione bëhen shumë të rëndësishme në rastet e auditimit financiar ose në rastet e gjurmimeve të ndryshme. Në rastet e auditimit, mund të shihet se si ndryshojnë vlerat e fushave para dhe pas ndryshimit të vlerave gabim.

Tabela e auditit mund të përdoret në mënyra të ndryshme. Në vijim jepen disa shembuj tipikë në lidhje me të:

Përdorimi i të dhënave mbi gabimin - Tabela e auditit ka një fushë që lidhet me të dhënat e gabimit të mundshëm, që përfshijnë një vlerë numerike që identifikon gabimin në mënyrë unike, të dhënën numerike të lidhur me të nga tabela kryesore dhe vlerësimin mbi cilësinë e të dhënës përkatëse. Meqë tabela

Page 145: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

136

kryesore ka 6 të dhëna numerike, atëherë dhe tabela me të dhënat e gabimit do të përbëhet nga 6 rreshta, ku secili rresht mban të dhënat për një nga të dhënat numerike. Kur nuk ka gabime, secila nga të dhënat numerike ka vlerësim normal për cilësinë. Në çdo rast tjetër, për secilën të dhënë do të kishte një vlerësim përkatës të cilësisë, çka do të shpjegonte më mirë dhe gabimin e zbuluar. Nëse fushat e të dhënës numerike dhe vlerësimit të cilësisë përkatëse bëhen të dukshme në një tabelë të vetme bashkë me të dhënat e tjera të tabelës kryesore, kjo do të ishte një vlerë e shtuar për përdoruesit e informacionit brenda organizatës.

Përcaktimi i vlerave të sakta në lidhje me vlerat historike - Le të supozojmë se duhet të kontrollojmë të dhënat e tabelës kryesore për nivelin e saktësisë dhe për këtë na duhet të përcaktojmë parametrat e besueshmërisë së këtyre të dhënave. Kjo do të jetë e vlefshme për shumë të dhëna, ditë pas dite, ndaj duhet një mënyrë praktike dhe gjithëpërfshirëse. Siç është përmendur dhe më sipër, një mënyrë kontrolli për vlerat jashtë normave është devijimi standard. Devijimi standard në lidhje me të dhënat do të merrte parasysh gjithë vlerat historike të tyre, për shkak të mënyrës si ai llogaritet. Kjo nuk është shumë e arsyeshme, aq më tepër duke pasur parasysh vonesën që do të sillte në proceset në vijim. Gjithsesi, në shumicën e rasteve, organizatat kanë të dhëna mbi shumën eplotë të vlerave historike dhe të dhëna të tjera që ndihmojnë në llogaritjen e devijimit standard. Ajo çfarë mund të bëjmë është të kontrollojmë vlerat ekzistuese me vlerën e devijimit standard. Rregulli bazë është që ndryshimi mes vlerës ekzistuese dhe mesatares historike të mos jetë më shumë se trefishi i devijimit standard për të gjithë vlerat historike. Nëse testi del me sukses, cilësia e të dhënave përkatëse është normale. Në rast të kundërt, raporti i realizuar do të nxirrte që e dhëna nuk ka vlerësim normal për cilësinë, dhe në tabelën e gabimeve do të shtohej një rresht me të dhënat përkatëse. Një përmirësim i këtij testi do të ishte klasifikimi i vlerave ditore në dy grupe: ato që e tejkalojnë këtë ndryshim dhe ato që janë brenda normave. Kjo ndarje mund të jetë më e rëndësishme për përdoruesit brenda organizatës. Raporti mund të përmirësohet edhe më shumë nëse historia tregon se vlerat ditore për një proces të caktuar, p.sh. shitjet, kanë luhatje të rëndësishme midis ditëve të javës. Kjo bën që krahasimi të mos bëhet më me mesataren e plotë, por vetëm me mesataren e të njëjtës ditë jave. Gjithsesi, si në çdo rast tjetër, organizata duhet të ketë të dhëna të mjaftueshme për këtë lloj kontrolli. Në fund të ditës, të dhënat ditore i shtohen vlerave të akumuluara për të ndihmuar në testimin e të dhënave të ditës tjetër. Ky është një proces i vijueshëm.

Përshtatja e tabelave të auditit në procese të ndryshme - Në një mjedis me baza të dhënash komplekse mund të ketë versione të ndryshme të tabelave të auditit, me mënyra të ndryshme kontrolli. Kjo bëhet mjaft e kuptueshme nëse dihet se organizata ka të dhëna të tipeve të ndryshme me kritere të ndryshme mbi cilësinë e të dhënave. Gjithsesi, ekipet përgjegjëse për ndryshimin e të dhënave duhet të përcaktojnë një bashkësi standarde të parametrave të cilësisë

Page 146: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

137

për të gjithë elementet brenda tabelës së auditit. Kjo bashkësi standarde lejon që tabelat kryesore të të dhënave për organizatën në tërësi të kontrollohen nga parametra të njëjtë. Fushat kryesore që mund të përshtaten në tabelat e paraqitura më sipër do të ishin ajo e cilësisë së përgjithshme, plotësisë, verifikimit dhe fusha që tregon nëse të dhënat janë jashtë norme. Kjo do të mundësojë që çdo tabelë auditi të caktojë vlerat e këtyre fushave nga një bashkësi standarde vlerash dhe për të njëjtën bashkësi rregullash biznesi.

7.4.13. Cilësia e të dhënave në nivelin 6 Sigma

Punonjësit në magazinat e të dhënave mund të marrin përvojë të dobishme nga punonjësit në sektorin e prodhimit, sidomos në mënyrën sesi ata vlerësojnë nivelin e cilësisë. Në industrinë prodhuese, niveli i cilësisë 6 Sigma arrihet kur numri i difekteve bie nën 3,4 në një milion mundësi. Tabela e gabimeve është baza e përsosurpër të bërë matje të nivelit të cilësisë sipas parimit 6 Sigma. Gabimet regjistrohen në skemën e gabimeve dhe rastet regjistrohen në pajisjet e monitorimit si tërësia erekordeve të përpunuar në çdo proces pune brenda organizatës.

7.4.14. Ndërtimi i arkitekturës për cilësinë e të dhënave

Një program i mirë për cilësinë e të dhënave duhet të përfshijë të gjithë aspektet e rëndësishme që lidhen me sistemet në vetvete, arkitekturën e përdorur, njerëzit dhe proceset e përfshira, duke pasur gjithmonë parasysh objektivat dhe strategjitë e organizatës dhe si lidhen ato me të dhënat e ndryshme.

Arkitektura e shpjeguar më sipër mund të shtohet në magazinën e të dhënave ose në mjedisin e menaxhimit të të dhënave që ka organizata pa shumë vështirësi. Sapo skema e gabimeve të zbatohet, kontrollet e cilësisë mund të shtohen kohë pas kohe. Kontrollet duhet të zbatojnë vetëm dy kërkesa të përmendura edhe më sipër: regjistrimin e çdo gabimi në skemën e gabimeve dhe përcaktimin e mënyrës si duhet të reagojë sistemi ndaj gabimit të radhës. Kontrollet për gabimet mund të zbatohen me anë të teknologjive të ndryshme.

Nga ana tjetër, skema e gabimeve ofron një bazë sasiore për të menaxhuar proceset e lidhura me cilësinë e të dhënave përgjatë gjithë kohës. Niveli i detajimit i kësaj skeme lejon studimin e cilësisë së të dhënave sipas burimit të gabimit, modulit softuerik, treguesve kyç të performancës apo edhe llojit të gabimit.

Kjo do të bëjë të mundur që të ketë një lloj renditjeje për të dhënat që janë më shumë të rëndësishme dhe ato më pak të rëndësishme, duke vazhduar më tej me konceptimin dhe zbatimin e rregullave të biznesit, përllogaritjen e vlerave të matshme që shprehin nivelin e cilësisë për të dhënat specifike dhe, së fundmi, marrjen e masave të përshtatshme. Për të realizuar të gjitha këto procese, organizatat duhet të kenë aftësi mjaft të mira në lidhje me cilësinë e të dhënave, duke ofruar shërbimet, mjetet dhe personat e duhur për të marrë informacione të dobishme dhe për të krijuar vlerë të shtuar nga të dhënat në përdorim. Këto organizata do të jenë ato që do të mund të

Page 147: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

138

marrin vendime më të mira duke u mbështetur pikërisht në të dhënat me nivel të lartë cilësie.

Page 148: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

139

REFERENCA

Ahituv, N. 1980, 'A Systematic Approach Toward Assessing the Value of an Information System', MIS Quarterly, vol. 4, nr. 4, fq. 61-75.

Amer, T., Golhar, A. D. & Waller, P. 1987, 'A Review of the Computer Information Systems Research Related to Accounting and Auditing', The Journal of Information Systems, vol. 2, nr. 1, fq. 3-28.

Anthony, R. S., Reese, J. S. & Herrenstein, J. H. 1994, Accounting Text and Cases, Irwin.

Badri, M. A., Davis, D. & Davis, D. 1995, 'A Study of Measuring the Critical Factors of Quality Management', International Journal of Quality and Reliability Management, vol. 12, nr. 2, fq. 36-53.

Bailey, R. 1983, Human Error Computer Systems, Prentice Hall, Englewood Cliffs, N.J.

Ballou, D. P., Wang, R. Y., Pazer, H. L. & Tayi, K. G., 1993, 'Modeling Data Manufacturing Systems to Determine Data Product Quality', In Total Data Quality Management Research Program, MIT Sloan School of Management, (No. TDQM- 93-09), Cambridge, Mass

Ballou, D. P. & Tayi, K. G., 1989, 'Methodology for Allocating Resources for Data Quality Enhancement', Communications of the ACM, vol. 32, nr. 3, fq. 320-329

Ballou, D. P., Belardo, S. & Klein, B., 1987, 'Implication of Data Quality for Spreadsheet Analysis', DataBase, vol. 18, nr. 3, fq. 13-19.

Ballou, D. P. & Pazer, H. L., 1987, 'Cost/quality Tradeoffs of Control procedures in Information Systems', OMEGA: International Journal of Management Science, vol. 15, nr. 6, fq. 509-521.

Ballou, D. P. & Pazer, H. L., 1985, 'Modeling Data and Process Quality in Multi-input, Multi-output Information Systems', Management Science, vol. 31, nr. 2, fq. 150-162.

Ballou, D. P. & Pazer, H. L., 1982, 'The Impact of Inspector Fallibility one the Inspection Policy Serial Production System', Management Science, vol. 28, nr. 4, fq. 387-399.

Barr, A. and Feigenbaum, E., 1981, “The Handbook of Artificial Intelligence”, William Kaufmann, Inc.

Barse, E., Kvarnstrom, H. & Jonsson, E. 2003. Synthesizing Test Data for Fraud Detection Systems. Proc. of the 19th Annual Computer Security Applications Conference, fq. 384-395.

Bentley, P., Kim, J., Jung., G. & Choi, J. 2000. Fuzzy Darwinian Detection of Credit Card Fraud. Proc. of 14th Annual Fall Symposium of the Korean Information Processing Society.

Bernstein, P. A. & Goodman, N. 1981, 'Concurrency Control in Distributed Database Systems', Computing Surveys, vol. 13, nr. 2, fq. 185-221.

Page 149: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

140

Berry, M. J. A., & Linoff, G. 1997. Data Mining Techniques For Marketing, Sales, and Customer Support. New York: John Wiley & Sons, Inc.

Birkett, W. P. 1986, 'Professional Specialisation in Accounting IV: Management Accounting', Australian Accountant, fq. 78

Black, S. A. & Porter, L. J. 1996, 'Identification of the Critical Factors of TQM', Decision Sciences, vol. 27, fq. 1-21.

Bonchi, F., Giannotti, F., Mainetto, G., Pedreschi, D. 1999. A Classification-based Methodology for Planning Auditing Strategies in Fraud Detection. Proc. of SIGKDD99, fq. 175-184.

Brabazon, T. 1997. Data Mining: A new source of competitive advantage? Accountancy Ireland, 29, fq. 30-31.

Breiman, L. 1996. Bagging Predictors. Machine Learning 24(2): fq. 123-140.

Burns, R. P., Burns, R. A. 2008, Business Research Methods and Statistics Using SPSS,978-1-4129-4530-1, fq. 23

Burns, M. 2003. Accounting for business. CA Magazine, 136, fq. 37.

Caillouet, A., & Lapeyre, B. 1992. ‘The Importance of An Accounting Information System in the Strategic Management Process’. SAM Advance Management Journal, fq. 21-24.

Carrigan, C. R., Carrington, A., Cocozza, T., & Rabun, D. 2003. ‘Rx for financial statement acceleration-using technology to ease the pain’. The Journal of Government Financial Management, 52(2), fq. 34.

Ceglar, A. & Roddick F., J., 2006, Association mining, ACM Computing Surveys (CSUR), v. 38 nr. 2, fq. 5

Chang, S.-C., Chang, H.-C., Lin, C.-H., & Kao, S.-C. 2003. ‘The Effect of Organizational Attributes on the Adoption of Data Mining Techniques in the Financial Service Industry: An Empirical Study in Taiwan’. International Journal of Management, 20(4), fq. 497-503

Chen, P. P. 1976, 'The Entity-Relationship Model - Toward a Unified View of Data', ACM Transactions on Database Systems, vol. 1, fq. 166-193.

Chopoorian, J. A., Witherell, R., Khalil, O. E. M., & Ahmed, M. 2001. ‘Mind your business by mining your data’. S.A.M. Advanced Management, 66(2), fq. 45-47

Codd, E. F. 1979, 'Extending the Relational Database Model to Capture More Meaning', ACM Transactions on Database Systems, vol. 4, nr. 4, fq. 397-434.

Cushing, B. E. 1974, 'A Mathematical Approach to the Analysis and Design of Internal Control Systems', The Accounting Review, vol. 49, nr. 1, fq. 24-41.

Debreceny, R., Gray, G. L., & Barry, T. 1999. The Electronic Dissemination of Accounting Information - Resource Discovery, Processing and Analysis, A Paper Submitted for Consideration at the 1999 EAA Congress.

English, Larry P., ‘Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits’, John Wiley & Sons, 1999, ISBN: 0471253839.

Page 150: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

141

Fanning, K., & Cogger, K. 1998. Nervor network detection of management fraud using published financial data. International Journal of Intelligent Systems in Accounting, Finance & Management, 7(1), fq. 21–24.

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. 1996. ‘The KDD process for extracting useful knowledge from volumes of data’. Association for Computing Machinery. Communications of the ACM, 39(11), fq. 27-34.

Fedorowicz, J. & Lee, Y. W. 1998, 'Accounting Information Quality: Reconciling Hierarchical and Dimensional Contexts', marrë nga Proceedings of 1998 Association of Information Systems (AIS) Conference.

Feltham, G. 1968, 'The Value of Information', Accounting Review, vol. 43, nr. 4, fq. 684-696.

Fernandez, E. B., Summers, R. C. & Wood, C. 1981, Database Security and Integrity, Addison-Wesley, Reading.

Fields, K. T., Sami, H. & Sumners, G. E. 1986, 'Quantification of the Auditor's Evaluation of Internal Control in Database Systems', The Journal of Information Systems, vol. 1, nr. 1, fq. 24-77.

Firestone, J. M. ‘Data Mining and KDD: A Shifting Mosaic’. 1997. Aksesuar nga www.dkms.com/papers/dmkdd.pdf (23 tetor, 2012)

Firth, C. 1996, 'Data Quality in practice: Experience from the Frontline', in Proceedings of Conference of Information Quality.

Flach, P. A., 2013, ‘Machine Learning - The Art and Science of Algorithms that Make Sense of Data’, Intelligent Systems Laboratory, University of Bristol, United Kingdom

Fong, A. C. M., Hui, S.C., and Jha, G. 2002. ‘Data Mining for Decision Support’. IEEE

Ghosh, S. & Reilly, D. 1994. Credit Card Fraud Detection with a Nervor Network. Proc. of 27th Hawaii International Conference on Systems Science 3: fq. 621-630.

Green, B. P., & Choi, J. H. 1997. Assessing the risk of management fraud through neural-network technology. Auditing: A Journal of Practice and Theory, 16(1), fq. 14–28.

Groomer, S. M. & Murthy, U. S. 1989, 'Continuous Auditing of Database Applications: An Embedded Audit Module Approach', The Journal of Information Systems, vol. 3, nr. 2, fq. 53-69.

Hall, J. A. 1998, Accounting information Systems, 2nd edn, South-Western College Publishing.

Hall, M. A. 1999 “Correlation-based feature selection for machine learning”, The University of Waikato.

Halloran, D., 1978, 'Systems Development Quality Control', MIS Quarterly, vol. 2, nr. 4, fq. 1-12.

Hamlen, S. S. 1980, 'A Chance-constrained Mixed Integer Programming Model for Internal Control Design', The Accounting Review, vol. 55, nr. 4, fq. 578-593.

Hammer, M., 1994, Reengineering the Coorporation, HarperBusiness.

Page 151: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

142

Han J., Kamber M. 2000. Data Mining Concepts and Techniques, Morgan Kaufman, San Diego, USA

Hedelin, L., & Allwood, C. M. 2002. ‘IT and strategic decision making’. Industrial Management + Data Systems, 102(3/4), fq. 125.

Hirji, K. K. 2001. ‘Exploring Data Mining Implementation’. Communications of the ACM, 44(7), fq. 87-94.

Huang, H.-T., Lee, Y. W. & Wang, R. Y. 1999, Quality Information and Knowledge, Prentice Hall, New Jersey.

Johnson, J. R., Leitch, R. A. & Neter, J. 1981, 'Characteristics of Errors in Accounts Receivable and Inventory Audits', The Accounting Review, vol. 56, nr. 2, fq. 270-293.

Kahn, B. K., Strong, D. M. & Wang, R. Y. 2002, 'Information Quality Benchmarks: Product and Service Performance', Communications of the ACM, vol. 45, nr. 4

Kantardzic, M., Data Mining: Concepts, Models, Methods, and Algorithms, IEEE Press/Wiley, 2003, fq. 5-7.

Kaplan, D., Krishnan, R., Padman, R. & Peters, J. 1998, 'Assessing Data Quality in Accounting Information Systems', Communications of the ACM, vol. 41, nr. 2, fq. 72-78.

Kirkos, E., Spathis, C. and Manolopoulos, Y. 2009. Audit-firm group appointment: an Artificial Intelligence approach. Intelligent Systems in Accounting, Finance and Management, fq. 13-15

Klein, B. D. 1998, 'Data Quality in the Practice of Consumer Product Management: Evidence From the Field', Data Quality, vol. 4, nr. 1.

Kovac, R., Lee, Y. W. & Pipino, L. L. 1997, 'Total Data Quality Management: The Case of IRI', in Proceeding of the 1997 Conference on Information Quality, fq. 63-79.

Kriebel, C. H. 1979, 'Evaluating the Quality of Information Systems', in Design, and Implementation of Computer Based Information Systems, eds. N. Szysperski & E. Grochia, Sijthtoff and Noordhoff, Germantown

Laudon, K. C. 1986, 'Data Quality and Due Process in Large Interorganizational Record Systems', Communications of the ACM, vol. 29, nr. 1, fq. 4-11.

Liao, S.-h. 2003. ‘Knowledge Management Technologies and applications- Literature review from 1995 to 2002’. Expert System with Application, 25, fq. 155-164.

Liepins, G. E. & Uppuluri, V. R. R. 1990, Data Quality Control: Theory and Pragmatics, Marcel Dekker, Inc., New York.

Liepins, G. E. 1989, 'Sound Data Are a Sound Investment', Quality Progress, vol. 22, nr. 9, fq. 61-64.

Major, J. & Riedinger, D. 2002. EFD: A Hybrid Knowledge/Statistical-based system for the Detection of Fraud. Journal of Risk and Insurance 69(3): fq. 309-324.

Maxwell, B. S. 1989, 'Beyond "Data Validity": Improving the Quality of HRIS Data', Personnel, vol. 66, nr. 4, fq. 48-58.

Maydanchik, A., 2007, Data Quality Assessment, Technics Publications, LLC, fq. 5-9

Page 152: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

143

Mckie, S. ‘Mining Your Accounting Data’. 1997. Aksesuar nga http://www.businessfinancemag.com/magazine/archives/article.html?articleID=4078&pg=4 (27 nëntor 2012)

McKnight, W., 2013, Information Management, Published by Elsevier Science; Morgan Kaufmann, fq. 1-3

Moxon, B. 1996. ‘Defining Data Mining: The Hows and Whys of Data Mining, and How It Differs From Other Analytical Techniques’. Aksesuar nga http://www.dbmsmag.com/9608d53.html (25 nëntor 2012)

Nemati, H. R., & Barko, C. D. 2002. ‘Enhancing enterprise decisions through organizational Data Mining’. The Journal of Computer Information Systems, 42(4), fq. 21-28.

Nichols, D. R. 1987, 'A Model of Auditor's Preliminary Evaluations of Internal Control from Audit Data', The Accounting Review, vol. 62, fq. 183-190.

Oman, R. C. & Ayers, T. B. 1988, 'Improving Data Quality', Journal of Systems Management, vol. 39, nr. 5, fq. 31-35.

Paradice, D. B. & Fuerst, W. L. 1991, 'An MIS Data Quality Methodology Based on Optimal Error Detection', Journal of Information Systems, vol. 5, nr. 1, fq. 19-48.

Pathak, J., Vidyarthi, N. & Summers, S. 2003. A Fuzzy-based Algorithm for Auditors to Detect Element of Fraud in Settled Insurance Claims, Odette School of Business Administration.

Porter, L. J. & Parker, A. J. 1993, 'Total Quality Management - the Critical Success Factors', Total Quality Management, nr. 4, fq. 13-22.

Rahman Sh. A., M., 2008. ‘Utilisation of Data Mining Technology within the Accounting Information System in the Public Sector: A Country Study – Malaysia’, University of Tasmania

Redman, T. C., 1998, 'The Impact of Poor Data Quality on the Typical Enterprise', Communications of the ACM, vol. 41, nr. 2.

Redman, T. C. 1992, Data Quality: Management and Technology, Bantam Books, New York.

Rosset, S., Murad, U., Neumann, E., Idan, Y. & Pinkas, G. 1999. Discovery of Fraud Rules for Telecommunications - Challenges and Solutions. Proc. of SIGKDD99, fq. 409-413.

Ruseti, B., Sevrani, K, “Sistemet e Informacionit të Menaxhimit”, Shtëpia Botuese “Dajti 2000”, ISBN: 99943-714-1-X, Tiranë, 2011, fq. 15.

Saraph, J. V., Benson, P. G. & Schroeder, R. G. 1989, 'An Instrument for Measuring the Critical Factors of Quality Management', Decision Sciences, vol. 120, nr. 4, fq. 457-78.

Segev, A. 1996, 'On Information Quality and the WWW Impact a Position Paper', in Proceedings of Conference of Information Quality.

Spanos, Y. E., Prastacos, G. P., & Poulymenakou, A. 2002. ‘The relationship between information and communication technologies adoption and management’. Information & Management, 39(8), fq. 659-675.

Page 153: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

144

Stefano, B. & Gisella, F. 2001. Insurance Fraud Evaluation: A Fuzzy Expert System. Proc. of IEEE International Fuzzy Systems Conference, fq. 1491-1494.

Stratton, W. O. 1981, 'Accounting Systems: The Reliability Approach to Internal Control Evaluation', Decision Sciences, vol. 12, nr. 1, fq. 51-67

Strong, D. M., Lee, Y. W. & Wang, R. Y. 1997, 'Data Quality in Context', Communications of the ACM, vol. 40, no. 5, fq. 103-110.

Sutton, S. G. 2000. ‘The changing face of accounting in an information technology dominated world’. International Journal of Accounting Information Systems, 1(1), fq. 1-8

Te'eni, D. 1993, 'Behavioral Aspects of Data Production and Their Impact on Data Quality', Journal of Database Management, vol. 4, nr. 2, fq. 30-38

Thuraisingham, B. 2000, A Primer for Understanding and Applying Data Mining. IT Pro IEEE, fq. 28-31.

Uday, S. M., & E. Wiggins Casper, J. 1999. ‘A Perspective on Accounting Information Systems Research’. Journal of Information Systems, 13(1), 3-6.

Ullman, J. D. 1982, Principles of Database Systems, Computer Science Press, Rockville, Maryland.

Von Altrock, C. 1997. Fuzzy Logic and Neurofuzzy Applications in Business and Finance. fq. 286-294. Prentice Hall.

Wand, Y. & Wang, R. Y. 1996, 'Anchoring Data Quality Dimensions In Ontological Foundations', Communications of the ACM, vol. 39, nr. 11, fq. 86-95.

Wang, R. Y., Lee, Y. W., Pipino, L. L. & Strong, D. M. 1998, 'Manage Your Information as a Product', Sloan Management Review, vol. 39, nr. 4, fq. 95-105.

Wang, R. Y., 1998, 'A Product Perspective on Total Data Quality Management', Communications of the ACM, vol. 41, nr. 2, fq. 58-65.

Wang, R. Y., Storey, V. C. & Firth, C. P. 1995, 'A Framework for Analysis of Data Quality Research', IEEE Transactions on Knowledge and Data Engineering, vol. 7, nr. 4, fq. 623-639.

Wang, R. Y., Reddy, M. P. & Gupta, A. 1993, 'An Object-Oriented Implementation of Quality Data Products', in Proceedings of the WITS-'93 Conference, Orlando, Florida.

Wang, R. Y., Kon, H. B. & Madnick, S. E. 1993, 'Data Quality Requirements Analysis and Modeling', in Proceedings of the Ninth International Conference of Data Engineering, IEEE Computer Society Press, Vienna, Austria.

Weber, C. M. 2002. ‘Getting it right the first time: Accounting, auditing, financial systems and the federal government’. The Journal of Government Financial Management, 51(2), fq. 9

Wen, C. P., 2004. ‘Hierarchical Analysis For Discovering Knowledge in Large Databases’. Information Systems Management, fq. 81-88.

Wheeler, R. & Aitken, S. 2000. Multiple Algorithms for Fraud Detection. Knowledge-Based Systems 13(3): fq. 93-99.

Witten, I. H., Frank, E. 2005, Data Mining: Practical machine learning tools and techniques, Morgan Kaufmann

Page 154: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

145

Xu, H. 2003, Critical Success Factors for Accounting Information Systems Data Quality

Yu, S. & Neter, J. 1973, 'A Stochastic Model of the Internal Control System', Journal 233 of Accounting Research, vol. 11, nr. 3, fq. 273-295.

Yusof, S. M. & Aspinwall, E. 1999, 'Critical Success Factors for Total Quality Management Implementation in Small and Medium Enterprises', Total Quality Management, f. 803.

Zeithaml, V. A., Berry, L. L. & Parasuraman, A., 1990, Delivering Quality Service: Balancing Customer Perceptions and Expectations, Free Press, New York, NY.

Zikmund, W. G. 1997, Business Research Methods, The Dryden Press.

Zmud, R. 1978, 'Concepts, Theories, and Techniques: An Empirical Investigation of the Dimensionality of the Concept of Information', Decision Sciences, vol. 9, nr. 2, fq. 187-195.

Zoto, E., 2015, Data quality in Accounting Information Systems - Comparing Several Data Mining Techniques, Journal of Multidisciplinary Engineering Science and Technology (JMEST) 2015, Vol. 2, Issue 5, ISSN: 3159-0040, fq. 1155 - 1162, Maj 2015, Gjermani.

Zoto, E., Tole, Dh. 2014, Analyzing data quality in Accounting Information Systems, International Economy & Business Doctoral Students Conference, fq. 319-328, 2014, Tiranë, në proçes botimi

Zoto, E., Tole, Dh. 2014, The main factors that influence Data Quality in Accounting Information Systems, IJSINT 2014, vol. 1, ISSN 2225-0751 (Online), ISSN 2223-2257 (Print), fq. 1-7, Tiranë

Page 155: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

146

SHTOJCA

1. Pyetësori ...............…………………………………………………………1472. Mjetet e përdorura për analizën dhe paraqitjen e rezultateve të punimit.......153

Page 156: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

147

SHTOJCA 1: P Y E T Ë S O R

Disa terma të rëndësishëm

Cilësi të dhënash –të dhënat, që të jenë cilësore, duhet të përfshijnë disa karakteristika:

Të sakta – vlera e regjistruar të përputhet me vlerën aktuale (pa gabime) Në kohë – vlera e regjistruar duhet të regjistrohet në kohën e duhur, pa vonesa

Të plota – të gjitha vlerat e rëndësishme duhet të regjistrohen Konsistente – vlerat e regjistruara ruajnë të njëjtin format kudo që ato

përdoren

Sistem Informacioni në Kontabilitet (në vijim: SIK) - mund të jetë dhe manual, por përgjithësisht sot shihet si i njëvlershëm me programet e kontabilitetit (Alpha, Bilanc, QuickBooks, etj.), ose pjesë e ERP; përdoret edhe për gjurmimin e proceseve gjatë auditimit

Furnizues të dhënash - mund të jenë të brendshëm (departamentet brenda të njëjtës organizatë) ose të jashtëm (institucionet financiare, qeveria), përfshihen të gjithë ata që ofrojnë të dhëna të paorganizuara, të papërpunuara për SIK

Menaxher i cilësisë së të dhënave - individë/grup individësh, të aftë për të përcaktuar proceset dhe veprimtaritë e nevojshme që garantojnë një nivel të lartë për cilësinë e të dhënave të përdorura brenda organizatës

Validim – proces që kontrollon nëse vlerat e regjistruara të të dhënave janë të vlefshme, logjike dhe të sigurta, përpara se ato të përpunohen më tej

Rubrika I: Pyetje të përgjithshme

1. Ku jeni të punësuar?� I pavarur

� I vetëpunësuar

� I punësuar në sektorin shtetëror

� I punësuar në sektorin privat, organizatë me pronësi të huaj� I punësuar në sektorin privat, organizatë me pronësi shqiptare

� I punësuar në organizata jofitimprurëse

� Tjetër ______________2. Prej sa vitesh keni eksperiencë me SIK? ____________3. Cili është SIK me të cilin keni punuar? ____________

Plotësoni në fushën më sipër emrin e programit (shënoni vetëm një nga këto: Alpha Business, Alpha Standard, Financa 5, Bilanc Standard, Bilanc Profesional, Quickbooks, etj.)

4. Ju lutem, tregoni rolin (detyrën) tuaj në lidhje me SIK që përmendët më sipër:

� Përgatitni apo mblidhni të dhëna për SIK

Page 157: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

148

� Drejtoni personat që merren me mbledhjen dhe përgatitjen e të dhënave për SIK

� Përdorni informacionet kontabël në detyrat që ju jepen� Auditoni apo kontrolloni të dhënat e SIK

5. Si do ta përcaktonit nivelin e përgjithshëm të cilësisë së të dhënave në SIK-un që njihni?

� Shumë të ulët

� Të ulët

� Mesatar

� Të lartë

� Shumë të lartëa) Si do ta vlerësonit nivelin e

saktësisë?� Shumë të ulët

� Të ulët

� Mesatar

� Të lartë

� Shumë të lartëb) Si do ta vlerësonit nivelin e

korrektesës në kohë?� Shumë të ulët

� Të ulët

� Mesatar

� Të lartë

� Shumë të lartë

c) Si do ta vlerësonit nivelin e plotësisë?� Shumë të ulët

� Të ulët

� Mesatar

� Të lartë

� Shumë të lartëd) Si do ta vlerësonit nivelin e

konsistencës?� Shumë të ulët

� Të ulët

� Mesatar

� Të lartë

� Shumë të lartë

Rubrika II: Pyetje për faktorët kyç që ndikojnë në cilësinë e të dhënave për SIK

Në kolonën me emërtimin “Rëndësia” më poshtë,ju lutem vlerësoni nivelin e rëndësisë së secilit faktor apo nënfaktor në garantimin e cilësisë së të dhënave në SIK, bazuar në perceptimin dhe opinionin tuaj. Në kolonën me emërtimin “Realizimi” më poshtë, ju lutem vlerësoni nivelin e realizimit të secilit faktor apo nënfaktor nga ana e organizatës që përdorte SIK-un përkatës.

Vlerësimi do të bëhet duke shënuar numrin që korrespondon me një nga kategoritë si vijon:

Rëndësia: 1 – Jo i rëndësishëm; 2 – Pak; 3 – Mesatar; 4 – I rëndësishëm; 5 - Shumë i rëndësishëm;

Realizimi: 1 – Nuk realizohet fare; 2 – I dobët; 3 – mesatar; 4 – I mirë; 5 - Shumë i mirë;

Page 158: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

149

Rëndësia Realizimi1-5 1-5

1. Angazhimi i personelit drejtues të organizatës:

2. Trajnimi:

a) Trajnimi fillestar:

b) Trajnimi i vazhdueshëm

3. Vizioni i qartë strategjik për cilësinë e të dhënave:

4. Ekzistenca e një menaxheri për cilësinë e të dhënave:

5. Struktura organizative:

6. Politikat dhe standardet e vendosura për cilësinë e të dhënave:

a) Vendosja e qëllimeve dhe standardeve për cilësinë e të dhënave

b) Zbatimi i politikave dhe standardeve:

7. Kultura organizative me përqendrim drejt cilësisë së të dhënave:

8. Kontrolli i cilësisë së të dhënave:

9. Kontrolli mbi inputet:

10. Përqendrimi te kërkesat e përdoruesit:

11. Karakteristikat e SIK:

a) I lehtë për t’u përdorur:

b) Mundëson validim të mjaftueshëm të të dhënave:

c) Mundëson dokumentim të mjaftueshëm për gjurmim të mëtejshëm:

d) Ndryshohet/përditësohet me lehtësi:

e) Niveli i integrimit me komponentët e tjerë:

12. Marrëdhëniet e mira në mjedisin e punës:

Page 159: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

150

Rëndësia Realizimi1-5 1-5

13. Menaxhimi i mirë i ndryshimeve:

a) Ndryshimet e brendshme – teknologji e re, personel i ri

b) Ndryshimet e jashtme – legjislacioni, ekonomia, tregu

14. Matja dhe raportimi:

a) Matja e rezultateve mbi cilësinë e të dhënave

b) Raportimi i rezultateve dhe marrja e masave të përshtatshme

15. Menaxhimi i cilësisë në lidhje me furnizuesit e të dhënave:

a) Marrëveshjet e mundshme mbi cilësinë e të dhënave të marra:

b) Raportimi tek furnizuesit mbi cilësinë e të dhënave, asistenca teknike:

16. Përmirësimi i vazhdueshëm:

17. Puna në grup:

a) Brenda dhe ndërmjet departamenteve:

b) Ndërmjet profesionistëve të fushave të ndryshme:

18. Analiza kosto/përfitim për proceset e lidhura me cilësinë e të dhënave

19. Njohja me SIK dhe cilësinë e të dhënave:

a) Të kuptosh si funksionon SIK (kompetenca teknike):

b) Të kuptosh rëndësinë e cilësisë së të dhënave dhe lidhjen e saj me objektivat e biznesit:

c) Të kuptosh dobinë e informacionit dhe si ta përdorësh:

20. Menaxhimi i rrezikut:

21. Aftësitë e personelit punonjës:

22. Mjedisi i përshtatshëm i punës:

Page 160: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

151

Rëndësia Realizimi1-5 1-5

23. Auditimi i SIK:

24. Kontrollet e brendshme:

a) Kontrollet mbi sistemin:

b) Kontrollet mbi proceset dhe njerëzit:

Ju lutem, pasi të rishikoni faktorët e renditur më sipër, përcaktoni në listën në të majtë tre faktorët/nënfaktorët më të rëndësishëm që ndikojnë mbi cilësinë e të dhënave në SIK, duke i renditur ata sipas rëndësisë me anë të numrit përkatës të pyetjes (p.sh. 5, 18b, etj.)

Ju lutem përsëritni të njëjtën procedurë në listën në të djathtë për tre faktorët/nënfaktorët me realizimin më të mirë nga ana e organizatës në lidhje me SIK-un përkatës.

Niveli më i lartë i rëndësisë:

Faktori nr. 1: ______

Faktori nr. 2: ______

Faktori nr. 3: ______

Niveli më i lartë i realizimit:

Faktori nr. 1: ______

Faktori nr. 2: ______

Faktori nr. 3: ______

Page 161: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

152

Komente të tjera për cilësinë e të dhënave në SIK apo faktorët që ndikojnë:

___________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Ju falenderoj përzemërsisht për kontributin tuaj në plotësimin e këtij pyetësori.

Page 162: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

153

SHTOJCA 2: MJETET E PËRDORURA PËR ANALIZËN DHE PARAQITJEN E REZULTATEVE TË PUNIMIT

Në kapitujt 4, 5 dhe 6 është bërë një analizë e hollësishme e të dhënave të marra nga pyetësorët e plotësuar, përfshirë dhe shndërrimin e tyre për efekt të krijimit tëmodeleve parashikues me anë të teknikave Data Mining.

Janë përdorur një sërë programesh kompjuterike për të përmbushur synimet në lidhje me këta kapituj, ndërkohë një sqarim më i hollësishëm në lidhje me funksionin e tyre në kuadër të analizës së bërë jepet në vijim.

MS Excel (Office 2007)

Së pari, është përdorur MS Excel, pjesë e paketës Office 2007 për të marrë rezultatet e paraqitura në tri seksionet e para të kapitullit 4. Përmes mundësive që ky program ofron, është arritur të nxirren përfundime të rëndësishme në lidhje me pyetjet e përgjithshme të pjesës së parë të pyetësorit, por edhe në lidhje me përcaktimin e faktorëve më të rëndësishëm dhe më të realizuar sipas renditjes në tërësi. Pjesë e kontributit të këtij programi kanë qenë të gjitha tabelat dhe grafikët e lidhura me seksionet e përmendura më sipër, shndërrimi i vlerave të shpërndara sipas shkallës Likert në vlera binare, përcaktimi i vlerave të medianës për secilin faktor, etj., të gjitha këto në përputhje me objektivat e punimit.

WEKA

Duke ndjekur radhën e analizës së bërë gjatë kapitullit 4, për përzgjedhjen e grupit të faktorëve kyç është parë e arsyeshme përfshirja e programit WEKA (Waikato Environment for Knowledge Analysis), i cili mundësonte realizimin e analizës faktoriale përmes një numri të konsiderueshëm teknikash të mundshme. Lehtësia në përdorim dhe në interpretim bënë që ky program të përdorej dhe në fazën e krijimit të modeleve me anë të teknikave Data Mining, për zbatimin e shumicës së modeleve të marra parasysh gjatë pjesës së dytë të këtij kapitulli.

Ky program ishte gjithashtu zgjedhja kryesore për pjesën e vlerësimit dhe krijimit të modeleve të ndryshuara me anë të metodës bagging për të njëjtat arsye si më sipër, pjesë e trajtuar në kapitullin 5. Nga ana tjetër, për secilën nga metodat e shfrytëzuara, ky program ofronte shumë më tepër mundësi në krahasim me programet e tjera të ngjashme për të ndryshuar vlerat e atributeve të veçanta.

Ky program u shfrytëzua edhe për paraqitjen e modelit të krijuar me anë të teknikës MLP, në figurën 4.3, si më i përshtatshëm në lidhje me këtë lloj paraqitjeje.

SPSS

SPSS (Statistical Package for the Social Sciences) është një program statistikor, i cili i vjen në dobi kërkuesve që duan të krijojnë modele regresi të llojeve

Page 163: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

154

të ndryshme, përfshirë regresionin logjistik të thjeshtë dhe teknika të tjera Data Mining, si p.sh rrjetat nervore, pemët e vendimit apo teknikat e grupimit. Në rastin në fjalë, ky program u shfrytëzua si i vetmi që mundësonte analizën e duhur për krijimin e modeleve të regresionit logjistik sipas metodës stepwise, e përdorur për të krijuar modelin alternativ të regresionit logjistik. Madje, të gjitha të dhënat e paraqitura në tabelat që interpretojnë rezultatet e modelit alternativ të regresionit logjistik, bashkë me disa tabela të modelit kryesor janë përshtatur nga paraqitja e tyre me anë të këtij programi.

Tanagra

Tanagra është një produkt softuerik i specializuar për analizë të përparuar të dhënash, përfshirë zbatimin e të gjithë metodave të njohura nën emërtimin Data Mining. Ky program është përdorur herë pas here për të krahasuar rezultatet e marra nga zbatimi i teknikave Data Mining, por mundësitë e këtij programi ishin të kufizuara ndaj programeve të tjera të përdorura, si p.sh. WEKA. Veçoria e përdorimit të këtij programi lidhet kryesisht me mundësinë e kontrollit të vërtetësisë për teste të ndryshme statistikore, duke u nisur nga ai i normalitetit, i përdorur për të përcaktuar mënyrën e vlerësimit të faktorëve më të rëndësishëm dhe atyre më të realizuar. Tabela 4.3 me të dhënat përkatëse është përshtatur nga rezultatet e marra nga përdorimi i këtij programi. E njëjta gjë mund të thuhet për pjesën e testimit të faktorëve që kishin medianë të ndryshme në varësi të vlerave të nivelit të cilësisë së të dhënave. Përfundimet që jepen nga tabela 4.10 me të dhënat përkatëse janë marrë me ndihmën e këtij programi. Po ashtu, të gjitha kontrollet e hipotezave në kapitullin 6 u realizuan përmes këtij programi.

Sipina

Sipina ishte një tjetër program i shfrytëzuar për të krijuar modelet që përfshinin regresionin logjistik të thjeshtë, por edhe teknikat e tjera Data Mining. Një arsye e veçantë e përdorimit të këtij programi ishte mundësia që ofronte për krijimin e pemëve të vendimit hap pas hapi, në bazë të aftësive ndarëse të secilit faktor, siç tregohet dhe në interpretimin e modeleve përkatëse në kapitullin 4. Më konkretisht, një nga rezultatet e rëndësishme të marra prej këtij programi është tabela 4.15 me vlerat përkatëse. Ky program është përdorur dhe për paraqitjen e modeleve të krijuara me anë të pemëve të vendimit, më konkretisht figurat 4.1 dhe 4.2, pasi ishte i specializuar për paraqitjen dhe krijimin e modeleve për këtë teknikë nga grupi i teknikave të klasifikimit Data Mining.

Të tjera

Në lidhje me regresionin logjistik, fillimisht u përdor E-views, një program statistikor i përshtatshëm ndër të tjera për kombinime vlerash binare midis variablave

Page 164: Erjon Zoto PhD, Fakulteti in Ekonomise, Departamenti i Mat - Stat - Info

Erjon ZOTO – Punim i Doktoratës“Data Mining dhe Cilësia e të Dhënave në Sistemet e Informacionit në Kontabilitet”

155

të varur të modelit parashikues, në këtë rast, faktorët e realizuar në lidhje me cilësinë e të dhënave në SIK. Për mungesë kapaciteti përpunues për modele me numër të lartë variablash të kombinuar me vlera binare, ky program u zëvendësua më tej nga programe të tilla si WEKA, Tanagra, SPSS, etj.

Së fundmi, janë përdorur dhe programe të tjera të ngjashme në funksionalitet me programet e përmendura më sipër, ndër të tjera MATLAB, RapidMiner, etj., por që nuk sollën vlerë të shtuar krahasuar me programet e trajtuara në këtë seksion.