problem jakości danych - ii.pwr.edu.plb3ad%206/jako%9c%e6%20danych.pdf · problem jakości danych...

93
Problem jakości danych Żyjemy w epoce informacji, w której dane są jednym z najcenniejszych towarów. Korporacje, urzędy, szkoły, praktycznie każdy rodzaj działalności człowieka zależy w jakiś sposób od systemów informatycznych i danych przez nie gromadzonych. Koszty związane z posiadaniem danych niskiej jakości są ogromne, a zapobieganie temu zjawisku wydaje się zasadne. Potwierdzeniem może być przypadek firmy naftowej Amec, która szacuje oszczędności poczynione dzięki poprawie jakości swoich danych, na około milion funtów. Zastanawia fakt niewielkiego zainteresowania przedsiębiorstw tego rodzaju oszczędnościami, w szczególności wśród międzynarodowych korporacji. Dodatkowo, na rynku praktycznie brak jest ofert rozwiązań służących do zarządzania jakością danych skierowanych do firm średniej wielkości.

Upload: vuongngoc

Post on 01-Mar-2019

222 views

Category:

Documents


0 download

TRANSCRIPT

Problem jakości danych

• Żyjemy w epoce informacji, w której dane są jednym z

najcenniejszych towarów.

• Korporacje, urzędy, szkoły, praktycznie każdy rodzaj działalności

człowieka zależy w jakiś sposób od systemów informatycznych i

danych przez nie gromadzonych.

• Koszty związane z posiadaniem danych niskiej jakości są

ogromne, a zapobieganie temu zjawisku wydaje się zasadne.

• Potwierdzeniem może być przypadek firmy naftowej Amec, która

szacuje oszczędności poczynione dzięki poprawie jakości swoich

danych, na około milion funtów.

• Zastanawia fakt niewielkiego zainteresowania przedsiębiorstw tego

rodzaju oszczędnościami, w szczególności wśród

międzynarodowych korporacji.

• Dodatkowo, na rynku praktycznie brak jest ofert rozwiązań

służących do zarządzania jakością danych skierowanych do firm

średniej wielkości.

Problem jakości danych

• Wirusy komputerowe spowodowały w 2003 roku straty na

kwotę 55 miliardów dolarów[1]

• Roczne straty wynikające z posiadania danych słabej

jakości są szacowane na 611 miliardów dolarów dla

przedsiębiorstw z samych Stanów Zjednoczonych [2].

• Mimo to inwestycje w bezpieczeństwo ukierunkowane są

przede wszystkim na zabezpieczenia przed atakami

zewnętrznymi. Potrzeba ochrony posiadanych danych

przed erozją wewnętrzną jest postrzegana jako

marginalna.

Definicje jakości danych

• Wg Redmana [3].

• Dane są wysokiej jakości jeżeli nadają się do użycia

zgodnie z przeznaczeniem w zakresie działania,

podejmowania decyzji i planowania. Dane nadają się do

użycia zgodnie z przeznaczeniem, jeżeli nie zawierają

defektów i posiadają pożądane cechy.

• Data are of high quality if they are fit for their intended

uses in operations, decision-making, and planning. Data

are fit for use if they are free of defects and possess

desired features.

• dostępność – możliwość wykorzystania; fakt występowania danych

w postaci łatwej do przetworzenia, do których użytkownik ma dostęp

oraz które są gotowe do wykorzystania nie później, niż z

maksymalnie tolerowanym opóźnieniem,

• zrozumiałość – możliwość łatwej interpretacji; czytelna

charakterystyka danych w celu ich prawidłowego użycia,

• spójność i poprawność – prawidłowość; przystawanie do

rzeczywistych faktów, brak błędów i wzajemnych sprzeczności,

• kompletność – występowanie wszystkich elementów, które w

rzeczywistym świecie odpowiadają występującemu zakresowi

faktów,

• użyteczność – zgodność z oczekiwaniami; dopasowanie do potrzeb

użytkownika i/lub realizowanego procesu biznesowego

Cechy danych dobrej jakości

Definicje jakości danych

• Tayi i Ballou [4] zauważają, że dane o wystarczającej jakości

pewnych cech dla jednego zadania, mogą się okazać

niedostatecznie dobre do innego celu.

• Jest to sygnał do tego, by podejść do zagadnienia jakości danych

jako do problemu wielowymiarowego i wielowątkowego.

• Skoro te same dane mogą być jednocześnie dobrej i złej jakości z

różnych punktów widzenia, to należałoby ustalić pewne kryteria

bardziej dokładnej oceny jakości danych pod kątem różnych ich

cech.

Definicje jakości danych

• Wang i Strong [5] opracowali 15 wymiarów jakości danych z

perspektywy użytkownika danych.

• Podzielili je na cztery kategorie:

• wewnętrzną,

• dostępu,

• kontekstu

• reprezentacji.

• Taki podział został przyjęty i zastosowany w wielu firmach i

agendach rządowych a jego przydatność potwierdzona została w

licznych badaniach.

• Zmierzenie jakości danych pod kątem wszystkich 15 wymiarów jest

jednak przydatne jedynie w teorii.

• Z praktycznego punktu widzenia nie ma sensu używać wszystkich

wymiarów do oceny danych, a jedynie tych, które mają dla nas

faktyczne jakieś znaczenie.

Kategorie i wymiary jakości danych

Kategoria Wymiar

Wewnętrznadokładność, obiektywność,

wiarygodność, reputacja

Dostępudostępność, bezpieczeństwo

dostępu

Kontekstu

relewancja, wartość dodana,

aktualność, kompletność,

ilość danych

Reprezentacji

interpretowalność, łatwość

zrozumienia, zwięzłość,

spójna reprezentacja

Tabela. Kategorie i wymiary jakości danych [6]

Kategorie i wymiary jakości danych

Tabela. Kategorie i wymiary jakości danych w oryginale

• Dokładność – zakres w jakim dane są poprawne i odpowiadają

rzeczywistości

• Obiektywność – zakres w jakim dane są bezstronne i pozbawione

tendencyjności

• Wiarygodność – zakres w jakim dane postrzegane są jako

prawdziwe i poprawne

• Reputacja – zakres w jakim dane posiadają wysokie uznanie pod

względem źródła lub zawartości

• Dostępność – zakres w jakim dane są dostępne lub łatwe do

uzyskania

• Bezpieczeństwo dostępu – zakres w jakim dostęp do danych został

ograniczony aby zapewnić ich bezpieczeństwo

• Relewantność – zakres w jakim informacje zawarte w danych

nadają się do stawianych im zadań

• Wartość dodana – zakres w jakim wykorzystanie danych przyniesie

wymierne korzyści

Kategorie i wymiary jakości danych

• Aktualność – zakres w jakim dane są aktualne ze względu na potrzeby

stawianych im celów

• Kompletność – zakres w jakim dane zawierają wszystkie wymagane

informacje, zarówno ilościowo jak i jakościowo, potrzebne do stawianych

im celów

• Ilość danych – zakres w jakim ilość danych wpływa na utrudnienie

wykonania operacji na nich

• Interpretowalność – zakres w jakim dane są zapisane w odpowiednim

języku, przy użyciu odpowiedniej symboliki i z zachowaniem odpowiednich

jednostek

• Łatwość zrozumienia – zakres w jakim typowy użytkownik jest w stanie

zrozumieć informacje zawarte w danych

• Zwięzłość – zakres w jakim dane nie zawierają nadmiarowych i zbędnych

informacji oraz nie zajmują w sposób nieuzasadniony dużo miejsca

• Spójna reprezentacja – zakres w jakim dane przestawiane są w jednolity

sposób

Kategorie i wymiary jakości danych

Problemy wewnętrznej jakości danych

Rys. Model problemów

związanych z wewnętrzną

jakością danych [6]

• Załóżmy, że nasze dane pochodzą z wielu źródeł. Każde z nich dostarcza

niezależnie od siebie dane, w wyniku czego, powstają różnego rodzaju

niezgodności.

• Odbiorca danych na samym początku nie bardzo jeszcze wie, z czego

wynikają te niezgodności, wie tylko że one występują, co obniża w jego

oczach wiarygodność danych.

• Ponadto, część wprowadzonych danych zależała od uznania operatorów –

mogły być to dane z zakresu dobry, średni, zły lub też inne, zalenie jedynie

od uznania jednej osoby. Takie dane posiadają wątpliwą obiektywność,

gdyż przyjmuje się, że dane nieinterpretowane posiadają z reguły wyższą

jakość niż dane po interpretacji lub zakodowaniu.

• Z biegiem czasu, następuje weryfikacja dokładności danych, czego

wynikiem jest zebranie informacji o przyczynach powstawania

niezgodności w danych.

• Akumulacja negatywnych wyników badania dokładności owocuje złą

reputacją dla mniej dokładnych źródeł danych.

• Dane o złej reputacji i niskiej dokładności nie posiadają prawie żadnej

wartości dla ich odbiorcy i w związku z tym, dane przestają być używane

Problemy wewnętrznej jakości danych

Problemy dostępności do danych

Rys. Model problemów związanych z dostępnością do danych [6]

• Typ problemów (1) można łatwo zobrazować sytuacją pozbawienia

dostępności do danych. Za przykład może posłużyć praca zdalna, gdzie

użytkownik pracuje na danych znajdujących się na innym komputerze,

które musi pobierać i przetwarzać u siebie, w sytuacji, gdy z powodów

technicznych uszkodzeniu uległo łącze internetowe lub działające łącze jest

obciążone w stopniu uniemożliwiającym pracę.

• Typ problemów (2) występuje w sytuacji, kiedy przechowywane dane mają

charakter poufny. Wymagane jest wtedy zapewnienie bezpieczeństwa

dostępu do nich. Jednak w sytuacji, w której każdorazowy dostęp do

danych wymaga czasochłonnego uzyskania odpowiedniej autoryzacji,

przestają być one traktowane jako dostępne.

• Problemy (3) mają miejsce, gdy przetworzone dane nabierają charakteru

danych specjalistycznych, posługujących się specjalistycznym

słownictwem, specyficznym sposobem zapisu bądź kodowania. W

momencie, kiedy do interpretacji i zrozumienia danych potrzeba zaciągać

opinii jednego lub więcej ekspertów, dane, podobnie jak w poprzednich

przypadkach, tracą na dostępności.

Problemy dostępności do danych

• Typ (4) dotyczy przypadków, w których dane zawierają oprócz tekstu

również wykresy, diagramy, skany itp. Ze względu na brak zwięzłości i

konsystencji w reprezentacji danych nie można ich łatwo podsumować

(np.: dysponując tysiącem zeskanowanych zdjęć rentgenowskich, nie

można łatwo uzyskać odpowiedzi na pytanie ilu pacjentów ma zapalenie

płuc).

• Typ (5) odnosi się do stanu rzeczy, w którym posiadamy ogromne ilości

danych (np. hurtownia danych) i w momencie uaktualnienia ich nowymi

danymi uzyskanie aktualnych wyników musi zostać poprzedzone

długotrwałym procesem przetworzenia.

Problemy dostępności do danych

• Becker [6] odrzucił on wirtualne wymiary zaproponowane przez

Wanga i Stronga i założył, że za jakość danych odpowiadają

zjawiska odpowiedzialne za tworzenie błędów.

• Wymienił siedem typowych problemów jakości danych:

• Problemy powstałe w wyniku niepoprawnej konwersji danych

• Rozbieżności znaczeniowe pomiędzy bieżącymi i

historycznymi danymi

• Te same dane posiadają wiele funkcji lub znaczeń

• Braki w danych

• Ukryte dane

• Niedostateczna dokładność

• Naruszenie zasad integralności danych

Problemy jakości danych wg Beckera

Błędy danych przestrzennych

Kategoria Definicja Przykład

Dokładność

położenia

Poziom dokładności położenia

poziomego i pionowego w układzie

współrzędnych

Precyzja z jaką podawane są koordynaty

Dokładność

atrybutów

Poziom błędów merytorycznych w

danych

Prawdopodobieństwo z którym jakość gleby w

danym miejscu będzie się zgadzać z zapisem

w danych

Kompletność Poziom w jakim dane zawierają braki Ocena rozmieszczenia przestrzennego

pewnych zjawisk może okazać się niemożliwa,

jeśli nie dysponujemy danymi z jakiegoś

obszaru

Spójność logiczna Poziom pojawiania się sprzecznych

relacji w danych

Spójność logiczna nie będzie zachowana,

jeżeli na przykład dla jednego obszaru badamy

liczbę dokonanych przestępstw a dla drugiego

liczbę zgłoszonych

Pochodzenie

danych

Poziom w jakim wszystkie dane

posiadają chronologiczną zgodność

Problemem może się okazać fakt, że gdy

chcemy zbadać jakieś zjawisko na przestrzeni

lat, to okazuje się, że pomiary dla

poszczególnych lat dokonywane były w

różnych porach roku.

Tabela. Pięć kategorii błędów dla Standardu Wymiany Danych Przestrzennych w USA [8 ]

• Nie można zastosować jednego kryterium oceny do wszystkich

możliwych sytuacji.

• W każdej sytuacji, gdy chcemy zbadać jakość danych potrzebna jest

przede wszystkim głęboka analiza i poznanie charakteru danych

oraz zapoznanie się z przeznaczeniem danych i procesów, jakim są

one poddawane.

• Dopiero wtedy można dobrać odpowiednie do danej sytuacji

wymiary, w jakich będziemy rozważać jakość danych.

• Zazwyczaj należy połączyć wybrane elementy kilku różnych podejść

oraz zaproponować własne i stworzyć z nich nową koncepcję oceny

jakości danych, tak aby jak najlepiej pasowała do danej sytuacji.

• Ponieważ nie istnieje jak na razie jedno uniwersalne kryterium ani

jeden ustalony zbiór wymiarów, można śmiało eksperymentować .

Podsumowanie podejść do jakości danych

• W celu umożliwienia (bardziej) obiektywnej oceny jakościowej,

wyróżniono cechy danych, które nie są zależne od procesu w którym

są wykorzystywane, ani od oczekiwań konkretnego użytkownika, ale

„tkwią w nich samych” :

• zgodność z definicją – zgodność z intencją twórcy (np. naruszeniem

tej własności jest występowanie uwag dotyczących sposobu

spedycji towaru w polu email klienta),

• zgodność ze źródłami rzeczywistymi i zastępczymi – przystawanie

do pośrednich (np. zgromadzonych na ręcznie prowadzonych

dokumentach) oraz faktycznych (istniejących w rzeczywistym

świecie) stanów (np. dane z inwentaryzacji magazynu w systemie

odpowiadać powinny formie zastępczej, jaką są notatki osób

weryfikujących bieżące stany towarowe, a przez to ilościom

faktycznym),

• dokładność – szczegółowość na ustalonym poziomie (np. sam rok

urodzenia nie jest, w ogólności, wystarczający do ustalenia

możliwości nabywania wyrobów alkoholowych),

Wymiary jakości danych

(inny pogląd)

• kompletność – ujęcie wszystkich obiektów rzeczywistych, których

dotyczy ewidencja (np. złamaniem tej zasady jest brak ewidencji w

systemie przeprowadzonej transakcji bankowej),

• brak duplikatów – reprezentacja każdego obiektu świata

rzeczywistego wyłącznie za pomocą jednego elementu (np. każdy

obywatel powinien być zarejestrowany wyłącznie raz w bazie urzędu

skarbowego, inaczej mógłby zostać poproszony

o składanie kilku zeznań podatkowych rocznie),

• spełnianie reguł biznesowych – poprawne względem ogólnie

przyjętych norm i szczegółowych ustaleń właściciela i/lub twórcy

systemu dotyczących ewidencji określonych faktów rzeczywistych

(np. data przyjęcia do pracy nie może być wcześniejsza od momentu

narodzin pracownika).

Wymiary jakości danych

(inny pogląd)

• Analizując dane w aspekcie ich jakości, można podzielić je według

rodzaju problemów w nich występujących [2]:

• dane prawidłowe (np. mieszkaniec Wrocławia wskazał „Wrocław”

jako miejsce zamieszkania),

• dane poprawne ale nieprawdziwe (np. mieszkaniec Wrocławia

wskazał „Poznań” jako miejsce zamieszkania),

• dane niepoprawne (np. mieszkaniec Wrocławia wskazał

„Jakościolandie II” jako miejsce zamieszkania).

Klasyfikacja danych w kontekście

występujących w nich problemów

Klasyfikacja danych w kontekście

występujących w nich problemów

• analiza wartości – wykrywa błędy pojedynczych wartości, które nie

należą do zadanej dziedziny,

• analiza strukturalna – pozwala na wykrycie błędów wynikających ze

struktury bazy danych – w relacjach, w danych redundantnych i

zdenormalizowanych,

• analiza reguł operujących na zależnościach danych – pozwala na

wykrycie złych kombinacji poprawnych danych poprzez

zastosowanie stosownych reguł, które muszą być zawsze spełnione,

• analiza reguł operująca na wartościach danych – pozwala wykryć

błędy opierając się na agregacjach i rozkładach występujących

wartości (np. zbyt częste występowanie różnych studentów

przedstawiających się jako Józef Stalin na liście obecności,

w stosunku do pozostałych).

Oczywistym jest fakt, iż nie każdy defekt da się wykryć za pomocą

technik analitycznych, stąd też możliwa jest klasyfikacja określona

jako brak możliwości analitycznych wykrycia błędu.

Klasyfikacja defektów według

analitycznych technik detekcji

• błąd wartości atrybutu – gdy problem dotyczy wartości pojedynczego

pola (np. zły format daty),

• błąd encji – kiedy problem dotyczy zestawu atrybutów pojedynczego

rekordu, ale niemożliwe jest wskazanie jednego atrybutu

odpowiedzialnego za błąd (np. kwota brutto pozycji faktury nie jest

sumą wartości netto i należnego podatku VAT),

• błąd tabeli – kiedy problem dotyczy szeregu wierszy jednej tabeli, ale

niemożliwe jest wskazanie jednego błędnego wiersza (np.

naruszenie unikalności klucza, duplikaty rekordów, itd.),

• błąd bazy danych – gdy problem wiąże się z danymi znajdującymi

się w wielu tabelach (np. występowanie zagubionych pod-rekordów,

bez rekordu nadrzędnego).

Klasyfikacja defektów według

budowy relacyjnych baz danych

Rodzaje defektów występujących

w systemach informatycznych

DefektOpis

szczegółowyPrzykład Klasyfikacja

Powtórzona

wartość

domeny

(synonimy)

Różne sposoby

określania tej

samej cechy

obiektów

Płeć osoby określana

literą K/M lub cyfrą 1,2.

Powoduje to brak

możliwości zestawienia

wg płci.

Dane prawidłowe

(zła

reprezentacja),

analiza wartości,

zakres atrybutu

Brakujące

wartości

(puste)

Brak określenia

wymaganego

atrybutu

Brak informacji o roku

studiów w podaniu o

praktyki zagraniczne.

Powoduje brak

możliwości

automatycznego

kojarzenia dostępnych

praktyk z sytuacją

studenta.

Dane

nieprawidłowe

(brakujące),

analiza wartości,

zakres atrybutu

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Kontekstowe

wykorzystanie

atrybutu

Wykorzystywanie

jednego pola do

przechowywania

zamiennie różnych

cech obiektu

rzeczywistego

Katalog klientów zawierać

może zarówno firmy jak i

osoby prywatne. Jeżeli

jedno pole przechowywać

będzie zależnie – formę

prawną lub drugie imię –

kłopotliwe będzie

zestawienie obrotów

klientów wg formy prawnej.

Defekt ten występuje

przede wszystkim w

starszych systemach ze

względów

oszczędnościowych.

Dane

prawidłowe,

analiza reguł

operująca na

wartościach

danych,

zakres atrybutu

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Nieatomowe

wykorzystanie

atrybutu

Wykorzystanie

atrybutu niezgodne

z założeniami

pierwszej postaci

normalnej –

przechowywanie

wielu cech w

jednym polu

Przechowywanie listy

numerów telefonów jako

wartość pojedynczego

pola uniemożliwia

funkcje automatycznego

wybierania lub

identyfikacji rozmówcy

(CLIP)

Dane prawidłowe

(zła

reprezentacja),,

analiza wartości,

zakres atrybutu

Wartości

atrybutu spoza

domeny

Przypisanie

nieprawidłowej

wartości atrybutu,

naruszając

dopuszczalny

zakres

Podanie ujemnego wieku

lub wieku w postaci

słownej kiedy

oczekiwano liczbowej

uniemożliwia

zagregowane

przetwarzanie zbioru

danych

Dane

nieprawidłowe,

analiza wartości,

zakres atrybutu

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Nieprawdziwe

wartości

atrybutu

Przypisanie

wartości możliwej

do wystąpienia

(zgodnej z domeną)

ale niezgodnej z

rzeczywistością

Podanie zmyślonego

adresu email, podczas

rejestracji na

formularzu

internetowym konkursu

uniemożliwi kontakt w

przypadku wygranej.

Dane

nieprawdziwe,

analiza reguł oparta

na zależnościach i

wartościach

czasem brak

możliwości analizy,

zakres atrybutu

Nieprecyzyjna

wartość

atrybutu

Przypisanie

prawidłowej, ale

niewystarczająco

szczegółowej

informacji

Podanie jedynie

pierwszej litery imienia

mającego więcej niż

jedno rozwiązanie (P.

może oznaczać Piotra,

Pawła, Patryka, itd.)

Dane prawdziwe,

(zła reprezentacja),

analiza reguł oparta

na zależnościach i

wartościach,

zakres atrybutu

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Wartość

atrybutu

naruszająca

reguły

Istnienie atrybutu z

wartością

nieprawidłową dla

reprezentowanych

obiektów

rzeczywistych

Jeżeli pole reprezentuje

osobę, jeżeli imię i

nazwisko nie będzie

reprezentowane przez

przynajmniej dwa wyrazy

– wartość jest

nieprawidłowa

Dane

nieprawidłowe,

analiza wartości,

zakres atrybutu

Wartości

atrybutów

wzajemnie

sprzeczne

(naruszenie

zależności

funkcyjnej)

Współwystępowanie

w kontekście

jednego faktu

rzeczywistego

wzajemnie

wykluczających się

wartości atrybutów

Karta chorobowa

pacjenta – mężczyzny,

dla którego kod diagnozy

wskazuje na chorobę

związaną z narządami

płciowymi kobiet. Brak

wiarygodności

statystycznych analiz

zachorowalności w

regionie.

Dane

nieprawidłowe,

analiza reguł

oparta na

zależnościach,

zakres wiersza,

tabeli lub bazy

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Brakujące

elementy

Niekompletność

reprezentacji

rzeczywistych

obiektów

Elektroniczny rozkład jazdy

pociągów zawiera jedynie

część faktycznie

kursujących pociągów. Brak

możliwości odnalezienia

faktycznych połączeń, a w

szczególności utrudnione

planowanie podróży z

przesiadkami.

Dane

nieprawidłowe

(brakujące),

mieszane techniki

analityczne lub

brak możliwości

wykrycia,

zakres tabeli

Duplikaty Reprezentacja

obiektu

rzeczywistego przez

więcej niż jeden

element danych

Powtórzone wpisy w

katalogu dostawców, nie

pozwolą firmie na

prawidłowe określenie

średniego poziomu

miesięcznych zamówień od

każdego z nich w celu

renegocjacji warunków.

Dane prawidłowe,

analiza reguł

operująca na

wartościach

danych,

zakres tabeli

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Naruszenie

reguł

zadanego

zbioru

danych

Istnienie zbioru rekordów,

który nie jest prawidłowy z

punktu widzenia

reprezentowanego obiektu

rzeczywistego

Jeżeli przechowujemy zbiór

transakcji bankowych

opatrzonych kolejnym numerem

oraz datą wprowadzenia do

systemu to nieprawidłowa jest

sytuacja kiedy wpis o większym

numerze posiada mniejszą datę

Dane

nieprawidłowe,

analiza reguł

oparta na

wartościach,

zakres tabeli

Brak

spójności

bazy danych

Brak zgodności w

przypadku

reprezentowania cechy lub

obiektu rzeczywistego

równocześnie w więcej niż

jednym atrybucie lub encji

(denormalizacja).

Jest to związane z

niestosowaniem się do

zasad drugiej i trzeciej

postaci normalnej.

Jeżeli wartość faktury

przechowywana jest zarówno w

poszczególnych jej pozycjach

jak i łącznie (suma) w nagłówku

dokumentu, to w przypadku

defektu tego rodzaju otrzymamy

różne kwoty łącznej sprzedaży

firmy w zależności od

wykorzystanego źródła.

Dane

nieprawidłowe,

analiza

strukturalna,

zakres bazy

Rodzaje defektów występujących

w systemach informatycznych

DefektOpis

szczegółowyPrzykład Klasyfikacja

Naruszenie

więzów

relacyjnych

Wskazanie klucza

obcego w tabeli

powiązanej na

nieistniejący

rekord w tabeli

nadrzędnej

Jeżeli fizycznie usunięcie

pojazdu z bazy danych ASO

nie spowoduje usunięcia

historii jego napraw, w

systemie mogą pozostać

„zagubione” rekordy, które

spowodować niespójne

działanie systemu (różne

wyniki zestawień w

zależności od opcji)

Dane

nieprawidłowe

(brakujące lub

nadmiarowe),

analiza

strukturalna,

zakres bazy

danych

Cykle w

relacji sam-

do-siebie

Wykrycie cykli

dłuższych niż

jeden w relacji

hierarchicznej

(drzewiastej) sam-

do-siebie.

Jeżeli pracownik ma szefa,

który jest podwładnym tegoż

pracownika to sytuacja nie

jest prawidłowa.

Dane

nieprawidłowe,

analiza wartości,

zakres tabeli

Rodzaje defektów występujących

w systemach informatycznych

Defekt Opis szczegółowy Przykład Klasyfikacja

Naruszenie

unikalności

klucza

głównego

Powtórzenie w

kolumnie

(kolumnach) klucza

głównego w obrębie

jednej tabeli.

Przydzielenie

jednakowego

„unikalnego„

identyfikatora (klucza)

prowadzi do

katastrofalnych w

skutkach błędów – typu

przelewanie składek

ubezpieczeniowych

pracowników jednej

firmy na rzecz innej.

Dane

nieprawidłowe,

analiza

strukturalna,

zakres tabeli

Przykład defektu danych – duplikaty w słowniku miejscowości

Rodzaje defektów występujących

w systemach informatycznych (Przykład)

Przyczyny problemów w danych, można podzielić na:

• spowodowane czynnikiem ludzkim

• błędy użytkowników,

• wady aplikacji

• wielokrotne migracje i integracje danych,

• powstałe wskutek czynników zewnętrznych.

• awarie sprzętowe

• samoistne starzenie się danych

Źródła defektów w danych

Błędy użytkowników:

• Błędy nieświadome to przede wszystkim:

• Pomyłki wszelkiego rodzaju: literówki, błędy ortograficzne, skróty i

skrótowce, zanieczyszczenia przypadkowymi znakami; powstają

przede wszystkim z pośpiechu i małej staranności,

• Nie znane oczekiwania co od wprowadzanych danych, ich

znaczenia, poprawnego sposobu reprezentacji, akceptowalnej

dziedziny; powodem tej kategorii są najczęściej wady aplikacji lub

niedostateczne przeszkolenie użytkowników.

Źródła defektów w danych

Błędy użytkowników:

• Błędy świadome zostały podzielone następująco [2]:

• Brak wymaganej informacji dla przeprowadzenia procesu

biznesowego. Operator nie ma możliwości zasygnalizowania braku

swojej wiedzy, co do określonego faktu rzeczywistego lub cechy,

więc aby kontynuować proces wprowadza świadomie nieprawdziwą,

lecz akceptowalną wartość. Przykładem mogą być tu

kwestionariusze internetowe, które dla pobrania wersji demo

produktu, wymagają podania nazwy pracodawcy. W sytuacji kiedy

osoba nie jest aktualnie zatrudniona (np. student) musi ona wypełnić

wymagane pole czymkolwiek – co nie prowadzi do gromadzenia

przez dystrybutora wysokiej jakości danych o potencjalnych

nabywcach.

Źródła defektów w danych

Błędy użytkowników:

• Błędy świadome (cd.):

• Brak chęci ujawnienia prawdziwej informacji. Dzieje się tak w

przypadku kiedy osoba wprowadzająca (udostępniająca) swoje dane

nie jest zainteresowana przekazaniem informacji prawidłowych. Nie

wspominając o kobietach, które nie lubią ujawniać swojego wieku,

przykładem mogą być ponownie formularze internetowe, na których

w celu założenia konta email, wymagane jest podanie danych

osobowych. Duża część wprowadzonych informacji jest w całości lub

w części fikcyjna, ponieważ internauci lubią pozostawać anonimowi.

Źródła defektów w danych

Błędy użytkowników:

• Błędy świadome (cd.):

• Korzyści z podania nieprawdziwej informacji. Sytuacja ta występuje

w przypadkach kiedy istnieją procedury promujące wpisywanie złych

danych. Przykładem z literatury może być tu producent samochodów,

który w zależności od kodu skargi zwracał koszty napraw

serwisowych natychmiast lub dopiero po 60 dniach. Dilerzy znający

funkcjonujące reguły podawali nieprawdziwe fakty w celu szybszego

uzyskania pieniędzy.

Źródła defektów w danych

Wady aplikacji:

• Błędy logiki i zachowania aplikacji stanowią:

• błędy programistyczne powodujące wadliwe działanie lub złą obsługę

sytuacji wyjątkowych. Oprócz typowych „niedoróbek” można tu

przytoczyć skomplikowane zagadnienie zarządzania

transakcyjnością w systemach rozproszonych (np. obsługa kart

płatniczych),

• niedopasowanie merytoryczne aplikacji do potrzeb użytkowników, co

zmusza ich do niezamierzonego przez twórców wykorzystania

elementów systemu. (np. przeciążanie znaczenia pól danych).

Źródła defektów w danych

Wady aplikacji:

• Źle zaprojektowane mechanizmy interakcji z

użytkownikiem

• powodują najczęściej, wspomniane wcześniej, nieświadome błędy

użytkowników. Nie rozumieją oni wprowadzanej informacji, a

sposób komunikacji z aplikacją jest mało intuicyjny lub wręcz

denerwujący. Z badań wynika, iż dobre przystosowanie interfejsu

mogłoby znacząco ograniczyć liczbę powstających defektów na

styku człowiek-komputer.

Źródła defektów w danych

Procesy migracji i integracji danych:

• W przedsiębiorstwach następują ciągłe zmiany. Zmienia się profil

działalności, właściciele, systemy produkcyjne, ich technologia, a za

tym wszystkim podążają ciągłe przekształcenia posiadanych

danych.

• Te ostatnie są integrowane z nowo pojawiającymi się rozwiązaniami

lub migrowane do nowych wersji istniejących systemów.

• Z doświadczenia wynika, iż powoduje to nie tylko przenoszenie

starych błędów do nowej struktury, ale także powstanie wielu

nowych problemów [7].

Źródła defektów w danych

Awarie sprzętowe:

• W obecnych czasach, awarie sprzętowe są jednym z rzadszych

powodów występowania jakościowych problemów w danych.

• Wynika to z faktu znaczącego podwyższenia stopnia

bezawaryjności serwerów, wprowadzenia rozwiązań klastrowych,

ale także zastosowania przemyślanych rozwiązań

architektonicznych w systemach informatycznych, które mają

zabezpieczać przed potencjalnymi skutkami takiej awarii (np.

mechanizm transakcyjności)

Źródła defektów w danych

Starzenie się danych:

• Ostatnim źródłem błędów w bazach danych są zmiany zachodzące

w rzeczywistym świecie, które nie są odnotowywane

(aktualizowane). Jest to czynnik całkowicie zewnętrzny, ale ma on

bezpośrednio wpływ na jakość i wartość zgromadzonych danych.

• Jedną z najbardziej zmiennych ewidencji jest ewidencja osób. Ich

cechy zmieniają się samoczynnie, stosunkowo często i praktycznie

w pełnym zakresie – od wady wzroku, poprzez stan cywilny, adres

do nazwiska włącznie. Brak stałej i konsekwentnej aktualizacji bazy

danych prowadzi do szybkiej deprecjacji jej wartości.

Źródła defektów w danych

• Koszty bezpośrednie stanowią wydatki, które wprost wynikają z

niskiej jakości zgromadzonych danych. Straty tej grupy to przede

wszystkim:

• praca ludzka, związaną z usuwanie powstałych defektów w danych

lub usuwaniu skutków błędnych procesów biznesowych z nich

wynikających,

• utrata produktywności pracowników (np. kiedy w systemie faktury

numerowane są według różnych formatów, odnalezienie konkretnego

dokumentu może zająć znacznie więcej czasu),

• utrata produktywności przedsiębiorstwa poprzez utrudnienia w

łańcuchu dostaw (kiedy stany magazynowe wskazują na obecność

dużej ilości potrzebnego w produkcji surowca, którego faktycznie

brak – może to spowodować nieoczekiwane zatrzymanie procesu

produkcji),

Straty powodowane niską jakością danych

• Koszty bezpośrednie (cd.):

• wycofywanie zamówień klientów (klient może wybrać innego

dostawcę, jeżeli zamówienie realizowane jest zbyt długo, a w

systemie brak informacji o nim),

• inwestycja w nieskuteczną kampanie promocyjną, zbudowaną w

oparciu o niewiarygodne analizy, zły wybór adresatów lub błędne ich

adresowane.

Straty powodowane niską jakością danych

• Utracone korzyści to wszystkie potencjalne konsekwencje

finansowe wynikające z bieżącego użytkowania niskiej jakości

danych oraz utracone szanse na przyszłe zyski. Są to między innymi:

• utrata obecnych i potencjalnych klientów (pośrednio więc

zysków) niezadowolonych niską jakością usług, którzy nie tylko

rezygnują ze współpracy, ale także zniechęcają innych do jej

podjęcia,

• koszty błędnych decyzji biznesowych podjętych na podstawie

nieprawdziwych lub niekompletnych danych (zdarzają się

rzeczywiste sytuacje [7], w których brakuje 70% danych - na

podstawie takiego zbioru trudno trafnie wnioskować).

Straty powodowane niską jakością danych

• W tabeli pokazano wymagany poziom jakości danych w zależności od ich

przeznaczenia. Różne zapotrzebowanie na jakość najlepiej zobrazować

przykładem kodów medycznych wybieranych przy realizacji usługi

medycznej. Do wystawienia rachunku za usługę nie jest potrzebne

określenie właściwego kodu, a jedynie właściwej kwoty – z punktu widzenia

pracownika operacyjnego wybranie kodu „pierwszego z listy” nie stanowi

żadnego utrudnienia. Do analizy zdrowotnej sytuacji w kraju dane, bez

właściwego wskazania na rodzaj schorzenia, są jednak bezużyteczne.

Zapotrzebowanie na jakość danych

Przeznaczenie danych Wymagany poziom jakości

Sprawozdawczość biznesowa 95-97%

Analiza danych (hurtownie danych, wzorce,

związki, segmentacje)

>80%

Praca operacyjna (systemy transakcyjne) 40-80%

• Na podstawie tradycyjnego zarządzania przez jakość (TQM)

powstała metodologia dedykowana zapewnieniu danych wysokiej

jakości – Total Quality data Managment.

• Twórcy jej zwracają uwagę, iż najważniejsze jest, aby:

Total Quality data Managment

• wszyscy pracownicy firmy wiedzieli, iż współzależą od

siebie informacyjnie,

• wszyscy wierzyli, iż dobra jakość danych jest cenna dla

przedsiębiorstwa,

• istniał system wartości, który łączy satysfakcję klienta z

dobra jakością danych,

• istniała kultura organizacyjna, w której wszyscy biorą

odpowiedzialność za ciągłe udoskonalanie procesów [5]:

• Powyższe wytyczne dają nam obraz tego, iż kluczowe

czynniki sukcesu leżą po stronie działań organizacyjnych,

sam TQdM ma być zwyczajem doskonalenia

następujących procesów:

• procesów wytwarzania aplikacji, ich architektur i baz

danych,

• procesów biznesowych, podczas których są tworzone,

aktualizowane, kasowane, przetwarzane lub

prezentowane dane,

Total Quality data Managment

• Sposób doskonalenia procesów powinien być zgodny z przedstawionym na

rysunku ogólnym spojrzeniem na metodologię TQdM:

Total Quality data Managment

• Istnieje wiele różnych podejść koncepcyjnych do zapewnienia jakości

danych, pozornie odmiennych.

• Okazuje się jednak, iż mają one cechy wspólne – wszystkie one są

cykliczne, i wszystkie zawierają w sobie trzy podstawowe kroki:

– identyfikacja problemu,

– naprawa problemu,

– kontrola problemu [8].

Uogólniony proces zapewnienia jakości danych

• Na tej podstawie powstała uogólniona metoda, pozwalająca na rozwiązywanie

skomplikowanych problemów z jakością danych, zwaną Analyze-Improve-

Control (Analiza-Usprawnienie-Kontrola) przedstawiona na rysunku.

Uogólniony proces zapewnienia jakości danych

Identyfikacja problemu jakości danych

• Metoda „od wewnątrz” ” (ang. Inside-Out) koncentruje się na

monitorowaniu danych, poszukiwaniu w nich defektów za pomocą

dokładnej weryfikacji. Następnie bada się wpływ odnalezionych

problemów na funkcjonowanie biznesu.

• Przykładem takiego działania może być wykrycie ogromnej liczby

duplikatów w tabeli kontrahentów, a następnie badanie skutków

tego zjawiska dla działania przedsiębiorstwa. Mogą nimi być:

– czas pracowników tracony na poszukiwanie,

– rozstrzyganie i wprowadzanie powtórzonych informacji,

– koszty przechowywania redundantnych danych,

– brak możliwości analizy historii współpracy z klientem,

– irytacja klienta proszonego o powtórne podawanie swoich danych, itd.

Analiza problemu jakości danych

Identyfikacja problemu jakości danych (cd.)

• Metoda „od zewnątrz” (ang. Outside-In) skupia się na

poszukiwaniu problemów w świecie biznesowym, których

przyczyną może być potencjalnie niska jakość posiadanych

danych.

• Zgromadzone przesłanki są następnie zamieniane na reguły

poprawności dla danych, a proces monitorowania może

potwierdzić lub odrzucić postawioną tezę.

• Jednym ze sposobów na przeprowadzenie tej metody identyfikacji

problemu jest przegląd zwrotów od klienta, reklamacji oraz

dokumentów korygujących.

• Analiza przyczyn fiaska, może wskazać nam na błędne

adresowanie, niestaranne wypełnianie zamówień co do ilości lub

produktów lub też błędy w procesie produkcyjnym, który także

może być sterowany danymi.

Analiza problemu jakości danych

Monitorowanie danych w systemach informatycznych

• Monitorowanie danych, nazywane także audytowaniem lub

profilowaniem, jest czynnością pozwalającą na wyspecyfikowanie

niezgodności występujących w systemie (ich grup lub konkretnych

defektów) oraz wskazanie syntetycznego obrazu jakości

posiadanych danych (lub ich aspektu) w postaci metryk

• Istnieje kilka metod sprawdzania jakości danych w zgromadzonych

bazach danych

– Ankiety, listy kontrolne

– Metody analityczne

– Wizualna inspekcja

Analiza problemu jakości danych

Analiza problemu jakości danych

Ankieta weryfikującą jakość meta-danych i wartość danych dla użytkownika

Analiza problemu jakości danych

Rys. Grupy technik analitycznych

Techniki analityczne wykrywające defekty w danych

Grupa technik Opis techniki analitycznej Przykład

Analiza

wartości

Nieakceptowanie pustych wartości Nazwa klienta nie może być pusta

Wartość musi odpowiadać jednemu z

elementów określonej dziedziny.

Jeżeli cechą „K‟ określa się kontrahenta

krajowego a „Z‟ zagranicznego, wartości

inne nie są dopuszczalne

Wartość musi należeć do wskazanego

zakresu

Wiek człowiek musi być liczbą naturalną z

przedziału 0-200

Wartość nie może być zadanego rodzaju.

(wyłączenia z dziedziny)

Data zatrudnienia pracownika nie może

przypadać na niedzielę lub święto

Wartość musi mieć zadany format (maskę)

zgodną z świecie rzeczywistym

Kod pocztowy w Polsce zawsze ma

postać xx-xxx

Wartość tekstowa musi spełniać zadane

cechy (długość, występujące znaki)

Nazwa miejscowości nie powinna być 1

literowa i zawierać znaków &*$@! itd.

Wartość musi być poprawna względem

wbudowanego kodu kontrolnego.

Numer NIP posiada cyfrę kontrolną, która

pozwala na określenie poprawności

Techniki analityczne wykrywające defekty w danych

Grupa technik Opis techniki analitycznej Przykład

Analiza

strukturalna

Wartość atrybutu musi być unikalna w

obrębie całej tabeli

Numer PESEL dla każdego obywatela

musi być unikalny

Element nadrzędny, wskazanych kluczem

obcym, musi wystąpić

Transakcja sprzedaży towaru musi

wskazywać na towar występujący w

kartotece towarowej

Hierarchia w relacji „sam-do-siebie” musi

prowadzić do korzenia

Nieakceptowalne są cykle w podległości

służbowej przedsiębiorstwa

Element nadrzędny musi zawierać

określoną (minimalną, maksymalną,

dokładną) liczbę elementów podrzędnych

Prawidłowa faktura zawiera przynajmniej

jedną pozycję

Dane redundantne muszą być zgodne. Jeżeli odniesienie do klienta występuje w

każdej pozycji zamówienia a nie tylko w

nagłówku – to w każdej pozycji musi być

takie samo

Techniki analityczne wykrywające defekty w danych

Grupa technik Opis techniki analitycznej Przykład

Analiza reguł

operujących na

zależnościach

danych

Wartość jednego atrybutu musi być

większa / mniejsza / niewiększa /

niemniejsza niż wartość innego atrybutu

W bazie postaci historycznych data

urodzin musi być niemniejsza od daty

śmierci.

Musi być zachowana zależność funkcyjna

pomiędzy atrybutami (lub niektórymi

wartościami atrybutów).

Jeżeli pole kwota brutto zależy od pola

kwota VAT i kwota netto, to zależność ta

powinna być zawsze prawdziwa.

Musi być zachowana formuła pomiędzy

wartościami

Data zatrudnienia – Data urodzin > 18 lat

Weryfikacja prawidłowości wartości

atrybutów przez współwystępowanie ze

sobą

Kod pocztowy i miasto powinno być

zgodne.

Bilansowanie się danych określonych

typów.

W księgowości dekrety księgowe

umieszczone po stronie winien muszą

dokładnie równoważyć te ze strony ma.

Techniki analityczne wykrywające defekty w danych

Grupa technik Opis techniki analitycznej Przykład

analiza reguł

operująca na

wartościach

danych

Wykrywanie powtórzeń w danych na

podstawie ich podobieństwa.

Każdy klient powinien posiadać tylko

jeden opisujący go rekord.

Częstotliwość występowanie jednego

atrybutu nie może być znacząco większa

niż innych lub musi być zgodna z

określonym rozkładem.

Kolor oczu powinien występować w

większej populacji zgodnie z zasadami

natury.

Dane transakcji nie powinny odbiegać od

normy ustanowionej przez historię.

(wykrywanie anomalii)

Zakupy małego klienta, którego rachunki

były na około tysiąc złotych nie powinny

wynosić nagle milion złotych.

Spełnianie kryteriów dla określonych

agregacji danych (suma, minimum,

maksimum, mediana, ilość)

Baza rejestrująca ilość przejeżdżających

pociągów przez dany punkt powinna

zawierać mniej więcej określoną ilość

rekordów z każdego dnia .

• Metryki stanowią dobre podsumowanie procesu monitorowania.

Obrazują one syntetycznie jakość testowanych danych, stanowiąc

podstawę do podejmowania decyzji o działaniach naprawczych

przez kierownictwo.

Wyróżniamy metryki:

• lokalne (liczone dla fragmentu danych) [9]

• globalne (oceniające łącznie cały zbiór danych),

• celowe [10] (nastawione na mierzenie określonego rezultatu)

• ogólne (ich zadaniem jest określenie obiektywnego stanu

jakościowego danych).

Miary jakości danych

• Niezależnie od wyboru rodzaju, określone zostały cechy, które musi

spełniać dobra metryka [11]. Najważniejsze z nich to:

• czytelność – osoba która nie jest specjalistą zrozumie sposób jej

obliczania,

• mierzalność i łatwość uzyskania – możliwość fizycznego

zmierzenia w rozsądnym czasie,

• porównywalność wyników – możliwość zestawienia rezultatów w

czasie i między różnymi zbiorami danych,

• mobilizacja do działań naprawczych – „wysokie” wyniki metryki

powinny mobilizować do podjęcia działań naprawczych.

Miary jakości danych

• Bobrowski [12] sugeruje podejście typu Cel-Pytanie-Miara (ang.

GQM: Goal-Question-Metric), czyli tradycyjne podejście do jakości z

zakresu inżynierii oprogramowania.

• Dla każdego z wymiarów: wiarygodność, relewantność, przydatność,

aktualność i spójność, przyjmuje ona cel składający się z przedmiotu,

celu faktycznego, typu mierzonej jakości oraz środowiska.

• Każdemu celowi przyporządkowane jest jedno lub kilka pytań a

każdemu pytaniu odpowiednia metryka.

• Większość z nich to proste miary typu procentowego lub liczby

rekordów (nie)spełniających kryteria.

• Jedną z ciekawszych miar, jest miara przydatności danych wyrażona

w ilości dolarów, jakie udało się zarobić dzięki informacjom z danych

w jednostce czasu.

Miary jakości danych (GQM)

• Piattini [13] podchodzi do kwestii miar jakości od strony struktury a

nie celów. Zajmuje się on zagadnieniem jakości w relacyjnej bazie

danych. Przyjmuje dwustopniowy podział na miary jakości dla

poziomu tabel i całego schematu.

• Dla poziomu tabel proponuje szereg metryk wyznaczających

złożoność struktury, takich jak:

– maksymalna długość ścieżki referencyjnej wychodzącej z tabeli

– liczba kluczy obcych użytych w tabeli

– procentowy udział kompleksowych kolumn w tabeli

– liczba użytych klas obiektów użytych do reprezentacji kolumn

tabeli

Miary jakości danych (Piattini)

• Dla poziomu schematu bazy relacyjnej stosuje podobne miary:

– maksymalna długość ścieżki referencyjnej pomiędzy tabelami w

bazie

– liczba kluczy obcych użytych w całej bazie

– procentowy udział kompleksowych kolumn w bazie

– liczba użytych klas obiektów do reprezentacji kolumn w bazie

• Ponadto każdej kolumnie przyznawana jest pewna waga,

określająca jej rozmiar. Wagi wykorzystywane są następnie do

określenia złożoności tabel i docelowo również całej bazy.

• Podane miary mają na celu wykrycie problemów nie tyle w samych

danych, co w strukturze, w jakiej są przechowywane.

• Problemy związane ze strukturą danych mogą bowiem zaowocować

problemami w dostępie do danych lub stanowić ułatwienie dla

niepożądanych zjawisk takich jak powielanie w bazie tej samej

informacji itp.

Miary jakości danych (Piattini)

Badania jakości danych

katastralnych (Siarkowski)

Kataster nieruchomości

(Ewidencja gruntów i budynków)

Przedmioty Podmioty

Mapa katastralna

Mapa taksacyjna

Grunty Budynki Lokale Właściciele Władający

Badania jakości danych

katastralnych (Siarkowski)

Działki Budynki Lokale

Podmioty

gruntów

Podmioty

budynków

Podmioty

lokali

Je

dn

ostk

i rej. g

run

tów

Je

dn

. re

j. b

ud

yn

w

Je

dn

ostk

i rej. lo

ka

li

Budynki

Podmioty

budynków

Tabele systemu katastralnego:

• JednostkiRejestroweB (JRB)

• JednostkiRejestroweG (JRG)

• JednostkiRejestroweL (JRL)

• PodmiotyG (PB)

• PodmiotyG (PG)

• PodmiotyL (PL)

• RejestrBudynkow (RB)

• RejestrGruntow (RG)

• RejestrLokali (RL)

• OsobyFizPrawne (OFP)

Badania jakości danych

katastralnych (Siarkowski)

Badania jakości danych

katastralnych (Siarkowski)

JednostkiRejestroweG

(JRG)

JednostkiRejestroweB

(JRB)

JednostkiRejestroweL

(JRL)

RejestrGruntow

(RG)

RejestrBudynkow

(RB)

RejestrLokali

(RL)

PodmiotyG

(PG)

PodmiotyB

(PB)

PodmiotyL

(PL)

Osoby-

FizPrawne

(OFP)

DzialkiBudynki

BudynkiLokale

• Do kategorii błędów dziedzinowych zaliczane są wszelkiego

rodzaju błędy na poziomie pojedynczych pól rekordów ale nie

tylko.

• Błędy dziedzinowe odnoszą się również do merytorycznego

poziomu jakości obiektów logicznych.

• Kontrole sprawdzają na przykład czy dwie osoby zarejestrowane

jako małżeństwo są różnych płci lub czy suma udziałów do danego

przedmiotu wynosi 100% itp.

• Na koniec, do błędów dziedzinowych zaliczane są wszelkie

niezgodności wpisów z istniejącymi słownikami.

• Z błędów dziedzinowych możemy wyróżniono trzy podkategorie:

– Błędne lub niezgodne z przepisami wpisy (BNPW)

– Brakujące wpisy (BW)

– Wpisy niezgodne ze słownikami (NSW)

Badania jakości danych

katastralnych (Siarkowski)

Do kategorii błędów relacyjnych zaliczono sytuacje, w których:

• następuje odwołanie się do nieistniejącego rekordu

• następuje odwołanie się do rekordu, który wzbudza podejrzenia

• następuje odwołanie się do rekordu w momencie, kiedy nie

powinno występować

• istnieje rekord, na który nie powołuje się żaden z rekordów, które

powinny się do niego odwoływać

• w relacji M:N nie istnieje któryś z obiektów

• w relacji M:N korespondujące ze sobą rekordy wzbudzają

podejrzenia

Błędy relacyjne podzielono na trzy podkategorie:

• Błędy kluczy obcych (BKO)

• Błędy rekordów w wiązaniach M:N (MN)

• Żadnych odwołań do rekordu (ZO)

Badania jakości danych

katastralnych (Siarkowski)

• Moduł kontroli błędów w bazie katastralnej.

Badania jakości danych

katastralnych (Siarkowski)

Zaproponowano 3 kategorie miar:

1. Miary proste. Zostały one wyznaczone bezpośrednio w oparciu o

liczbę wykrytych nieprawidłowości w bazie. Ich zaletą jest łatwa

mierzalność i dość duża obiektywność, jednak oferują one tak

naprawdę bardzo płytkie spojrzenie na jakość danych traktując

wszystkie błędy jednakowo.

2. Miary oceniające wykryte błędy pod względem istotności oraz

kosztu ich naprawy. Ich wyznaczenie jest o wiele trudniejsze, gdyż

wymagało przede wszystkim ustalenia kosztu i istotności każdego

błędu, ale za to oferują one znacznie bliższy prawdzie obraz

jakości danych.

3. Specyficzne miary jakości dla danych katastralnych zawarto w

grupie trzeciej. Uwzględnia ona jakość logicznych obiektów

systemu katastralnego jakimi są jednostki rejestrowe.

Badania jakości danych

katastralnych (Siarkowski)

• Wszystkie miary uwzględniają w swoim zapisie wynik pojedynczej

kontroli z tym jednak zastrzeżeniem, że pojedyncza kontrola

odwołuje się do gminy, natomiast w badaniach całej bazy, uznajemy

że wynikiem kontroli jest suma wyników ze wszystkich gmin. Czyli

wynikiem kontroli jest liczba błędów danego typu występujących w

całej bazie.

• Oznaczenia:

• ddom i oznacza ilość błędów dziedzinowych typu i w bazie,

• dref j oznacza ilość błędów referencyjnych typu j w bazie.

• REK oznacza liczbę przebadanych rekordów a kREK oznacza tę

liczbę podzieloną przez 1000.

• JR oznacza jednostkę rejestrową.

Badania jakości danych

katastralnych (Siarkowski)

1. Liczba błędów dziedzinowych wykrytych w bazie

2. Liczba błędów referencyjnych wykrytych w bazie

3. Całkowita liczba błędów w bazie jako suma błędów dziedzinowych

i referencyjnych

Badania jakości danych

katastralnych (Siarkowski)

m

iidomdom dLD

1

n

jjrefref dLD

1

n

jjref

m

iidomrefdomcalk ddLDLDLD

11

4. Liczba błędów dziedzinowych przypadających na 1000 rekordów

5. Liczba błędów referencyjnych przypadających na 1000 rekordów

6. Całkowita liczba błędów przypadających na 1000 rekordów jako

suma błędów dziedzinowych i referencyjnych na 1000 rekordów

Badania jakości danych

katastralnych (Siarkowski)

kREK

d

LDT

m

iidom

dom

1

kREK

d

LDT

n

jjref

ref

1

kREK

dd

LDTLDTLDT

n

jjref

m

iidom

refdomcalk

11

7. Procentowy udział błędnych rekordów (LBR – liczba błędnych

rekordów) w bazie

Badania jakości danych

katastralnych (Siarkowski)

%100REK

LBRPUBR

8. Koszt usunięcia błędów dziedzinowych z bazy

• Pierwsza część tego równania przedstawia sytuację błędów

wymagających osobnego rozpatrzenia dla każdorazowego ich

wystąpienia.

• ddom i oznacza tu ilość wystąpień błędów rodzaju i

• kdom i koszt usunięcia jednego błędu rodzaju i.

• funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie

występuje w bazie ani razu, 1 gdy występuje przynajmniej raz.

Badania jakości danych

katastralnych (Siarkowski)

kdom

o

k

kdom

m

iidomidomdom ktdkK

11

)(

9. Koszt usunięcia błędów referencyjnych z bazy

• Pierwsza część tego równania przedstawia sytuację błędów

wymagających osobnego rozpatrzenia dla każdorazowego ich

wystąpienia.

• dref j oznacza tu ilość wystąpień błędów rodzaju j

• kref j koszt usunięcia jednego błędu rodzaju j.

• funkcja zwraca wartość 0 lub 1, odpowiednio: 0 gdy błąd typu k nie

występuje w bazie ani razu, 1 gdy występuje przynajmniej raz.

Badania jakości danych

katastralnych (Siarkowski)

lref

p

l

lref

n

jjrefjrefref ktdkK *)(

11

10. Całkowity koszt usunięcia błędów z bazy

11. Średni koszt naprawy 1000 rekordów

Badania jakości danych

katastralnych (Siarkowski)

refdomcalk KKK

kREK

KKKT

refdom

12. Liczba błędnych jednostek rejestrowych (w których przynajmniej

jeden element zawiera błąd) – LBJR

13. Procentowy udział bezbłędnych jednostek rejestrowych

• Stosunek jednostek, których żaden obiekt nie zawiera błędu (LBBJR) do

wszystkich jednostek (JR)

14. Procentowy udział jednostek rejestrowych bez błędów krytycznych

• Stosunek jednostek, których żaden obiekt nie zawiera błędów krytycznych

(LJRBBK) do wszystkich jednostek (JR).

Badania jakości danych

katastralnych (Siarkowski)

%100JR

LBBJRPUBJRerrf

%100JR

LJRBBKPUJRBBK

Badania jakości danych

katastralnych (Siarkowski)

0

200

400

600

800

1000

1200

1400

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Czas

Lic

zba r

ekord

ów

w

tysią

cach

Ośr1 Ośr2 Ośr3 Ośr4

Rysunek 5.1 Liczba rekordów w poszczególnych ośrodkach na przestrzeni czasu

• Pierwsze badanie dotyczyło zmiany liczby aktualnych rekordów w

bazach w czasie (rysunek 5.1).

• Jak widać na wykresie, liczba aktualnych rekordów w badanych

ośrodkach różniła się miedzy sobą znacznie i wynosiła w skrajnych

przypadkach raz 200 tysięcy a raz prawie półtora miliona rekordów.

• Dla wszystkich baz możemy zaobserwować tendencję wzrostową

ilości danych. Dzieje się tak ponieważ od roku 2004 ośrodki zostały

zobowiązane o systematycznie uzupełnianie swoich baz danymi

dotyczącymi budynków i lokali (początkowo obowiązkowa była

jedynie ewidencja gruntów).

Badania jakości danych

katastralnych (Siarkowski)

Badania jakości danych

katastralnych (Siarkowski)

Rysunek 5.2 Procent błędnych rekordów

0%

10%

20%

30%

40%

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Period

Metr

ics v

alu

e

Cen1 Cen2 Cen3 Cen4

Badania jakości danych

katastralnych (Siarkowski)

Rysunek 5.3 Rozkład błędów na błędy dziedzinowe i referencyjne w ośrodku 2

0

20

40

60

80

100

120

140

160

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Czas

Lic

zba błę

dów

w

ty

sią

cach

dziedzinow e referencyjne

0

50

100

150

200

250

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Czas

Lic

zba błę

dów

na ty

sią

c re

kord

ów

dziedzinow e referencyjne

Badania jakości danych

katastralnych (Siarkowski)

Rysunek 5.4 Koszt naprawy poszczególnych baz w czasie

0

10000

20000

30000

40000

50000

60000

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Period

Cost units

Cen1 Cen2 Cen3 Cen4

0

20

40

60

80

100

120

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Period

Cost units

Cen1 Cen2 Cen3 Cen4

Badania jakości danych

katastralnych (Siarkowski)

Rysunek 5.5 Poziom błędów krytycznych, istotnych i mało

istotnych oraz koszty ich usunięcia (Uwaga skala osi Y jest

logarytmiczna)

1

10

100

1000

10000

100000

Ośr1 Ośr2 Ośr3 Ośr4

Lic

zba błę

dów

krytyczne istotne mało istotne

1

10

100

1000

10000

100000

Ośr1 Ośr2 Ośr3 Ośr4

Koszt n

apra

wy

krytyczne istotne mało istotne

Badania jakości danych

katastralnych (Siarkowski)

Rysunek 5.6 Liczba poprawnych jednostek rejestrowych

0

5000

10000

15000

20000

25000

30000

I/03 II/03 I/04 II/04 I/05 II/05 I/06

Lic

zba błę

dnych je

dnoste

k re

jestr

ow

ych .

JRG JRB JRL

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Ośr1 Ośr2 Ośr3 Ośr4P

rocento

wy u

dzia

ł d

obry

ch je

dnoste

k

dobre dopuszczalne

dobre bez d.o. dop. bez d.o.

1. Bates R., Guess F., Wan I.: FedEx & Information Quality,

International Conference on Information Quality, 2002.

2. Olsen J. E.: Data Quality: The Accuracy Dimension. Morgan

Kaufmann Publishers, 2003 .

3. Redman, T.C., “Data Quality. The Field Guide”. 2001, Boston:

Digital Press.

4. Tayi, G.K. and D.P. Ballou, “Examining data quality”.

Communications of the ACM, 1998. 41(2): s. 54-57.

5. Wang R., Strong D. "Beyond Accuracy: What Data Quality

Means to Data Consumers," Journal of Management Information

Systems, wiosna 1996, tom 12, Nr. 4. s. 5-33.

6. Becker S. "A Practical Perspective on Data Quality Issues,"

Journal of Database Management, 1998, s. 35-37 .

7. ComputerWorld Raport: Jakość Danych, IDG Poland, Luty 2002

8. Data Monitoring: Taking Control of Your Information Assets,

DataFlux Corp., 2004

Literatura

9. Kovac R., Lee Y. W., Pipino L. L.: Total Data Quality

Management: The Case of IRI. Conference on Information

Quality, Cambridge 1997 .

10. Lee Y. W., Pipino L. L., Wang R. Y.: Data Quality Assessment.

Communications of the ACM, Kwiecień 2002, s. 211-218 .

11. Loshin D.: Developing Information Quality Metrics. DM Review

Magazine, Maj 2005 .

12. Bobrowski M., Marré M., Yankelevich D., „Measuring Data

Quality”, Universidad de Buenos Aires, 1999 .

13. Piattini1 M., Calero1 C., Sahraoui H., Lounis H., “Object-

relational database metrics” .

Literatura

Dziękuję za uwagę