teoretska_pitanja

9
1. NAVEDI TEMELJNA SVOJSTVA OBLIKA (ASPEKATA) INFORMACIJE. SINTATIČKI SADRŽAJ INFORMACIJE Sintaktički sadržaj informacije uključuje slijedeće elemente: broj simbola u alfabetu izvora informacije, trajanje simbola (riječi) statistička svojstva izvora kapacitet kanala i optimalno kodiranje transformacija informacije redundantno kodiranje (npr. AD/DA pretvorba) Pohrana i obrada podataka Sintaktički sadržaj ne uzima u obzir značenje i upotrebljivost informacije. On obuhvaća razmatranja na razini materije i energije kao fizičkih posrednika. SEMANTIČKI SADRŽAJ INFORMACIJE Protokol i jezik komuniciranja Prevođenje i prepoznavanje teksta, govora, otiska… Zaštitno kodiranje (kriptografija) Vodeni žig i autorska prava Odražava sposobnost prijamnika da razotkrije značenje informacije tj. prijemnik mora razumjeti semantička pravila . Ako neka poruka nema u memoriji prijamnika svoje pravilo, semantička informacija je jednaka nuli. PRAGMATIČKI SADRŽAJ INFORMACIJE Korisnost informacije Ovisan o prijemniku Pravovremenost prijama informacije Kašnjenje zbog obrade i prijenosa Moguć je veliki sintaktički i semantički, a mali pragmatički sadržaj informacije Cijena i starost informacije

Upload: oliver-carapina

Post on 24-Dec-2015

21 views

Category:

Documents


8 download

DESCRIPTION

Teoretska_pitanja

TRANSCRIPT

Page 1: Teoretska_pitanja

1. NAVEDI TEMELJNA SVOJSTVA OBLIKA (ASPEKATA) INFORMACIJE.

SINTATIČKI SADRŽAJ INFORMACIJE

Sintaktički sadržaj informacije uključuje slijedeće elemente:

broj simbola u alfabetu izvora informacije, trajanje simbola (riječi) statistička svojstva izvora kapacitet kanala i optimalno kodiranje transformacija informacije redundantno kodiranje (npr. AD/DA pretvorba) Pohrana i obrada podataka

Sintaktički sadržaj ne uzima u obzir značenje i upotrebljivost informacije. On obuhvaća razmatranja na razini materije i energije kao fizičkih posrednika.

SEMANTIČKI SADRŽAJ INFORMACIJE

Protokol i jezik komuniciranja Prevođenje i prepoznavanje teksta, govora, otiska… Zaštitno kodiranje (kriptografija) Vodeni žig i autorska prava

Odražava sposobnost prijamnika da razotkrije značenje informacije tj. prijemnik mora razumjeti semantička pravila . Ako neka poruka nema u memoriji prijamnika svoje pravilo, semantička informacija je jednaka nuli.

PRAGMATIČKI SADRŽAJ INFORMACIJE

Korisnost informacije Ovisan o prijemniku Pravovremenost prijama informacije Kašnjenje zbog obrade i prijenosa Moguć je veliki sintaktički i semantički, a

mali pragmatički sadržaj informacije Cijena i starost informacije

Predviđanje je temelj za maksimiziranje pragmatičkog sadržaja informacije

ESTETSKI SADRŽAJ INFORMACIJE

Mjera optimalnosti odnosa neodređenosti i predvidljivosti Ako je omjer očekivane i neočekivane informacije balansiran, tada je visok estetski

sadržaj informacije

2. DEFINIRAJ SADRŽAJ INFORMACIJE OVISNIH DOGAĐAJA

Page 2: Teoretska_pitanja

Za sadrđaj informacije združenih izvora vrijede sljedeće formule:

H (X ,Y )=∑x∈ x

∑y∈ y

p ( x , y ) ld p ( x , y )

Odnosno H(X,Y)=H(X)+H(Y|X)

Općenito vrijedi nejednakost: H(Y|X)=<H(Y)

Za potpuno ovisne izvore vrijedi: p(x,y)=p(x)*p(y|x)=p(x)*1=p(x)

Pa je njihov združeni sadržaj jednak H(X,Y)=H(X) budući da je u tom slučaju uvjetna entropija H(X|Y)=0

3.DEFINIRAJ I ANALIZIRAJ ENTROPIJU BINARNOG IZVORA

Entropija binarna izvora ovisi o vjerojatnostima simbola abecede izvora. Ako uzmemo da se abeceda izvora sastojo od simbola {0,1} uz propadne vjerojatnosti p(0)=0 , p(1)=1-p dobijemo da je entropija binarnog izvora jednaka: H(p)=-p ld(p)-(1-p) ld(1-p)

Za neke vrijednosti od p dobijemo funkciju entropije binarnog izvora:

a) H(p)=0 uz p=0b) H(p)=0 uz p=1c) H(p)=1 uz p=0.5

Slučajevi pod a) i b) kada je vjerojatnost generiranja simbola binarnog izvora 0 ili 1 tada smo sigurni što će izvor generirati , pa nam ne nosi nikakvu informaciju, odnosno srednji sadržaj informacije ( entropija ) je jednaka nuli.

U slučaju pod c) kada je vjerojatnost generiranja binarnog izvora 0.5 ( jednaka raspodjela) tada nismo sigurni što će izvor generirati pa je srednji sadržaj informacije maksimalan.

Za binarni izvor največa entropija je ld2= 1 bit/simbolu

Page 3: Teoretska_pitanja

4. DEFINIRAJ OPTIMALNO KODIRANJE

Optimalan kod je trenutačno raspoznatljiv kod kojemu je srednja dužina kodnih riječi minimalna, odnosno koji ima minimalan kapacitet. Pod optimalno kodiranje spada minimizacija kapaciteta kod i maksimizacija učinkovitosti koda.

MINIMIZIRANJE KAPACITETA KODA

Min{<m>=C=∑mi p(xi)} , mi → dužina i.te kodne riječi čija je vrijednost p(xi) : ∑p(xi)=1

MAKSIMIZIRANJE UČINKOVITOSTI KODA

E=H/C pa slijedi

−∑i=1

n

p ( xi ) ld p(xi)=∑i=1

n

mi p ( xi )=−∑i=1

n

p ( xi ) ld L

mi=-ld p (xi)ld L

Optimalna dužina kodne riječi definirana je izrazom H/ld L =< <m> =<H/ld L +1pa je potrebno >m> zaokružiti na veću vrijednost te je zbog toga kod podoptimalan.

To riješavamo kodiranjem po blokovima za koje vrijedi relacija: kHld L

≤(mi)≤ kHld L

+1 Ili Hld L

≤<m>≤ Hld L

+ 1k

Uz dovoljno velik k, gdje je k broj blokova , vrijednost <m> se može približiti vrijednosti h/ld L pa je kod optimalan ! Postoje dvije metode optimalnog kodiranja. Shannon – Fano metoda i Hufmanova metoda Ako kod nije dovoljno ekonomičan slijedi kodiranje po blokovima.

5. OPIŠI MARKOVLJEM MODEL IZVORA INFORMACIJE

Informacija se generira pri prelasku izvora iz jednog stanja u drugo stanje. Stanje izvora predstavlja stanje ravnoteže. Dok se izvor nalazi u nekom od stanja ravnoteže nema generiranja informacije. Novo stanje izvora nakon prelaska iz stanja u stanje određeno je jedino prethodnim stanjem : p(Sn/S n-1,Sn-2…)=p(Sn=Sn|S n-1=Sn-1) → MARKOVLJEV LANACOvaj niz ima najmanju moguću memoriju i predstavlja Markovljem izvor prvog reda. Ako novo stanje izvora možemo odrediti poznavanjem početnog stanja i matricom prijelaznih vrijednosti P=p[ij] ; ij{1,2,…K} govorimo o homogenom Markovljevom lancu. Ako je raspodjela vjerojatnosti stanja P(Xm) neovisna o vremenu takav Markovljem lanac nazivamo stacionaran. Ergodičan Markovljev lanac je onaj kod kojeg se svako stanje može dosegnuti iz bilo kojeg drugog stanja u jednom koraku. Skriveni Markovljev model može bolje odgovoriti stvarnosti jezika. Za razliku od neskrivenog modela svako od stanja može generirati bilo koji simbol na izlazu.

Page 4: Teoretska_pitanja

6. DEFINIRAJ SADRŽAJ INFORMACIJE PRORODNOG JEZIKA

Ako se izuzmu sliva lj nj dž i đ hrvatske abecede prirodni jezici hrvatski i engleski imaju jednak kapacitet abecede izvora. C=ld 27 = 4.76 bita / simboluDa su znakovi jednakovjerojatni srednji sadržaj informacije bi bio jednak kapacitetu, ali an temelju vjerojatnosi ponavljanja imamo : H1(X)=4.19 bita/simbolu za hrvatski jezikH1(Y)=4.03 bita/simbolu za engleski jezikPrirodno jezik je tipičan primjer nizova međusobno ovisnih simbola kada to uzmemo u obzir: H2(X)=3.59 bita/simbolu za hrvatski jezik H2(Y)=3.32 bita/simbola za engleski jezik Nadalje, zbog semantičkih razlogasadržaj informacije po znaku se reducira na H=1 bit /simbolu . Ako želimo znati srednji sadržaj informacije po riječima koristit ćemo Zipfov zakon koji kaže: p(xi)=A/i gdje je A konstanta koja je za krvatski jezik jednaka 0.1 , a i položaj riječi u tekstu. Po zipfovom zakonu imamo Hr=11.8 bita/riječi, uz srednji broj znakova po riječi 4.5 odnosno 5.5 dobijamo H=2.14 bita/ simbolu, a uz semantička ograničenja H=1 bit/simbolu.

7. DEFINIRAJ ENTROPIJU, SADRŽAJ INFORMACIJE I KAPACITET IZVORA

Sadržaj informacije nekog simbola usko je povezan s neodređenošću negova pojavljivanja. Veća neodređenost ( manja vjerojatnost) znači veći sadržaj informacije :

I(xj)>I(xi) ako je p(xj) <p(xi) I(xi) nije mjera ukupne informiranosti izvora pa stoga definiramo srednji sadržaj informacije

<I(x)> čija vrijednost ovisi o entropiji izvora.Entropija izvora određuje minimalan srednji broj simbola koji je potreban za opis poruke.

Entropiju izvora definiramo kao : H (X )=−∑

x∈x

p ld p

Za srednji sadržaj informacije vrijedi područje: 0=<I(x)=<ld N Kapacitet izvora predstavlja najveći srednji sadržaj informacije koji izvor može generirati. Najveći srednji sadržaj informacije znaći najveću entropiju raspodjele (jednakovjerojatni simboli ). C=max I(x)= max H(x)= ld N bita / simbolu. Kapacitet ovisi samo o broju simbola abecede izvora N.

Page 5: Teoretska_pitanja

NEKE STVARI IZ TEORIJE INFORMACIJA

Izvor informacije generira poruke posredstvom medija u kojem je informacija pohranjena. Medij je energetski ili materijalni signal.

Ako se statistička svojstva izvora tijekom vremena ne mijenjaju, kažemo da je izvor stacionaran, inače je nestacionaran. Stacionarni izvori koji generiraju poruke u skladu sa zakonom velikih brojeva su ergodični. Izvori bez memorije generiraju statistički neovisan, a izvori sa memorijom statistički ovisan niz simbola.

Diskretni izvor informacije generira poruke X iz konačnog skladišta od N različitih poruka koje su sastavljene od jednog ili više znakova iz konačne abecede izvora X = {x1, x2,...,xL}.

Model diskretnog izvora informacije:

Skup svih poruka X je potpun skup tj. vrijedi:

Poruke su predstavljene m-torkama Xi = {x1, x2,...,xm} ; i = 1, 2, ...N

Skrembliranje je jedan od načina prekodirana koji ima zadatak da dolazni signal iz izvora napravi slučajnim i neovisnim o statističkim svojstvima izvora, tako da kanal postaje transparentan za sve signale. Ostvaruje se zbrajanjem po modulu 2 ulaznog niza bitova s pseudoslučajnim nizom.

Generatori pseudoslučajnih brojeva: prirodni izvori, FSR generatori, kongruentni generatori

Uzajamna informacija I(X;Y) mjeri iznos informacije koji jedna slučajna varijabla sadrži o drugoj slučajnoj varijabli.

I(X;Y) = H(X) – H(X|Y)I(X;Y) = I(Y;X) = H(Y) – H(Y;X) jer X govori o Y koliko i Y o XI(X;Y) = H(X) + H(Y) – H(X,Y)Ako su sustavi X i Y potpuno neovisni vrijedi H(X;Y) = 0Ako su sustavi X i Y potpuno ovisni vrijedi H(X;Y) = H(X)

Page 6: Teoretska_pitanja

Prijenos informacije putem kanala sa šumom:Uzajamna neodređenost H(X;Y) predstavlja sadržaj informacije o sustavu X koji rezultira iz promatranja sustava Y. Vrijedi: 0 ≤ I(X;Y) ≤ H(X)Preneseni sadržaj informacije jednak je uzajamnoj neodređenosti ulaza i izlaza H(X;Y).

Funkcije kodera izvora: pretvorba informacije u signal, sažimanje abecede izvora te sažimanje podataka

Ravnomjerni kod podrazumijeva da su sve kodne riječi dužine m. Generiranje ravnomjernog koda može biti izvršeno na dva načina: na temelju tablice (kodne knjige) te na temelju kodnog stabla

Mjera ekonomičnosti koda je učinkovitost koda definirana izrazom:E = H/CkodaNeravnomjerni kodovi moraju zadovoljavati svojstvo reverzibilnosti.Standardni kodovi:

telegrafski kod (ITU-T kod br. 2) ASCII kod (ITU-T kod br. 5) EBCDIC kod

Sažimanje podataka je postupak koji se temelji na otklanjanju redundancije koja je sadržana u izvornoj poruci.

RLC kodiranje (kodiranje duljine niza) se temelji na kodiranju niza istih simbola. Primjenjuje se samostalno ili u kombinaciji s drugim tehnikama kao što su JPEG, MPEG itd.

Višestupnjevano sažimanje podataka temelji se na kombinaciji više postupaka sažimanja. Djelimo ih na :

LZH sažimanje – kombinacija LZ i Huffmanova postupka kodiranja

LZARI sažimanje – kombinacija LZ i aritmetičkog postupka kodiranja

PKZIP sažimanje – LZW u kombinaciji sa Shannon – Fanovim, Huffmanovim ili aritmetičkim kodiranjem