דחיסת נתונים ואותות סמסטר ב' תשס"ז

Post on 07-Jan-2016

68 Views

Category:

Documents

6 Downloads

Preview:

Click to see full reader

DESCRIPTION

דחיסת נתונים ואותות סמסטר ב' תשס"ז. שיטות דחיסה ללא עיוות לקבצי מידע האלגוריתמים של למפל ושל זיו. נועם פרסמן, presmann@eng.tau.ac.il , 30.5.2007. תוכנית. סימונים והגדרת הסכמה הכללית אלגוריתמי למפל-זיו יישומים העושים שימוש באלגוריתמים והשוואת ביצועים מדדי דחיסות ( סיבוכיות ) מחרוזות - PowerPoint PPT Presentation

TRANSCRIPT

((11))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

ואותות נתונים דחיסת" ' ז תשס ב סמסטר

שיטות דחיסה ללא עיוות לקבצי מידע

האלגוריתמים של למפל ושל זיונועם פרסמן,

presmann@eng.tau.ac.il , 30.5.2007

((22))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

תוכנית

סימונים והגדרת הסכמה הכללית•אלגוריתמי למפל-זיו•יישומים העושים שימוש באלגוריתמים •

והשוואת ביצועיםמדדי דחיסות ) סיבוכיות ( מחרוזות• LZ78הוכחת אוניברסליות •

((33))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אריתמטיקה של מחרוזות

מעל א"ב סופי nנסמן מחרוזת סופית באורך A:

אורך המחרוזת:

:y ו – xשרשור מחרוזות

Axxxxxxx inn ...3211

nxL

mniny

nixsyxxysyyxx

ni

ii

mn

1

111

((44))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אריתמטיקה של מחרוזות

עבור סדרת מחרוזת נסמן את שרשורן:

המחרוזת הריקה תסומן באות . הבחינו כי :sלכל מחרוזת

המחרוזת היא

ss

rxxxxixr

i

...3211

n

0

01

n

nn

in

((55))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אריתמטיקה של מחרוזות

( n ) באורך x של מחרוזת mפיסוק באורך הוא סדרת תתי מחרוזות:

ביחס לפיסוק נתון, נסמן את מספר תתי במחרוזת kהמחרוזות בפיסוק עד לתו ה

באופן הבא:

11; 1111

11

niiiijx mjj

mj

j

ii

j

j

r

j

i

ik

r

j

jxxkc

1

11 1

minarg

((66))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אריתמטיקה של מחרוזות

:lסדרת אורכי הפסקאות תסומן באות

המכיל x]![ לעיתים נתעניין בפיסוק של מקסימום פסקאות שונות. נסמן את גודל

הפיסוק הזה בסימון xc #

jjii

ncj iixLjlwherejl j

j

11

11

((77))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מבנה כללי של האלגוריתמים

נידרש לשני אלגוריתמים:• Aאלגוריתם המקודד ) ממפה מחרוזות מא"ב –

(Bלא"ב Bאלגוריתם המפענח ) ממפה מחרוזות מא"ב –

(Aלא"ב

((88))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הגדרת אלגוריתם המקודד

n באורך x מחרוזת קלט:

התוכנית : המקודד יפסק את הקלט לסדרת הפיסוק הבאה •

) פיסוק מקור(

לכל פסקת מקור המפענח יתאים פסקת קוד , כלומר •

y פלט:

mj

j

ii

j

jx

1

11

1,11 1111

11 yLkkncjyx nc

kk

encoderi

ij

j

j

j

lsourceאורכי סדרת פסקאות המקור יסומנו ב

lcodeאורכי סדרת פסקאות הקוד יסומנו ב -

((99))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הגדרת אלגוריתם המפענח

y : מחרוזת קוד קלט

תוכנית:המפענח יפסק את הקלט לסדרת הפיסוק הבאה

) פיסוק קוד (:

וימפה לכל פסקת קוד את פסקת המקור המתאימה לו:

x המחרוזת פלט:

ncj

j

kk

j

jy

1

11

1,11 11

11 11

yLkkncjxy nc

i

idecoderk

kj

j

j

j

((1010))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

סכמת מפענח סיבתית

בקלט iאם כדי למצוא את הפסקה ה - ולפענחה נדרש המפענח לכל היותר

למחרוזת של הקוד, נאמר שהסכמה סיבתית ) ביחס למפענח(.

11

1 iky

((1111))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

Encoder

1

2

Decoder

3

time

1

2

3

1

2

3

תתי

סיבה

מסכ

עבור קול

שמודל

((1212))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קצב הדחיסה של הסכמה

יוגדר קצב הדחיסה המושג xעבור מחרוזת ע"י סכמת אלגוריתמי מקודד-מפענח

באופן הבא:

עבור א"ב מקור וקוד בינארי מתקיים:

||lg

||lglg

B

AxL

yLxoA

nc

isource

nc

icode

oA

il

il

xL

yLx

1

1lg

((1313))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הצגת האלגוריתמים

•LZ77 - Sliding Window LZ

•LZ78 – Tree Based LZ

•LZW שיפור של – LZ78

((1414))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קידוד מספרים טבעיים

למה: עבור המספר הטבעיים prefix freeקיים קוד

הוא kכך שאורך הקוד לכל מספר טבעי

1lglg2lg OkkkcodeL

((1515))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קידוד מספרים טבעיים - הוכחה

"איטרציה" ראשונה – נציע את המיפוי הבא:

אורך מילת הקוד:

xkC k 10 lg1

03lg21lg2 kkkkCL

((1616))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קידוד מספרים טבעיים - הוכחה"איטרציה" שניה – נציע את המיפוי הבא:

0lg,01lglglg2 kkOkk

אורך מילת הקוד:

xkC k 10 lg1

xkCkC lg12

kk

kkCLkCL

lg1lglg2

lglg12

kk lg1lglg2

((1717))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ77 – Sliding Window LZ

( השומר bufferבאלגוריתם זה קיים חוצץ ) את תת המחרוזת שכבר קודדה.

הוא "חלון" הסתכלות על העבר. bufferה - ואפשר גם להבין אותו בתור "המילון"

שלנו.

((1818))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

(LZ77תיאור האלגוריתם )

מלא buffer ה אתחול ) מקודד ומפענח(:בסדרה הידועה מראש גם למקודד וגם

למפענח.

((1919))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

-המקודדLZ77אלגוריתם

((2020))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

– המפענחLZ77אלגוריתם

((2121))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

א'1 – דוגמא LZ77אלגוריתם

:שמור המידע bufferהנח שב

ועליך לקודד מחרוזת המתחילה כך:

: תהיה הבאה ההתאמה 10אזי

: היא הבאה 100והפסקה

כלומר:

00010:buffer

10000:x

2,0,4iy

((2222))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

ב'1 – דוגמא LZ77אלגוריתם

:שמור המידע bufferהנח שב

ועליך לקודד מחרוזת המתחילה כך:

: תהיה הבאה ההתאמה 1010אזי

: היא הבאה 01010והפסקה

כלומר:

00010:buffer

4,0,4iy

10100:x

((2323))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אבחנות בסיסיות

הסכמה היא סיבתית•זהו אלגוריתם חמדן•פסקאות שונות• הוא : jהמחיר לקידוד הפסקה ה •

לכן קצב הדחיסה:•

jlOAijl sourcejcode lg||lglg

n

jlOAi

il

ilnc

j sourcej

nc

j source

nc

j code

UnBoundedLZ

1

1

1_77

lg||lglg

((2424))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ77 גרסה עם - buffer חסום

((2525))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

חסום bufferאבחנות – גרסא עם

סכמה סיבתית; אלגוריתם חמדן•לא כל הפסקאות שונות זו מזו.• הוא :jהמחיר לקידוד הפסקה ה •

קצב הדחיסה הוא:•

sbuffercode LALjl lg||lglg

n

LALnc

il

ilsbuffer

nc

j source

nc

j code

BoundedLZ

lg||lglg

1

1_77

((2626))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ 78-Tree Based LZ

, שהוא Dבגרסה זו קיים מילון שנסמנו באות סדרה של מחרוזות.

.D(j) יסומן ב – jהמילון בזמן ה -

((2727))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ 78האלגוריתם -

אתחול המפענח והמקודד : המילון מכיל את המחרוזת הריקה.

((2828))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ78המקודד

((2929))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ78המפענח -

((3030))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

שימוש בעץ כייצוג של המילון

מבנה נתונים אבסטרקטי לייצוג המילון הוא עץ מכוון:

לכל מילה במילון קיים צמת-

המסלול המכוון מהשורש לצמת מגדיר את המילה-Dictionary

1

1

02

3

4

5

6

7

8

9

10

11

((3131))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

עץ שחור לבן כייצוג של המילון

עץ מכוון עם צמתים משני סוגים: : צמתים אלו מייצגים מחרוזות שהן שחורים•

פסקאות שכבר מופו בתהליך הקידוד. צמתים אלו מייצגים פסקאות לבנים :•

שטרם זוהו )ולכן אינן חלק מהמילון שלנו( אך הן הבאות בתור למיפוי.

((3232))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

עץ שחור לבן כייצוג של מחרוזות

1

11

0

4

6

1

4

1

3

5

6

7

8

1

2

זיהוי מחרוזת יהיה טיול על העץ מהשורש לעלה לבן – לקבלת הפסקה הבאה.

הפעם נשלח את המספר של העלה הלבן ) שוב בהתאם למקומו הלקסיקוגרפי ( .

((3333))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ78עם חסמים

חלוקה לבלוקים קידוד בנפרד ושרשור •) שקף הבא(

מילון שאינו גדל מעבר לגודל מסוים:•הופך סטטי–מוחק רשומות לפי משטר מסוים–נמחק ומתחיל בנייה מחדש–

((3434))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

.

.

.

m

nixix im

mi ...2,111

1x

1

m

ny

m

ny

1y

1

m

nx

m

nx

BLZ 78

BLZ 78

BLZ 78

m

n

i

iyy1

((3535))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZW שיפור על – LZ78

•Welch הבחין שניתן להימנע משליחת התו .uncodedהמחדש

נותן שיפורים משמעותיים במקורות •דחיסים.

תרם לפופולריות של האלגוריתם•

((3636))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

יישומי האלגוריתמים והשוואת ביצועים

יישומים :•–gzip,zip ( LZ77( –compress ( LZW )–gif ( LZW )

מבחני השוואת ביצועים – קורפוס •קנטרברי

((3737))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

gzip,zip

:LZ77 שהוא וריאנט של deflateמימוש של וחלון בגודל 32KBבגודל bufferשימוש ב •

256B.עבור המחרוזת הבאה שיש לקודד לצורך ההתאמותhashשימוש בטבלת •קידוד הפמן של המצביע, ושל המחדש•

+אורך המחרוזת.חלוקה לבלוקים•• look ahead– .מיתון החמדנות

((3838))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

compress

והוא מימוש של Unixיישום הנפוץ בסביבת LZW:

גודל המילון המקסימלי יכול להיקבע ע"י •המשתמש

התנהגות היישום כאשר המילון מתמלא.•

((3939))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

gif (graphic interchange format)

הצגה לקבצי תמונות המכילים עד פורמט• צבעים .256

באופן דומה ל – LZWמשתמש ב •compress.

הסריקה של התמונות נעשית שורה שורה.•

((4040))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

Benchmarkמבחני ביצועים ) Tests)

מוטיבציה•דרישות ממבחן ביצועים אמין•הקורפוס של קנטרברי•

((4141))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

תכולת הקורפוס של קנטרבריFileAbbrevCategorySize(Bytes)

alice29.txttextEnglish text 152089

asyoulik.txtplayShakespeare 125179

cp.htmlhtmlHTML source 24603

fields.cCsrcC source 11150

grammar.lsplistLISP source 3721

kennedy.xlsExclExcel Spreadsheet 1029744

lcet10.txttechTechnical writing 426754

plrabn12.txtpoemPoetry 481861

ptt5faxCCITT test set 513216

sumSPRCSPARC Executable 38240

xargs.1manGNU manual page 4227

((4242))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

השוואת ביצועיםComp Rates ( source: http://corpus.canterbury.ac.nz )

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

text fax Csrc Excl SPRC tech poem html list man play

file types

co

mp

. ra

te b

it/c

ha

rac

ter

gzip-b

gzip-d

gzip-f

compress

((4343))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מדדי דחיסות עבור סדרות

הגישה הסטכוסטיתגישה א' : המחרוזת חברה באנסמבל בעל מאפיינים

סטטיסטיים ידועים ) רצוי: סטציונרי וארגודי (ניתנות בתוחלת על פני חברי האנסמבל.תוצאות

קצב האנטרופיהמדד הדחיסות:

חסרונות/בעיות: מה ידוע על הדחיסות של מחרוזת •

ספציפית? מה באשר למקורות שהסטטיסטיקה שלהם •

אינה ידועה? או שאינם סטציונרים או ארגודיים ?

((4444))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מדדי דחיסות עבור מחרוזות

הגישה הדטרמיניסטית : ניתוח מחרוזות גישה ב' : אינדיבידואליות

נמצא לכל מחרוזת את קצב הדחיסה הטוב ביותר שניתן להשיג עבורה. פעולת הדחיסה היא פעולה חישובית של מיפוי מחרוזות למחרוזות – ולכן נתעניין בקצבי הדחיסה הניתנים להשגה באמצעות מכונות חישוב.

מדדים מוצעים: סיבוכיות קולמגורוב•קצב למפל זיו•

((4545))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מכונת חישוב אוניברסלית אידיאלית

מכונת חישוב אוניברסלית אידיאלית היא מערכת המקבלת •תוכנית וקלט לתוכנית ומריצה את התוכנית על הקלט .

דוגמאות למכונות אוניברסליות הן למשל:•מכונת טורינג אוניברסלית עם סרט באורך אין-סופי.–בגודל לא מוגבל המריצה Random Accessמכונת חישוב עם זיכרון –

Cתוכניות ב מכונת חישוב " " " " " " –

A JAV " ב

כל הדוגמאות הנ"ל שקולות במובן, שכל בעיה חישובית שניתן •לפתור באמצעות מימוש אלגוריתמי במערכת אחת ניתן לפתור

באמצעות מימוש אלגורתמי ) אולי אחר ( בכל אחת מהמערכות האחרות.

((4646))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

סיבוכיות קולמגורוב

((4747))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

סבוכיות קולמגורוב: דוגמא א'

x = 0n

((4848))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

סבוכיות קולמגורוב: דוגמא ג'

((4949))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אוניברסליות סיבוכיות קולמגורוב

((5050))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

ח1שיבות סיבוכיות קולמגורוב

משפט ) חישוביות סיבוכיות :לכל מכונת חישוב קולמגורוב (

אוניברסלית ואידיאלית, סיבוכיות יבה. קולמגורוב – אינה ח1ש2

לא ניתן לממש מקודד המשיג את סיבוכיות קולמגורוב •לכל מחרוזת.

באופן כללי,לא ניתן לחשב את סיבוכיות קולמגורוב של •מחרוזות, או אפילו להוכיח שסיבוכיות קולמגורוב של

מחרוזות היא מספר מסוים.

((5151))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מקודד מבוסס מכונת מצבים סופית

((5252))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מקודדים משמרי אנפורמציה

((5353))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קצב הדחיסה של מקודד ביחס למחרוזת

((5454))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קצב הדחיסה של מחלקת מקודדים

((5555))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

limsup

((5656))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

קצב למפל - זיוהגדרה ) קצב למפל - זיו(

)שאינה מוגבלת באורכה( xקצב למפל-זיו ביחס למחרוזת מוגדר באופן הבא:

xx sEs

LZ

lim

((5757))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

חסם תחתון על קצב הדחיסה

((5858))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

חסם תחתון על קצב הדחיסה -דוגמא

((5959))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הגדרות: תדירות יחסית,אנטרופיה מנורמלת של מחרוזת

((6060))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

אנטרופיה מנורמלת - תוצאות

((6161))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ78אוניברסליות

[ כי עבור סכמת 5למפל וזיו הראו ב – ] וקידודם mפירוק מחרוזת לבלוקים באורך

חסום ) מספר מצביו הוא LZ78ע"י מקודד ( מתקיים:mפונקציה של

((6262))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

LZ78מבט נוסף על סיבוכיות

: שמתקיים טענו

!lg1

1||lg1_78 ncn

An

ncxn

UnBoundedLZ

1lg1

1||lg1 #

##

1_78

ncn

ncA

n

ncxn

UnBoundedLZ

: מתקיים בפרט לכן

((6363))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

C#(n)חסם על

מסקנה:

1lg1

1||lg1 #

##

1_78

ncn

ncA

n

ncxn

UnBoundedLZ

)1(lg ##

oncn

nc

((6464))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הצדקה א' לאוניברסליות

הקידוד:

mחלוקה לסופר בלוקים בגודל

מעל א"ב שהליטרלים שלו הם הסופר LZ78הרצת בלוקים.

ליטרלים, ולכן יש לנו 2Hm , ישנם 1בהסתברות :AEPלפי א"ב אפקטיבי בגודל זה.

((6565))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הצדקה א' לאוניברסליות ) המשך (

#c אזי לפי למת החסם על n=kmהניחו מתקיים:

בפרט:

m

nm

m

nO

Ho

m

n

mm

nH

m

nH

x

m

n

m

n

m

n

m

n

nUnBoundedLZ

lglglg

lg1

1

1

1)1(

lg1

1lg

lg1

11_78

HxUnBoundedLZm

_78lim

((6666))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

' ב הצדקה

- לבן השחור בעץ נשתמש ההוכחה לצורך

((6767))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

העץ על מושרות הסתברויותלבן- השחור

((6868))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

השחור העץ על מושרות הסתברויותלבן

נשלם: iבבואנו לקודד את הפסקה ה •

אלטרנטיבית: נקצה הסתברויות לעלים • :iהלבנים בזמן ה

אזי:•

||

1

iDvPi

||lg iDiyL

vPiyL ilg

((6969))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

העץ על המושרות הסתברויותלבן השחור

לקשת iההסתברות המוקצת בזמן e=(v1,v2)

1

2

vleaves

vleavesePi

((7070))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

: ואורכים הסתברויות

((7171))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

הסכימה סדר שינוי

((7272))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

כתוצאה ) הסתברויות שינוי אבחנותמקידוד(

לכל צמת שחור בכל קידוד אנו עוברים •בלכל היותר קשת אחת היוצאת ממנו.

שינוי הסתברות הקשתות כתוצאה ממעבר •בצמת שחור :

מקרה בסיס–נוסחת נסיגה–

((7373))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מקידוד - כתוצאה הסתברויות שינוימסקנות

((7474))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

vחישוב תרומת צמת

v

ncvv

jncvj

v

v

v

v

vvnc

i wrpathuvi

nnjnn

nn

n

n

nnuvP

ii

0,1

1lglg!1

!!lg,lg

,

0

10

1 ,,

לפי סטירלינג קיים:

vv

v

Bvov

v

nOn

nhn

n

nlglg 0

0

Bv

vv

v

Bv

v

Bvv

vn

nOn

nhn

nn

nxCodeL

lg

1lglg

0

0

1

((7575))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

נוספות אבחנות

כל פסקה יוצרת צמת שחור , לכן:

לבן או כל תו קוד פירושו ביקור בצמת )שחור ( לכן:

n

nOn

n

ncnncnn

Bv

v

lg

111

((7676))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

החסם מציאת

Bv

v

Bv v

v

B

v

Bv

v

v

v

Bvn

UnBoundedLZ nOnc

ncnn

nh

n

nnO

n

nhn

nx lg

1

2

1

2

lg1 001_78

nc

nnc

nO

n

nh

nc

nnc

nO

n

n

n

nhx

Bv

v

B

Bv

v

Bv v

vv

BJensen

nUnBoundedLZ

lg2

1

lg2

1

0

01_78

n

nO

lg

lglg

((7777))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

מסקנה:

n

nOxH

n

nOxPhx nn

Bn

UnBoundedLZ

lglgˆlg

lglg0, 1111_78

((7878))דחיסת נתונים ואותות – סמסטר ב' תשס"ז ללא לקבצים דחיסה שיטותעיוות

סיכום

כשיטות דחיסה באמצעות LZאלגוריתמי •פיסוק

שיטות יישומיות•מדדי דחיסה תיאורטיים•השגת אוניברסליות במודל מחרוזות •

אינדיבידואליות.

top related