bruno bertini - studio e sviluppo di una tecnica per l’identificazione blind di dispositivi di...

Bruno Bertini

Firenze, 12/10/2012 Relatori: Prof. Alberto Del Bimbo Dott. Roberto Caldelli Dott. Irene Amerini

Studio e sviluppo di una tecnica per l’identificazione blind

di dispositivi di acquisizione di immagini digitali

Digital Forensics → Image Forensics

Metodologia o Estrazione feature o Classificazione Blind → Spectral Clustering

Risultati sperimentali

Conclusioni e sviluppi futuri

Sommario

Il Digital Forensics è la scienza che permette attraverso l'analisi di prove digitali di ricostruire eventi collegati ad azioni illegali.

Prova digitale: Qualsiasi informazione, con valore probatorio, memorizzata in formato digitale.

Image Forensics Tampering detection

Digital Forensics

Source identification

Image source identification Identificazione del dispositivo che ha generato una immagine digitale

1) Estrazione caratteristiche distintive della sorgente: feature

𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 = [ … ]

2) Classificazione delle immagini

non–Blind

Blind

Metodologia

Test-Set Classificatore Estrazione Feature

Classe 1

Classe 3

Classe 2

Training-Set Estrazione

Feature Addestramento

Algoritmo Blind

Classificazione non-Blind Classificazione Blind

Classe n

Test-Set Estrazione

Feature Algoritmo

Blind

Obiettivo della tesi

Tre tecniche distinte per estrarre feature:

1. Denoising dell’immagine

2. Analisi trasformata Wavelet

3. Predizione lineare

𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑓𝑣𝑓𝑣𝑓𝑣𝑣 = [37 𝑣𝑒𝑣𝑒𝑣𝑒𝑣𝑒 ]

X 3 bande

𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 = [𝟏𝟏𝟏 𝒗𝒆𝒗𝒆𝒗𝒆𝒗𝒆 ]

Estrazione delle feature

D 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟏 → 𝟏𝟏 𝑭𝒆𝒆𝒗𝒗𝒗 𝒅𝒆 𝑴𝒆𝑴𝑴𝒇𝑴

Media Righe

Media Colonne

𝑓𝑣𝑓𝑣𝑓𝑣𝑣 [ 1 → 8 ]

𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟏𝟏 → 𝟐𝟐 𝟏 𝒇𝒆𝒆𝒗𝒗𝒆

1. Filtro Mihcak 2. Filtro Media 3x3 3. Filtro Mediana 3x3

4. Filtro Gaussiano 3x3 5. Filtro Wiener 3x3 6. Filtro Wienere 5x5

Media e deviazione standard delle 6 versioni del rumore

4 momenti statistici per Media Col. e Media Rig.

𝑓𝑣𝑓𝑣𝑓𝑣𝑣 [ 9 → 14 ] 3 momenti statistici per Corr. Righe e Corr. Colonne

𝑓 15 = 1 − ∑𝑐𝑣𝑣𝑣𝑐𝑐𝑐∑ 𝑐𝑣𝑣𝑣𝑟𝑐𝑟

∗ 100

Denoising dell’immagine

Deviazione Standard per ciascuna delle 3 sottobande HL, HH e LH

𝒇𝒗𝒇𝒗𝒇𝒗𝒗 [ 𝟑𝟏 → 𝟑𝟑 ] Per ogni sottobanda confronto della

distribuzione gaussiana p(y) con la distribuzione q(y) dei coefficienti della sottobanda stessa.

p(y)

q(y)

𝛿 = � 𝑝 𝑦 − 𝑞(𝑦) 𝑑𝑦

Analisi trasformata Wavelet 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟐𝟐 → 𝟑𝟑

1. Identificazione zone lisce mediante segmentazione con filtro di Prewitt

2. ‘’Zone lisce chiare’’ e ‘’zone lisce scure’’ mediante soglia di intensità luminosa

3. In ciascuna zona predizione pixel bi mediante pixel limitrofi

ai,1 ai,4 ai,6

ai,2 bi ai,7

ai,3 ai,5 ai,8

4. Confronto tra pixel predetti b’ e pixel reali b

∆𝑏 = 𝑏′ − 𝑏

Media e Deviazione Standard di ∆𝑏 per le 2 zone

Predizione lineare

𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟑𝟑 → 𝟑𝟐

Algoritmo di Spectral Clustering [Shi et al. 2000]

Tecnica basata su Teoria dei Grafi

Algoritmo Top-Down

Cluster 1

Cluster Iniziale

Cluster 2

Cluster 1.2 Cluster 1.1

Si parte con la totalità delle N immagini Ad ogni iterazione il grafo viene

bipartizionato o meno in base al coefficiente di aggregazione

Condizione di stop: coefficiente di aggregazione supera una soglia TH predefinita

[Shi et al. 2000] - J. Shi and J. Malik, ‘’Normalized cuts and image segmentation’’, Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 22, no. 8, pp. 888-905, aug 2000.

o Nodi = Dati da partizionare o Archi = Matrice di similarità

N immagini

Classificazione Blind

Matrice delle similarità: Correlazione tra i vettori delle feature.

Matrice delle Feature (Nx111)

Matrice delle Similarità (NxN)

Spectral Clustering

Valore soglia TH

Spectral Clustering

Cluster 1

Cluster 2

Cluster k

1. Scelta valore soglia TH

2. Classificazione Spectral Clustering

3. Confronto Spectral Clustering con algoritmo K-means

4. Confronto Spectral Clustering con stato dell’arte

Database 300 immagini: 100 immagini per ciascuna delle 3 sorgenti.

Camera CG Scanner

70 40 100 Dataset 1

40 50 90 Dataset 2

90 60 80 Dataset 3

… … … ...

… … … Dataset 63

Combinate in 63 dataset

Esperimenti:

Risultati sperimentali

Curve ROC: True Positive Rate e False Positive Rate (TPR/FPR) Intervallo valori soglia [0.82 – 0.95] con incremento di 0.01

Risultati 1: scelta valore soglia TH

TH=0.85

Valore Soglia TH

Media distanza Euclidea

0,82 0,9058

0,83 0,903

0,84 0,9139

0,85 0,7779

0,86 0,9918

Risultati 1: scelta valore soglia TH

Camera CG Scanner

Camera 86% 1.9% 12.1%

CG 7.8% 83.8% 8.4%

Scanner 10.6% 17.1% 72.3%

Media su 63 esperimenti

Valore soglia TH = 0.85

Risultati 2: Spectral Clustering

Risultati 3: confronto con K-means

𝐚𝐚𝐚𝐚𝐚𝐚𝑴

𝑺𝒆𝒆.𝑪𝒗𝒗𝒇𝒇.

𝑓𝑖: 𝑐𝑣𝑣𝑐𝑒𝑣𝑒𝑣 𝑏𝑖: 𝑐𝑣𝑝𝑓𝑣𝑓𝑠𝑒𝑣𝑒𝑣

𝑆𝑒𝑒.𝐶𝑣𝑣𝑓𝑓. =𝑏𝑖 − 𝑓𝑖

𝑒𝑓𝑚 𝑓𝑖 , 𝑏𝑖= [−1 , 1]

K-means: algoritmo di clustering

Calcolo coefficiente di silhouette per ogni K = [2 - 30]

E’ imposta la scelta iniziale del numero K di cluster da cercare


Camera CG Scanner

Camera 86% 1.9% 12.1%

CG 7.8% 83.8% 8.4%

Scanner 10,6% 17.1% 72.3%

Camera CG Camera 96.5% 3.5%

CG 4.2% 95.8% Scanner 52.5% 47.5%

Camera CG Scanner

Camera 90.2% 2.6% 7.2%

CG 4.1% 93% 2.9%

Scanner 3.6% 11.6% 84.8%

Camera CG Scanner

Camera 90% 4% 6%

K=2

K=3

K=3

Spectral Clustering

K-means

Singola sorgente (100 camera)

Camera CG Scanner

Camera 60% 19% 21%


[Delp et al. 2008] - N. Khanna, G.-C. Chiu, J. Allebach, and E. Delp, ‘’Forensic techniques for classifying scanner, computer generated and digital camera images’’. in Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on, 31 2008-april 4 2008, pp. 1653-1656.

[McKay et al. 2008] - C. McKay, A. Swaminathan, H. Gou, and M. Wu, ‘’Image acquisition forensics: Forensic analysis to identify imaging source’’, in ICASSP'08, 2008, pp.1657-1660.

Confronto con due metodologie non-Blind: [Delp et al. 2008] e [McKay et al. 2008]

Database 300

immagini

240 (80 x sorgente)

60 (20xsorgente)

SVM

Addestramento SVM

Spectral Clustering

Risultati 4: confronto con stato dell’arte

Camera CG Scanner Altro

Camera 83.6% 1.8% 9.4% 5.2%

CG 3.6% 80.1% 8.8% 7.5%

Scanner 13.8% 8.4% 72% 5.8%

Camera CG Scanner

Camera 74.4% 17.8% 7.8%

CG 4.6% 81% 14.4%

Scanner 6% 20% 74%

Camera CG Scanner

Camera 97.1% 2.9% 0%

CG 14.2% 85.4% 4%

Scanner 7% 1% 92%

[Delp et al. 2008]

Spectral Clustering

[McKay et al. 2008]

Risultati 4: confronto con stato dell’arte

o Corretta identificazione della sorgente nel 80% dei casi o Migliore del K-means in ambiente Blind o Risultati paragonabili con lo stato dell’arte (non-Blind)

Vantaggi

Svantaggi o Minor robustezza rispetto al caso non-Blind o Dipendenza dalla numerosità del dataset

Definizione di un nuovo coefficiente di aggregazione

Estrazione feature basate su rumore Scelta Spectral Clustering per classificazione Blind Test Spectral Clustering e confronti con altri algoritmi e metodologie non-Blind

Sviluppi Futuri

Conclusioni

bruno bertini - studio e sviluppo di una tecnica per l’identificazione blind di dispositivi di...

Documents