bruno bertini - studio e sviluppo di una tecnica per l’identificazione blind di dispositivi di...
DESCRIPTION
Bruno Bertini - Studio e sviluppo di una tecnica per l’identificazione blind di dispositivi di acquisizione di immagini digitaliTRANSCRIPT
Bruno Bertini
Firenze, 12/10/2012 Relatori: Prof. Alberto Del Bimbo Dott. Roberto Caldelli Dott. Irene Amerini
Studio e sviluppo di una tecnica per l’identificazione blind
di dispositivi di acquisizione di immagini digitali
Digital Forensics → Image Forensics
Metodologia o Estrazione feature o Classificazione Blind → Spectral Clustering
Risultati sperimentali
Conclusioni e sviluppi futuri
Sommario
Il Digital Forensics è la scienza che permette attraverso l'analisi di prove digitali di ricostruire eventi collegati ad azioni illegali.
Prova digitale: Qualsiasi informazione, con valore probatorio, memorizzata in formato digitale.
Image Forensics Tampering detection
Digital Forensics
Source identification
Image source identification Identificazione del dispositivo che ha generato una immagine digitale
1) Estrazione caratteristiche distintive della sorgente: feature
𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 = [ … ]
2) Classificazione delle immagini
non–Blind
Blind
Metodologia
Test-Set Classificatore Estrazione Feature
Classe 1
Classe 3
Classe 2
Training-Set Estrazione
Feature Addestramento
Algoritmo Blind
Classificazione non-Blind Classificazione Blind
Classe n
Test-Set Estrazione
Feature Algoritmo
Blind
Obiettivo della tesi
Tre tecniche distinte per estrarre feature:
1. Denoising dell’immagine
2. Analisi trasformata Wavelet
3. Predizione lineare
𝑣𝑣𝑣𝑣𝑣𝑣𝑣 𝑓𝑣𝑓𝑣𝑓𝑣𝑣 = [37 𝑣𝑒𝑣𝑒𝑣𝑒𝑣𝑒 ]
X 3 bande
𝒗𝒗𝒗𝒗𝒗𝒗𝒗 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 = [𝟏𝟏𝟏 𝒗𝒆𝒗𝒆𝒗𝒆𝒗𝒆 ]
Estrazione delle feature
D 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟏 → 𝟏𝟏 𝑭𝒆𝒆𝒗𝒗𝒗 𝒅𝒆 𝑴𝒆𝑴𝑴𝒇𝑴
Media Righe
Media Colonne
𝑓𝑣𝑓𝑣𝑓𝑣𝑣 [ 1 → 8 ]
𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟏𝟏 → 𝟐𝟐 𝟏 𝒇𝒆𝒆𝒗𝒗𝒆
1. Filtro Mihcak 2. Filtro Media 3x3 3. Filtro Mediana 3x3
4. Filtro Gaussiano 3x3 5. Filtro Wiener 3x3 6. Filtro Wienere 5x5
Media e deviazione standard delle 6 versioni del rumore
4 momenti statistici per Media Col. e Media Rig.
𝑓𝑣𝑓𝑣𝑓𝑣𝑣 [ 9 → 14 ] 3 momenti statistici per Corr. Righe e Corr. Colonne
𝑓 15 = 1 − ∑𝑐𝑣𝑣𝑣𝑐𝑐𝑐∑ 𝑐𝑣𝑣𝑣𝑟𝑐𝑟
∗ 100
Denoising dell’immagine
Deviazione Standard per ciascuna delle 3 sottobande HL, HH e LH
𝒇𝒗𝒇𝒗𝒇𝒗𝒗 [ 𝟑𝟏 → 𝟑𝟑 ] Per ogni sottobanda confronto della
distribuzione gaussiana p(y) con la distribuzione q(y) dei coefficienti della sottobanda stessa.
p(y)
q(y)
𝛿 = � 𝑝 𝑦 − 𝑞(𝑦) 𝑑𝑦
Analisi trasformata Wavelet 𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟐𝟐 → 𝟑𝟑
1. Identificazione zone lisce mediante segmentazione con filtro di Prewitt
2. ‘’Zone lisce chiare’’ e ‘’zone lisce scure’’ mediante soglia di intensità luminosa
3. In ciascuna zona predizione pixel bi mediante pixel limitrofi
ai,1 ai,4 ai,6
ai,2 bi ai,7
ai,3 ai,5 ai,8
4. Confronto tra pixel predetti b’ e pixel reali b
∆𝑏 = 𝑏′ − 𝑏
Media e Deviazione Standard di ∆𝑏 per le 2 zone
Predizione lineare
𝒇𝒗𝒇𝒗𝒇𝒗𝒗 𝟑𝟑 → 𝟑𝟐
Algoritmo di Spectral Clustering [Shi et al. 2000]
Tecnica basata su Teoria dei Grafi
Algoritmo Top-Down
Cluster 1
Cluster Iniziale
Cluster 2
Cluster 1.2 Cluster 1.1
Si parte con la totalità delle N immagini Ad ogni iterazione il grafo viene
bipartizionato o meno in base al coefficiente di aggregazione
Condizione di stop: coefficiente di aggregazione supera una soglia TH predefinita
[Shi et al. 2000] - J. Shi and J. Malik, ‘’Normalized cuts and image segmentation’’, Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 22, no. 8, pp. 888-905, aug 2000.
o Nodi = Dati da partizionare o Archi = Matrice di similarità
N immagini
Classificazione Blind
Matrice delle similarità: Correlazione tra i vettori delle feature.
Matrice delle Feature (Nx111)
Matrice delle Similarità (NxN)
Spectral Clustering
Valore soglia TH
Spectral Clustering
Cluster 1
Cluster 2
Cluster k
1. Scelta valore soglia TH
2. Classificazione Spectral Clustering
3. Confronto Spectral Clustering con algoritmo K-means
4. Confronto Spectral Clustering con stato dell’arte
Database 300 immagini: 100 immagini per ciascuna delle 3 sorgenti.
Camera CG Scanner
70 40 100 Dataset 1
40 50 90 Dataset 2
90 60 80 Dataset 3
… … … ...
… … … Dataset 63
Combinate in 63 dataset
Esperimenti:
Risultati sperimentali
Curve ROC: True Positive Rate e False Positive Rate (TPR/FPR) Intervallo valori soglia [0.82 – 0.95] con incremento di 0.01
Risultati 1: scelta valore soglia TH
TH=0.85
Valore Soglia TH
Media distanza Euclidea
0,82 0,9058
0,83 0,903
0,84 0,9139
0,85 0,7779
0,86 0,9918
Risultati 1: scelta valore soglia TH
Camera CG Scanner
Camera 86% 1.9% 12.1%
CG 7.8% 83.8% 8.4%
Scanner 10.6% 17.1% 72.3%
Media su 63 esperimenti
Valore soglia TH = 0.85
Risultati 2: Spectral Clustering
Risultati 3: confronto con K-means
𝐚𝐚𝐚𝐚𝐚𝐚𝑴
𝑺𝒆𝒆.𝑪𝒗𝒗𝒇𝒇.
𝑓𝑖: 𝑐𝑣𝑣𝑐𝑒𝑣𝑒𝑣 𝑏𝑖: 𝑐𝑣𝑝𝑓𝑣𝑓𝑠𝑒𝑣𝑒𝑣
𝑆𝑒𝑒.𝐶𝑣𝑣𝑓𝑓. =𝑏𝑖 − 𝑓𝑖
𝑒𝑓𝑚 𝑓𝑖 , 𝑏𝑖= [−1 , 1]
K-means: algoritmo di clustering
Calcolo coefficiente di silhouette per ogni K = [2 - 30]
E’ imposta la scelta iniziale del numero K di cluster da cercare
Risultati 3: confronto con K-means
Camera CG Scanner
Camera 86% 1.9% 12.1%
CG 7.8% 83.8% 8.4%
Scanner 10,6% 17.1% 72.3%
Camera CG Camera 96.5% 3.5%
CG 4.2% 95.8% Scanner 52.5% 47.5%
Camera CG Scanner
Camera 90.2% 2.6% 7.2%
CG 4.1% 93% 2.9%
Scanner 3.6% 11.6% 84.8%
Camera CG Scanner
Camera 90% 4% 6%
K=2
K=3
K=3
Spectral Clustering
K-means
Singola sorgente (100 camera)
Camera CG Scanner
Camera 60% 19% 21%
Risultati 3: confronto con K-means
[Delp et al. 2008] - N. Khanna, G.-C. Chiu, J. Allebach, and E. Delp, ‘’Forensic techniques for classifying scanner, computer generated and digital camera images’’. in Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on, 31 2008-april 4 2008, pp. 1653-1656.
[McKay et al. 2008] - C. McKay, A. Swaminathan, H. Gou, and M. Wu, ‘’Image acquisition foren- sics: Forensic analysis to identify imaging source’’, in ICASSP'08, 2008, pp.1657-1660.
Confronto con due metodologie non-Blind: [Delp et al. 2008] e [McKay et al. 2008]
Database 300
immagini
240 (80 x sorgente)
60 (20xsorgente)
SVM
Addestramento SVM
Spectral Clustering
Risultati 4: confronto con stato dell’arte
Camera CG Scanner Altro
Camera 83.6% 1.8% 9.4% 5.2%
CG 3.6% 80.1% 8.8% 7.5%
Scanner 13.8% 8.4% 72% 5.8%
Camera CG Scanner
Camera 74.4% 17.8% 7.8%
CG 4.6% 81% 14.4%
Scanner 6% 20% 74%
Camera CG Scanner
Camera 97.1% 2.9% 0%
CG 14.2% 85.4% 4%
Scanner 7% 1% 92%
[Delp et al. 2008]
Spectral Clustering
[McKay et al. 2008]
Risultati 4: confronto con stato dell’arte
o Corretta identificazione della sorgente nel 80% dei casi o Migliore del K-means in ambiente Blind o Risultati paragonabili con lo stato dell’arte (non-Blind)
Vantaggi
Svantaggi o Minor robustezza rispetto al caso non-Blind o Dipendenza dalla numerosità del dataset
Definizione di un nuovo coefficiente di aggregazione
Estrazione feature basate su rumore Scelta Spectral Clustering per classificazione Blind Test Spectral Clustering e confronti con altri algoritmi e metodologie non-Blind
Sviluppi Futuri
Conclusioni