Download - Redes Neurais: Técnicas Bayesianas
![Page 1: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/1.jpg)
Técnicas Técnicas BayesianasBayesianas
Renato VicenteRenato [email protected][email protected]
10/01, 10/01, mpmmfmpmmf, IME/FEA , IME/FEA –– USPUSP
![Page 2: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/2.jpg)
Técnicas Técnicas BayesianasBayesianas
Teorema de Teorema de BayesBayesModelos HierárquicosModelos HierárquicosInferência de ParâmetrosInferência de ParâmetrosInferência de Inferência de Hiperparâmetros Hiperparâmetros Seleção de ModelosSeleção de Modelos
![Page 3: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/3.jpg)
Teorema de Teorema de BayesBayesSeja dado um conjunto de dados Seja dado um conjunto de dados DD e um conjunto de e um conjunto de hipóteses sobre os dados hipóteses sobre os dados HH11 , H, H2 2 , ..., , ..., HHnn..
A teoria elementar de probabilidades nos fornece:A teoria elementar de probabilidades nos fornece:
Daí decorre que:Daí decorre que:
( , ) ( ) ( ) ( ) ( )k k k kP D H P D H P H P H D P D= =
( ) ( )( )
( )k k
k
P D H P HP H D
P D=
![Page 4: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/4.jpg)
Bayes Bayes em Palavrasem Palavras
ˆVEROSSIMILHANÇA A PRIORIPOSTERIOR
EVIDENCIA×
=
![Page 5: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/5.jpg)
BayesianosBayesianos X X FreqüencistasFreqüencistasFreqüencistasFreqüencistas: Probabilidades como “freqüência” de ocorrência de : Probabilidades como “freqüência” de ocorrência de um evento ao repetirum evento ao repetir--se o experimento infinitas vezes. se o experimento infinitas vezes.
BayesianosBayesianos: Probabilidades como “grau de crença” na ocorrência de : Probabilidades como “grau de crença” na ocorrência de um evento. um evento.
JaynesJaynes,, ProbabilityProbability: : The Logic The Logic of of ScienceSciencehttphttp://://omegaomega..albanyalbany..eduedu:8008/:8008/JaynesBookJaynesBook..htmlhtml
1
1( ) ( )
( ) 1 , 0 ..
limN
A jjN
A j j
P A xN
x se x A ou c c
χ
χ=→∞
=
= ∈ =
∑
![Page 6: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/6.jpg)
PerceptronPerceptron ContínuoContínuo
j jj
y g w x μ⎛ ⎞
= +⎜ ⎟⎝ ⎠∑
1( )1 ag a
e −=+
-4 -2 2 4
0.2
0.4
0.6
0.8
1
Função de transferência
![Page 7: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/7.jpg)
BayesBayes, , Perceptron Perceptron e Classificaçãoe ClassificaçãoDados em duas classes CDados em duas classes C11 e Ce C22 são geradossão geradosa partir de duas Gaussianas centradas em ma partir de duas Gaussianas centradas em m11 e me m22. Assim:. Assim:
Utilizando o Teorema de Utilizando o Teorema de BayesBayes::
( )1 / 2 1/ 2
1 1( ) exp ( )22 ( )dP C
Detπ⎧ ⎫= − ⋅⎨ ⎬⎩ ⎭
-11 1x x -m Σ (x -m )
Σ
1 11
1 1 2 2
( ) ( )( )
( ) ( ) ( ) ( )P x C P C
P C xP x C P C P x C P C
=+
![Page 8: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/8.jpg)
BayesBayes, , Perceptron Perceptron e Classificaçãoe Classificação
Assumindo a seguinte forma para o posterior P(C1|x):
Retomando o Perceptron:
1
1 1
2 2
1( ) ( )1
( ) ( )ln
( ) ( )
aP C x g ae
P x C P Ca
P x C P C
−= =+
⎡ ⎤≡ ⎢ ⎥
⎣ ⎦
1( | )j jj
y g w x P C xμ⎛ ⎞
= + =⎜ ⎟⎝ ⎠∑
![Page 9: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/9.jpg)
BayesBayes, , Perceptron Perceptron e Classificaçãoe Classificação
Retomando o Perceptron:
Com
1( | )j jj
y g w x P C xμ⎛ ⎞
= + =⎜ ⎟⎝ ⎠∑
1
2
( )
1 1 ( )log2 2 ( )
P CP C
μ
=
⎛ ⎞= − ⋅ + ⋅ + ⎜ ⎟
⎝ ⎠
-11 2
-1 -11 2 1 2
w Σ m -m
m Σ m m Σ m
![Page 10: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/10.jpg)
Modelos HierárquicosModelos Hierárquicos
Dados D são produzidos por um processo estocástico com
parâmetros w , P(D|w).
Os parâmetros w são, por sua vez, produzidos por um processo estocástico com hiperparâmetros α , P(w| α).
A hierarquia pode continuar indefinidamente ...
... inclusive acomodando diversas hipóteses a serem testadas H1 , H2 ,
..., HN e seus respectivos graus de plausibilidade P(w,α|Hk).
![Page 11: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/11.jpg)
Inferência de ParâmetrosInferência de Parâmetros
Dado um conjunto de dados Dado um conjunto de dados D e D e um modelo um modelo HHii , , encontrar os encontrar os parparââmetros mais provmetros mais provááveis veis ww** ..
DeveDeve--se minimizar a funse minimizar a funçãção o ““erroerro”” a seguir a seguir
( | , ) ( | )( | , )( | )
i ii
i
P D H P HP D HP D H
=w ww
max
( ) ln ( | , )ln ( | , ) ln ( | )
i
i i
verossimilhança conhecimento a priori
E P D HP D H P H cte
= − == − − +
w ww w
![Page 12: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/12.jpg)
Ex: Ex: Perceptron Perceptron ContínuoContínuo
: ( , ) ( )iH y x g x= ⋅w w 0
1
, (0, )
{( , )}Nn n n
t t N
D x t
ε ε σ
=
= +
=
∼
[ ]
1
2
22
2
1
1( | ) ( | , ) ( | )
[ ( , ) ]1( | , ) exp22
1( ) ( , )2
N
n n in i
n nn n
N
n nn
P D P t x P H
y x tP t x
E y x t
σπσ
=
=
= =Ω
⎧ ⎫−= −⎨ ⎬
⎩ ⎭
= −
∏
∑
w w w
ww
w w
![Page 13: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/13.jpg)
Intervalos de ConfiançaIntervalos de Confiança
ln ( | , ) ln ( * | , ) ( *) *1 ( *) *( *)2
i iP D H P D H E≈ − − ∇
− − ⋅ −
w w w w
w w H w w
1( | , ) ( * | , ) exp ( *) *( *)2i iP D H P D H ⎡ ⎤≈ − − ⋅ −⎢ ⎥⎣ ⎦
w w w w H w w
-2-1
01
2
-2-1
01
20
0.2
0.4
0.6
0.8
![Page 14: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/14.jpg)
Inferência de Inferência de HiperparâmetrosHiperparâmetros
1
1
{ , } { }
( ) ( )
: ( ) (0, )
Km m j j
K
j jj
m m
D x t H g
y x w g x
Ruido t y x Nε ε σ
=
=
= =
=
= +
∑∼
![Page 15: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/15.jpg)
HiperparâmetroHiperparâmetro da Verossimilhançada Verossimilhança
[ ]1( | , , , ) exp ( | , )( ) D
D
P D H Ruido E D HZ
β ββ
= −w w
( )2 2
2 21
1 1( | , , , ) exp ( )2 2
NN
m mm
PD H Ruido y x tβπσ σ =
⎡ ⎤⎛ ⎞= − −⎜ ⎟ ⎢ ⎥⎝ ⎠ ⎣ ⎦∑w
2
1βσ
=
![Page 16: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/16.jpg)
Hiperparâmetro Hiperparâmetro da Distribuição a Priorida Distribuição a Priori
[ ]{ }
[ ]
[ ]
2
1
, 1
1( | , ) exp ( )( )
: ( ) ( )
1( | , , ) exp ( | , )( )
(
( ) exp ( | ,
| , ) ( )
)
( )
W
y
K
j jj
WW
K
W j ii
W
j ij
P y R dx y xZ
H y x w g x
P H R E H RZ
E H R w w dx g x g
d E H R
x
Z
α αα
α α
α α
α
=
=
′′= −
′′ ′′=
= −
′′ ′=
=
′
−
∫
∑
∫
∑ ∫
w w
w
w w
![Page 17: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/17.jpg)
Estimação de Estimação de hiperparâmetroshiperparâmetros
Pr
( | , , ) ( , | )( , | , )( | )
ior flatverossimilhança
Evidencia
P D H P HP D HP D H
α β α βα β =
( , )( | , , )( ) ( )E
D W
ZP D HZ Z
α βα ββ α
=
( *, *) arg max ( , | , )P D Hα β α β=
![Page 18: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/18.jpg)
Seleção de ModelosSeleção de Modelos
( | ) ( | ) ( )i i iP H D P D H P H∝
Não há necessidade de normalização já que sempre podemos introduzir um novo modelo para comparação
com os demais.
Maximiza-se a evidência
![Page 19: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/19.jpg)
Navalha de Navalha de OccamOccamEntre modelos de mesma capacidade explicativa o mais Entre modelos de mesma capacidade explicativa o mais simples deve ser preferido.simples deve ser preferido.
Ω D
( )P D prior
1( | )P D H2( | )P D H
![Page 20: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/20.jpg)
Avaliando a EvidênciaAvaliando a Evidência
max
( | ) ( | , ) ( | )
( | ) ( | *, ) ( * | )i i i
i i i
Evidencia verossimilhança Fator de Occam
P D H d P D H P H
P D H P D H P H
=
Δ∫ w w w
w w w
D
. . jF OΔ
=Δ 0
ww
0Δw
1Δw2Δw
![Page 21: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/21.jpg)
Aproximação para a EvidênciaAproximação para a Evidência
/ 2
( | ) ( | , ) ( | )
1( | ) ( | *, ) ( * | ) exp ( *) ( *)2
( | *, ) ( * | ) (2 ) ( )
i i i
i i i
Ki i
Fator de Occam
P D H d P D H P H
P D H P D H P H d
P D H P H Det Hπ
=
⎡ ⎤− − ⋅ −⎢ ⎥⎣ ⎦
=
∫
∫
w w w
w w w w w H w w
w w
![Page 22: Redes Neurais: Técnicas Bayesianas](https://reader038.vdocuments.pub/reader038/viewer/2022103018/559e572f1a28abad208b462d/html5/thumbnails/22.jpg)
BibliografiaBibliografia
David MacKay, Information Theory, Inference, and Learning Algorithms (http://wol.ra.phy.cam.ac.uk/mackay/)
David MacKay, Bayesian Methods for Adaptive Models (http://wol.ra.phy.cam.ac.uk/mackay/)
Differential Geometry in Statistical Inference
(Ims Lecture Notes-Monograph Ser.: Vol. 10)by S. Amari