chapter 4: artificial neural networks. artificial neural network(ann) general, practical method for...
Post on 18-Jan-2016
241 Views
Preview:
TRANSCRIPT
Chapter 4: Artificial Neural Networks
Artificial neural network(ANN) General, practical method for
learning real-valued, discrete-valued, vector-valued functions from examples
BACPROPAGATION 알고리즘 Use gradient descent to tune
network parameters to best fit a training set of input-output pairs
ANN learning Training example 의 error 에 강하다 . Interpreting visual scenes,
speech recognition, learning robot control strategy
Biological motivation 생물학적인 뉴런과의 유사성
병렬 계산 (parallel computing) 분산 표현 (distributed
representation)
생물학적인 뉴런과의 차이점 처리 단위 ( 뉴런 ) 의 출력
ALVINN system
신경망 학습에 적합한 문제
학습해야 하는 현상이 여러 가지 속성에 의해 표현되는 경우
출력 결과는 문제에 적당한 종류의 값을 가질 수 있다 .
학습 예제에 에러 (noise) 가 존재할 가능성
긴 학습 시간 학습 결과의 신속한 적용 학습된 결과를 사람이 이해하는 것이
필요없는 경우
Perceptrons
vector of real-valued input weights & threshold learning: choosing values for
the weights
Perceptron learning 의 hypotheses space
n: input vector 의 차수
}|{ )1( nwwH
Perceptron 의 표현력
linearly separable example 에 대한 hyperplane decision surface
many boolean functions(XOR 제외 ) m-of-n function disjunctive normal form: 복수의 unit
Perceptron rule
유한번의 학습 후 올바른 가중치를 찾아내려면 충족되어야 할 사항 training example 이 linearly
separable 충분히 작은 learning rate
Gradient descent &Delta rule
for non-linearly separable unthresholded od 는 w 에 대한 함수값
Hypethesis space
Gradient descent
gradient: steepest increase in E
Dd
idddi xotw )(
Gradient descent(cont’d)
Training example 의 linearly separable 여부에 관계없이 하나의 global minimum 을 찾는다 .
Learning rate 가 큰 경우 overstepping 의 문제 -> learning rate 를 점진적으로 줄이는 방법을 사용하기도 한다 .
Stochastic approximation to gradient descent
Gradient descent 가 사용되기 위해 hypothesis space is
continuously parameterized error 가 hypothesis parameter 에
의해 미분 가능해야 한다 . Gradient descent 의 단점
시간이 오래 걸린다 . 다수의 local minima 가 존재하는
경우
Stochasticapproximation togradient descent(cont’d) 하나의 training example 을
적용해서 E 를 구하고 바로 weight 를 갱신한다 .
실제의 descent gradient 를 추측 보다 낮은 learning rate 를 사용 multiple local minima 를 피할
가능성이 있다 . Delta rule
ii xotw )(
Remark Perceptron rule
thresholded output 정확한 weight linearly separable
Delta rule unthresholded output 점근적으로 에러를 최소화하는 weight non-linearly separable
Multilayer networks
Nonlinear decision surface
Differential threshold unit
Sigmoid function nonlinear, differentiable
x21
x2
x3
w23
w22
w21
w12
w22
w32
net1
net2
net3
o1
o2
o3
o1
o2
o3
x22
x23
x1
i j(h) k
net1
net2
net3
BACKPROPAGATION알고리즘
새로운 error 의 정의
Dd outputsk
kdkd otwE 2)(2
1)(
BACKPROPAGATION알고리즘 (cont’d)
Multiple local minima
Termination fixed number of iteration error threshold error of separate validation set
BACKPROPAGATION알고리즘 (cont’d)
Adding momentum 직전의 loop 에서의 weight 갱신이
영향을 미침
Learning in arbitrary acyclic network downstream(r)
)1()( nwxnw jijijji
)(
)1(rDownstreamsssrrrr woo
BACKPROPAGATION rule
ji
dji w
Ew
outputsk
kkd otwE 2)(2
1)(
jij
d
ji
j
j
d
ji
d xnet
E
w
net
net
E
w
E
BACKPROPAGATION rule(cont’d)
Training rule for output unit
j
j
j
d
j
d
net
o
o
E
net
E
outputskkk
jj
d otoo
E 2)(2
1
)()(
)(22
1)(
2
1 2jj
j
jjjjjj
jj
d oto
ototot
oo
E
)1()(
jjj
j
j
j oonet
net
net
o
jijjjjji
dji xooot
w
Ew )1()(
x21
x2
x3
w23
w22
w21
w12
w22
w32
net1
net2
net3
o1
o2
o3
o1
o2
o3
x22
x23
x1
i j(h) k
net1
net2
net3
BACKPROPAGATION rule(cont’d)
Training rule for hidden unit
)(
)()(
)()(
)1(
jDownstreamkjjkjk
jDownstreamk j
jkjk
jDownstreamk j
j
j
kk
jDownstreamk j
kk
jDownstreamk j
k
k
d
j
d
oow
net
ow
net
o
o
net
net
net
net
net
net
E
net
E
)(
)1(jDownstreamkkjkjjj woo
Convergence and local minima
Only guarantee local minima This problem is not severe
Algorithm is highly effective the more weights, the less local
minima problem weight 는 처음에 0 에 가까운 값으로
초기화 해결책
momentum, stochastic, 복수의 network
Feedfoward network 의 표현력
Boolean functions with two layers disjunctive normal form 하나의 입력에 하나의 hidden unit
Continuous functions(bounded) with two layers
Arbitrary functions with three layers linear combination of small
functions
Hypothesis space search continuous -> distinct 보다 유용
Inductive bias characterize 의 어려움 완만한 interpolation
Hidden layer representation
입력값 들의 특성을 스스로 파악해서 hidden layer 에 표현하는 능력이 있다 .
사람이 미리 정해 준 feature 만을 사용하는 경우보다 유연하며 미리 알 수 없는 특성을 파악하는데 유용하다 .
Generalization, overfitting, stopping criterion
Terminating condition error threshold 는 위험
Generalization accuracy 의 고려
Weight decay Validation data Cross-validation approach K-fold cross-validation
Face recognition
for non-linearly separable unthresholded od 는 w 에 대한 함수값
Input image:120*128 ->30*32 계산상의 복잡도 감소 mean value(cf, ALVINN)
1-of-n output encoding many weights 모호성 해소에 도움 <0.9, 0.1, 0.1, 0.1>
2 layers, 3 units -> 90% success learned hidden units
Alternativce error functions
Weight-tuning rule 에 새로운 제약조건을 첨가하기 위해 사용
Penalty term for weight magnitude reducing the risk of overfitting
Derivative of target function Minimizing cross-entropy
for probabilistic function Weight sharing
speech recognition
Dd
dddd otot )1log()1(log
Alternative error minimization procedures
Line search direction: same as
backpropagation distance: minimum of the error
function in this line very large or very small
Conjugate gradient new direction: component of
the error gradient remains zero
Recurrent networks
Dynamically modifying network structure
목적 : 일반화의 정확도와 학습 효율의 향상
확장 (without hidden unit) CASCADE-CORRELATION 학습 시간 단축 , overfitting 문제
축소 “optimal brain damage”
학습 시간 단축
top related