oct.7, 2016 less-forgetting learning in deep ......less-forgetting learning in deep neural networks...

24
SEOUL | Oct.7, 2016 Heechul Jung, 7 th October 2016 KAIST (Prof. Junmo Kim) DGIST (미래자동차융합연구센터) (email: [email protected]) LESS-FORGETTING LEARNING IN DEEP NEURAL NETWORKS Jung, Heechul, et al. "Less-forgetting Learning in Deep Neural Networks." arXiv preprint arXiv:1607.00122 (2016).

Upload: others

Post on 05-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • SEOUL | Oct.7, 2016

    Heechul Jung, 7th October 2016

    KAIST (Prof. Junmo Kim)

    DGIST (미래자동차융합연구센터)

    (email: [email protected])

    LESS-FORGETTING LEARNING IN DEEP NEURAL NETWORKS

    Jung, Heechul, et al. "Less-forgetting Learning in Deep Neural Networks." arXiv preprint arXiv:1607.00122 (2016).

  • 2

    FORGETTING PROBLEMFine-tuning

    10/11/2016

    ImageNetDataset

    1. Training using ImageNet dataset.

    2. Re-training using new data with same classes(e.g. webcam data)

    3. DNNs forget ImageNet dataset.

  • 3

    CATASTROPHIC FORGETTING PROBLEM

    Catastrophic forgetting

    Task1에대한학습후, 새로운 task(task2)에대한추가학습

    →모델이기학습한내용(task1)을잃어버린다.

    Catastrophic forgetting을최소화할수있는 activation function 존재?

  • 4

    TOY EXAMPLE

    CIFAR-10 dataset

    60000 32x32x3

    총 10 classes, 50000 학습, 10000 테스트

    10ImageTwo locally connected

    layers3x3x644

  • 5

    EXPERIMENT #1

    학습데이터를 40000 (그룹1), 10000 (그룹2) 두그룹으로구성

    그룹1로네트워크학습 (테스트는그룹2)

    학습된파라미터(weights)를 initial weights로하여그룹2를다시학습

    Error-rate Error-rate

    16.97

    14.97

    Training error : 8 59

    5

  • 6

    WHY?

    새로운 dataset 의 사이즈가 너무 작아 새로운 dataset에 적응하면서generalization의 능력을 잃어버림.

    Error-rate Error-rate

    6

  • 7

    EXPERIMENT #2

    학습데이터를 30000 (그룹1), 30000 (그룹2) 두그룹으로구성

    그룹1로네트워크학습 (테스트는그룹2)

    학습된파라미터(weights)를 initial weights로하여그룹2를다시학습

    Error-rate Error-rate

    14.62

    20

    Training error : 9 08

    7

  • 8

    EXPERIMENT #3

    학습데이터를 30000 (그룹1), 40000 (그룹2) 두그룹으로구성 (교집합 10000장)

    그룹1로네트워크학습 (테스트는그룹2)

    학습된파라미터(weights)를 initial weights로하여그룹2를다시학습

    Error-rate Error-rate

    14.04 14.62

    Training error : 9 08

    8

  • 9

    OBSERVATION

    • 일반 Fine-tuning은 새로운 데이터셋으로 학습시 기존의 데이터셋의성능이 저하되는 문제가 있음.

    • 기존의 데이터와 새로운 데이터가 많이 다르지 않고, 양이 많다면성능이 덜 저하됨.

    • 또한, 기존 데이터 중 일부를 이용할 수 있다면 좀더 성능 저하를 막을수 있음.

    ⇒성능저하를최대한줄이면서새로운 dataset에적응할수있는학습방법필요 (기존 data의최소한의활용)

    9

  • 10

    GOAL

    • Incremental learning.

    • 하나의 네트워크로 여러가지 기능을 수행할 수 있는 unified network 구성이 가능.

    2016-10-11

    or Output

    • 이전 데이터셋을 다시 학습하지 않고, 새로운 데이터셋으로 Fine-tuning 후에도 기존의 데이터셋에 대해 인식률 저하가 일어나지않는 기법 개발.

  • 11

    AUTONOMOUS DRIVING

    수동 driving 시에 운전자의 운전 정보를 이용하여 실시간 학습 가능

    2016-10-11

  • 12

    LESS FORGETTING LEARNING

    새로운 내용을 학습하더라도 기존에 학습한 것을 덜잊어버리도록 하는 learning 기법.

    1. Source data : 기존 환경의 data

    2. Target data : 새로운환경의 data

    3. Source network : 기존환경에대해 학습한네트워크

    4. Target network : 새환경에 대해학습할 네트워크

  • 13

    NEW LEARNING SCHEMEFOR FORGETTING LESS

    Property 1. target data를 학습하고 난 후에도 decision boundary가 변하지 않아야 함.

    Property 2. Target network에서 추출된 source data의 high level feature들이 같은 클래스의 source feature들과 feature space에서 비슷한 위치에 분포하여야 함.

    Source data에 접근할 수 없음.

  • 14

    NEW LEARNING SCHEME

    • Property 1 구현 : softmax layer의 weights를 freezing• Property 2 구현 : 두 가지 loss function을 정의

    • Softmax loss• Euclidean loss

    • Input layer에 Target data가 입력됨.

  • 15

    CIFAR 10 FEATURE VISUALIZATION• 같은색깔은같은클래스를나타내며, 원모양은 source data의 feature이며, 별모양은

    target data의 feature를나타낸다

  • 16

    INPUT (32x32x3)

    CONV1 (5x5x32)

    POOL1 (3x3)

    RELU1

    CONV2 (5x5x32)

    RELU2

    POOL2

    CONV3 (5x5x64)

    RELU3

    POOL3 (3x3)

    FC1 (200)

    RELU4

    FC2 (10)

    EXPERIMENTAL RESULTS #11. 총 60,000장의영상중 50,000장은 training, 10,000장은 test. 2. training data는다시 40,000장과 10,000장으로나눈후 10,000장에대해서는 grayscale 영상으로변환.

    3. test set 10,000장을 gray scale로변환하여두종류(컬러, grayscale)의test set을제작.

    4. 채널이다른 data를같은 network에 test하기위해 grayscale의channel을임의로 3으로늘려서실험.

  • 172016-10-11

  • 18

    REALISTIC DATASET (IMAGENET)

    기존 데이터셋: ImageNet Dataset 클래스당 약 1200장새 데이터셋: 밝기가 밝거나 어두운 영상 클래스당 약 100장

    RGB pixel 값의전체 sum이일정 threshold보다크거나낮은영상

    기존데이터셋 새데이터셋

  • 19

    EXPERIMENTAL RESULTS #250개 기준-Class 선정

    menu fireboat tiger steam locomotive mountain bike

    dining table crash helmet go-kart school bus airliner

    odometer parachute radio telescope planetarium bell pepper

    desktop computer oscilloscope marimba photocopier gondola

    cheetah car mirror garbage truck freight car carbonara

    lion bullet train typewriter keyboard cheeseburger container ship

    dalmatian volleyball hot pot mosquito net vending machine

    snowmobile disk brake scoreboard hourglass lifeboat

    orange canoe ambulance snowplow broccoli

    hamster slot mountain tent screw dishrag

  • 20

    EXPERIMENTAL RESULTS #2

    • Softmax output 개수를 50개로 바꾼 GoogleNet를 기본 Network으로이용.

    • Original GoogleNet에서는 총 세 개의 loss function을 사용하지만 본실험에서는 가장 최상위의 loss function만 남기고 하위 layer에 있는loss function은 제거.

    2016-10-11

    Top-1 정확도 GoogleNet 영상수

    기존_test 85.53 5978

    새로운_test 76.44 505

    Total 84.82 6483

    Total (0.5) 80.985 6483

    기존데이터셋(source data) 에대한학습결과

  • 21

    Top-1 정확도 Transfer Proposed (0.001) Proposed (0.0001) 영상수

    기존_test 78.99 85.05 83.99 5978

    새로운_test 86.73 84.55 86.73 505

    Total 79.59 85.01 84.2 6483

    Total (0.5) 82.86 84.8 85.36 6483

    기존데이터셋으로학습한후, 새데이터셋으로학습한결과

    EXPERIMENTAL RESULTS #2

  • 22

    CONCLUSION

    • 제안 기법은 기존에 학습된 데이터를 보지 않고도, 새로운환경에 적응하면서 동시에 기존 환경에 대한 정보도 잘보존함.

    • 제안 기법은 일반 fine-tuning 기법의 단점을 개선하는효과를 보였음.

    • 기존 데이터 셋을 필요로 하지 않는 학습 기법으로써 메모리사용 및 학습 속도에 장점이 있음.

  • 23

    DISCUSSION

    • 일반적인 training 과정에서도 forgetting 현상 발생?

    2016-10-11

  • SEOUL | Oct.7, 2016

    THANK YOU

    Less-forgetting learning in deep neural networksForgetting ProblemCatastrophic forgetting problemToy exampleExperiment #1Why?Experiment #2Experiment #3ObservationgoalAutonomous drivingLess Forgetting LearningNew Learning Scheme�for forgetting lessNew Learning SchemeCIFAR 10 Feature VisualizationExperimental Results #1슬라이드 번호 17Realistic dataset (Imagenet)Experimental Results #2Experimental Results #2Experimental Results #2ConclusionDiscussionThank you