다중 레이블을 이용한 ccn 이미지 어노테이션시스템 개선
TRANSCRIPT
다중 레이블 이미지를 활용한 CNN기반 이미지어노테이션 시스템의 개선
김택수 , 김상범 네이버[email protected], [email protected]
제27회 한글 및 한국어 정보처리 학술대회 논문집 (2015년)
발표 자료 박천덕 한림대학교
요약• 제목을 간단히 하면
– 다중 레이블 이미지를 활용한 CNN기반 이미지 어노테이션 시스템의 개선 ( x )
– 딥러닝을 이용한 자동 태그 생성 알고리즘 ( o )
• 데이터? SNS 인스타그램, 해시태그(#)!
• 학습 알고리즘 분리– 단 한 개의 해시 태그일 때
– 여~러개의 해시 태그일 때 다르게 학습
레이블 시스템
• 뉴럴 네트워크를 이용해 구한 레이블 확률
– 어노테이션 예측
네트워크 구조
• 입력 : 컬러 이미지 (224x224x3)
• 출력 : 100개의 레이블 확률
– {0.0001 , 0.002 , 0.003 , … 0.7, 0.11 }
태그
• SNS에서 사진을 대표하는 단어
태그s
네트워크 구조 변경
선택적 학습 방법• 왼쪽) 해시 태그 여러 개 : W1, W2 모두 학습
• 오른쪽) 해시 태그 한 개 : W1 만 학습
• 녹색 중간 층 : 1,000 개 노드
• 마지막 층 : 22,808 개 노드
학습• 데이터
– 40만장의 SNS이미지(다중 레이블)
– 380개 클래스의 34,221장(단일 레이블)
• 파라미터 FineTuning1. 기존 AlexNet에서 학습시킨 가중치 사용 (Caffe Zoo model)
• 학습률을 0으로 두어 변경시키지 않음
2. 다중 레이블 데이터 학습(W1,W2 모두 학습)
3. 단일 레이블 데이터 학습(W1만 학습, W2 고정)
성능
• hit@k
– 평가 이미 지에 대한 상위 k개의 어노테이션 중 정답이 존재한 비율
• #뉴욕 #우드버리 #아울렛 #생로랑 #가방 #갖고싶다 #탐난다 #비싸다
성능
• 단일 레이블 학습 데이터가 성능을 높이게 도와주었다
– 단일 레이블은 이미지를 대표하는 단어이기 때문