2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

26
Web Archiving 2010. 6. 3 최 최 최

Upload: glorykim

Post on 26-Dec-2014

986 views

Category:

Education


8 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

Web Archiving

2010. 6. 3최 명 석

Page 2: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

2

웹 기록물

정 의공공기관에서 운영 · 관리하는 홈페이지 등 웹사이트에 포함된모든 형태의 기록정보와 관련 문서, 매뉴얼 등을 말함

보존 방안

공공 Web

Access

생성

소멸

Archiving

Format

현재 Data (접근)

Old Data

※ 소멸되기 전 웹 기록물을 자동 수집하여 보존포맷 변환을

통해 보존·서비스

웹기록 자동수집기

자동수집

대 상

콘텐츠

CSS

플래쉬

자바 스크립트

메타정보

HTML

AJAX

통계정보

해외 사례PANDORA

미국 의회도서관

국제 프로그램

호주

영국 TNA UK Government Web Archive

MINERVA

IIPC, Internet Archive

IIPC : International Internet Preservation Consortium

Way Back (1)

( 이규철 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

Page 3: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

3

Way Back (2)

( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

Page 4: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

4

Way Back (3)

( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

Page 5: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

5

Way Back (4)

( 노경란 , 아카이빙 TF 이슈토론 3 차 , 2010. 05. 26)

Page 6: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

6

Web (1)

지속적인 수정과 삭제가 발생하는 휘발성

하이퍼링크 기반의 불연속적인 연결로 이루어진 불연속성

복제와 전송이 용이하여 여러 가지 형태로 증가하는 증식성

텍스트 / 이미지 / 오디오 등 동시에 존재할 수 있는 다양성

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

Page 7: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

7

Web (2)

정적 웹사이트와 웹자원

서식에 기반한 상호작용이 있는 정적 웹사이트와 웹자원

동적 데이터 접근에 기반한 웹사이트와 웹자원

동적으로 생성된 웹사이트와 웹자원

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

( 호주 국립기록보존소 )

Page 8: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

8

Web (3)

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

표면웹 (Surface Web) 은 현재 15 억 개의 웹페이지 정도이지만 ,

중요한 내용을 담고 있지만 접근이 불가한 심층웹 (Deep Web*) 은

무려 5500 억 개에 달한다고 한다 .

* Invisible Web, Dr. Jill Ellsworth(1994)

Page 9: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

9( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

Page 10: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

10

Web (4)

일반적인 웹페이지의 수명은 평균 75 일이고

30% 가 조금 넘는 URL 들만이 1 년 이상 유지되는 것으로조사된 바 있다 . (Lawrence 2001; Koehler 2004)

단행본 책의 경우 한 장에서 인용된 웹문서의 약 65% 는

1 년 안에 사라지거나 URL 이 변경되며 ,

한 학술지 논문이 인용된 웹 문서의 50% 는 논문이 발행되기도 전에원래의 위치에 변동이 생긴다 (Charlesworth 2003b)

Page 11: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

11

Page 12: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

12

( 표면 ) 웹 아카이빙의 어려움

• 자바스크립트 또는 플래쉬와의 관계• 크롤러의 제약사항• 로그인 후 가져와야 하는 데이터들• 데이터베이스로부터 생성된 동적인 페이지 정보• 접근이 되지 않는 페이지들의 존재

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

Page 13: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

13

웹 아카이빙의 유형

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

Page 14: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

14

웹 아카이빙의 특성 비교

( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)

Kulturarw

Internet Archive

Minerva

프랑스 국립도서관노르웨이

Page 15: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

15

프랑스 국립도서관 사례

( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)

Page 16: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

16

국회도서관 사례

• 입법관련 304 개 기관 (325 개 웹사이트 ) 대상– 평균 3 depth– 구성포맷 : html, jpeg, gif 등– 콘텐츠 유형 : flash, pdf, MS office, java applets,

php, jsp, asp, 스트리밍 미디어 등– 정보유형 : 게시형 / 웹보드 / 등록 / 검색 등– 원격 하베스팅 방식– 수집주기

• 입법활동기관과 입법활동 지원 기관 : 기본 1 년• 국회의원 웹사이트 : 기본 2 년

( 정은진 , 국회 각 기관 웹사이트 아카이빙 방안 연구 , 2009)

Page 17: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

17

웹 아카이빙 도구

• Remote Harvesting– Hertrix: Internet Archive– NEDLIB Harvester( 유럽 도서관 ), HTTrack, Wget

• On-demand– WebCite, Archive-It, Hanzo Archives, BackupURL.-

com, freezePAGE snapshots, Website-Archive.com, Iterasi

• Datebase Archiving– DeepArc( 프랑스 국립도서관 ), Xinq( 호주 국립도서관 )

• Transactional Archiving– PageVault, Vignette WebCapture

(Web Archiving in Wikipedia)

Page 18: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

18

저작권

미국의 1998 년 디지털 밀레니엄 저작권법 (Digital Millennium Copyright Act) 과유럽연합의 2001 년 저작권 지침 (Copyright Directive 2001/29/EC) 은

저작권자의 허가 없이 디지털 저작물을 복제하는 것을불법으로 규정하고 있는 것뿐만 아니라 ,

저작권자가 복제 방지를 위해 저작물에 설치한

어떠한 기술적 통제를 제거하거나 우회하는 것조차도범죄 행위로 규정하고 있다 .

Page 19: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

19

웹 정보자원의 납본 법제화

• 캐나다 , 덴마크 , 프랑스 , 독일 , 노르웨이 , 남아프리카공화국 , 스웨덴 , 영국 , 아이슬란드 등– 납본의 대상을 기존의 오프라인 매체에서 온라인

정보자원으로 확대– 그 권한과 책임을 국립도서관에 위임

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

Page 20: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

20

아카이빙 대상

• 웹기록물– 기록의 속성 ( 내용 , 구조 , 맥락 ) 을 통한 증거능력을

확보할 수 있는 특징을 가진웹사이트

– 공공기관의 특성상진본성 제공이 중요

Page 21: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

21

1. Twitter feeds—all of them

2. National Election Candidates’ Internet Presences

3. Facebook Pages—A Selective Few

4. Notable Historical Events

5. News Sites That Give Permission

Page 22: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

22

Page 23: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

23

Page 24: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

24

Page 25: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

25

Page 26: 2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

26

시사점

• 대상 분석을 통한 설득력 있는 실례 발굴 필요– 공공기관의 웹 기록물 아카이빙

• 납본 ( 법제화 ) 필요– Deep Web 에 중점을 둔 복합적 웹 아카이빙

• 저작권 및 개인정보에 대한 고려– 기초기술연구회를 통한 대상기관과의 협약 체결