2010 0603 최명석_웹 아카이빙-글꼴포함-20100602

Post on 26-Dec-2014

986 Views

Category:

Education

8 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Web Archiving

2010. 6. 3최 명 석

2

웹 기록물

정 의공공기관에서 운영 · 관리하는 홈페이지 등 웹사이트에 포함된모든 형태의 기록정보와 관련 문서, 매뉴얼 등을 말함

보존 방안

공공 Web

Access

생성

소멸

Archiving

Format

현재 Data (접근)

Old Data

※ 소멸되기 전 웹 기록물을 자동 수집하여 보존포맷 변환을

통해 보존·서비스

웹기록 자동수집기

자동수집

대 상

콘텐츠

CSS

플래쉬

자바 스크립트

메타정보

HTML

AJAX

통계정보

해외 사례PANDORA

미국 의회도서관

국제 프로그램

호주

영국 TNA UK Government Web Archive

MINERVA

IIPC, Internet Archive

IIPC : International Internet Preservation Consortium

Way Back (1)

( 이규철 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

3

Way Back (2)

( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

4

Way Back (3)

( 박진호 , 아카이빙 TF 2 차세미나 , 2010. 04. 07)

5

Way Back (4)

( 노경란 , 아카이빙 TF 이슈토론 3 차 , 2010. 05. 26)

6

Web (1)

지속적인 수정과 삭제가 발생하는 휘발성

하이퍼링크 기반의 불연속적인 연결로 이루어진 불연속성

복제와 전송이 용이하여 여러 가지 형태로 증가하는 증식성

텍스트 / 이미지 / 오디오 등 동시에 존재할 수 있는 다양성

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

7

Web (2)

정적 웹사이트와 웹자원

서식에 기반한 상호작용이 있는 정적 웹사이트와 웹자원

동적 데이터 접근에 기반한 웹사이트와 웹자원

동적으로 생성된 웹사이트와 웹자원

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

( 호주 국립기록보존소 )

8

Web (3)

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

표면웹 (Surface Web) 은 현재 15 억 개의 웹페이지 정도이지만 ,

중요한 내용을 담고 있지만 접근이 불가한 심층웹 (Deep Web*) 은

무려 5500 억 개에 달한다고 한다 .

* Invisible Web, Dr. Jill Ellsworth(1994)

9( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

10

Web (4)

일반적인 웹페이지의 수명은 평균 75 일이고

30% 가 조금 넘는 URL 들만이 1 년 이상 유지되는 것으로조사된 바 있다 . (Lawrence 2001; Koehler 2004)

단행본 책의 경우 한 장에서 인용된 웹문서의 약 65% 는

1 년 안에 사라지거나 URL 이 변경되며 ,

한 학술지 논문이 인용된 웹 문서의 50% 는 논문이 발행되기도 전에원래의 위치에 변동이 생긴다 (Charlesworth 2003b)

11

12

( 표면 ) 웹 아카이빙의 어려움

• 자바스크립트 또는 플래쉬와의 관계• 크롤러의 제약사항• 로그인 후 가져와야 하는 데이터들• 데이터베이스로부터 생성된 동적인 페이지 정보• 접근이 되지 않는 페이지들의 존재

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

13

웹 아카이빙의 유형

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

14

웹 아카이빙의 특성 비교

( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)

Kulturarw

Internet Archive

Minerva

프랑스 국립도서관노르웨이

15

프랑스 국립도서관 사례

( 김유승 , 복합적 웹 아카이빙 정책에 관한 고찰 , 2008)

16

국회도서관 사례

• 입법관련 304 개 기관 (325 개 웹사이트 ) 대상– 평균 3 depth– 구성포맷 : html, jpeg, gif 등– 콘텐츠 유형 : flash, pdf, MS office, java applets,

php, jsp, asp, 스트리밍 미디어 등– 정보유형 : 게시형 / 웹보드 / 등록 / 검색 등– 원격 하베스팅 방식– 수집주기

• 입법활동기관과 입법활동 지원 기관 : 기본 1 년• 국회의원 웹사이트 : 기본 2 년

( 정은진 , 국회 각 기관 웹사이트 아카이빙 방안 연구 , 2009)

17

웹 아카이빙 도구

• Remote Harvesting– Hertrix: Internet Archive– NEDLIB Harvester( 유럽 도서관 ), HTTrack, Wget

• On-demand– WebCite, Archive-It, Hanzo Archives, BackupURL.-

com, freezePAGE snapshots, Website-Archive.com, Iterasi

• Datebase Archiving– DeepArc( 프랑스 국립도서관 ), Xinq( 호주 국립도서관 )

• Transactional Archiving– PageVault, Vignette WebCapture

(Web Archiving in Wikipedia)

18

저작권

미국의 1998 년 디지털 밀레니엄 저작권법 (Digital Millennium Copyright Act) 과유럽연합의 2001 년 저작권 지침 (Copyright Directive 2001/29/EC) 은

저작권자의 허가 없이 디지털 저작물을 복제하는 것을불법으로 규정하고 있는 것뿐만 아니라 ,

저작권자가 복제 방지를 위해 저작물에 설치한

어떠한 기술적 통제를 제거하거나 우회하는 것조차도범죄 행위로 규정하고 있다 .

19

웹 정보자원의 납본 법제화

• 캐나다 , 덴마크 , 프랑스 , 독일 , 노르웨이 , 남아프리카공화국 , 스웨덴 , 영국 , 아이슬란드 등– 납본의 대상을 기존의 오프라인 매체에서 온라인

정보자원으로 확대– 그 권한과 책임을 국립도서관에 위임

( 차승준 , 공공기관 심층 웹기록물 아카이빙을 위한 메타데이터 설계 , 2009)

20

아카이빙 대상

• 웹기록물– 기록의 속성 ( 내용 , 구조 , 맥락 ) 을 통한 증거능력을

확보할 수 있는 특징을 가진웹사이트

– 공공기관의 특성상진본성 제공이 중요

21

1. Twitter feeds—all of them

2. National Election Candidates’ Internet Presences

3. Facebook Pages—A Selective Few

4. Notable Historical Events

5. News Sites That Give Permission

22

23

24

25

26

시사점

• 대상 분석을 통한 설득력 있는 실례 발굴 필요– 공공기관의 웹 기록물 아카이빙

• 납본 ( 법제화 ) 필요– Deep Web 에 중점을 둔 복합적 웹 아카이빙

• 저작권 및 개인정보에 대한 고려– 기초기술연구회를 통한 대상기관과의 협약 체결

top related