고려대 교육정보서비스 시스템 4-5주

35
고려대학교 정보대학 컴퓨터학과 Prof. 강장묵 ([email protected] ; [email protected]) 교육정보 서비스 특론 4 주; 교육정보서비스로 벤치마킹 또는 토 의할 우수 사례를 가져와서 발표하고 토의하여 보자. 5주; 교육정보에 활용할 빅데이터 정보란? 인용: http://www.korea.ac.kr/search/search.jsp 인용: http://www.scaledb.com/wp-content/uploads/2014/05/big_data.jpg 교육 정보

Upload: korea-university

Post on 16-Jul-2015

152 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 고려대 교육정보서비스 시스템 4-5주

고려대학교 정보대학 컴퓨터학과Prof. 강장묵

([email protected] ; [email protected])

교육정보 서비스 특론4 주;교육정보서비스로 벤치마킹 또는 토의할 우수 사례를 가져와서 발표하고토의하여 보자.

5주;교육정보에 활용할 빅데이터 정보란?

인용: http://www.korea.ac.kr/search/search.jsp

인용: http://www.scaledb.com/wp-content/uploads/2014/05/big_data.jpg

교육정보

Page 2: 고려대 교육정보서비스 시스템 4-5주

중간고사 보고서

금주 강의 내용

기한

Page 3: 고려대 교육정보서비스 시스템 4-5주

Www.slideshare.net/mooknc

강의 교안

Page 4: 고려대 교육정보서비스 시스템 4-5주

강의 전 숙의할 질문

- ‘빅데이터 빅데이터’ 노래를 부르지만, 교육정보 중 빅데이터는 무엇이 있는가?

- 교육정보 중에 비정형 데이터, 반정형 데이터, 정형 데이터는 어떻게 구분되고 그들 간의 관계는 무엇인가?

- 교육정보 서비스가 잘 구성되기 위해서는 빅데이터 기술만 발전하면 되는가?

- 교육자는 빅데이터 시대에 어떤 역할을 할 것인가?- 교실에서 수집할 수 있는 센싱값, 학생-선생님과의 상호작용값 등

은 어떻게 활용될 수 있는가?- 개인정보 침해 등 부작용은 없는가?

- 기술이 전반적인 묶음으로 기능한다면 서비스의 면면에서 후경기술은 무엇이고 전경기술은 무엇인가?

- 어떨 때 기술이 후경에서 전경으로 전경에서 후경으로 이동하는가?

- 결국 이런 기술을 사용하면 아이들은 똑똑해지는가? 인격적으로고결해지는가? 바람직해지는가?

Page 5: 고려대 교육정보서비스 시스템 4-5주

인용: 이만재, “빅데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

1 EB = 1018 bytes = 1,000,000,000,000,000,000 bytes

그래프상의 등간격이 등차수열이 아니라 등비수열로 증가하게 되는 그래프이때 간격과 y값의 관계가 간격=log(y)의 관계가 되어 로그 스케일

Page 6: 고려대 교육정보서비스 시스템 4-5주

인용: 이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64http://search.naver.com/search.naver?sm=tab_hty.top&where=nexearch&ie=utf8&query=%EC%97%91%EC%82%AC+%EB%B0%94%EC%9D%B4%ED%8A%B8

1 EB = 1018 bytes = 1,000,000,000,000,000,000 bytes

Page 7: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

1 EB = 1018 bytes = 1,000,000,000,000,000,000 bytes

Page 8: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

1 EB = 1018 bytes = 1,000,000,000,000,000,000 bytes

Page 9: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

미 국토안보부의 비주얼 애널리틱스

CIA, FBI와 같은 여러 안보를 담당하는 기관이 있었지만 테러를 미연에 방지하지 못한 것에는 정보 분석이 뒤따르지 못한 것이 하나의 문제점으로 지적되었다.테러의 사후대책으로 국방성과는 별도로 국토안보부가 신설되었으며 정보 분석의결과를 매일 파악할 수 있도록 하는 것을 임무 중 하나로 부여하였다.국토안보부의 2008년 직제에 따르면 정보 분석(intelligence & analysis) 담당 차관보 직책을두고 비주얼 애널리틱스(visual analytics) 분야의 연구개발 지원을 업무의일부로 하고 있다(Borja, 2008).비주얼 애널리틱스는 기존의 정보 시각화에 분석적인 이론을 결합한 것으로 전반적인 사건의 진행상황을 바로 파악할 수 있고 새로운 대처에 따라 결과가 어떻게변하는지를 볼수 있는 인터랙티브 기능을 지원한다.이러한 시각화 도구를 사용하여 기존에 파악하지 못하던 안보의 위협이나 감시대상의 변화를 쉽게 인지하도록 하여 새롭게 발생할 가능성이 있는 문제에 적시에 대처하는 것을 목표로 삼고 있다(Lavigne &Goulin, 2011).연구결과는 데이터 마이닝과 분석결과의 시각화에 있기 때문에 연구결과의 상당부분은 복잡한 데이터를 분석하는 미국 정부의 모든 부서에서 활용할 수 있다.이러한 사례는 국내의 안보나 재해대책 분야의 빅 데이터 처리에 좋은 참고가 된다.

Page 10: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

일본의 정보 폭발 프로젝트

건강정보와 요양지원 등 일본 특유의 고령자 사회에 대한 사회적 문제를 다수 포함하고 있다.

Page 11: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

링크드 데이터

텍스트 문서는 일반 사용자가 보기 적합하도록 만들어진 것으로 정형화된 데이터베이스 처리를 기반으로 하는 컴퓨터와 같은 기계를 이용한 분석은 매우어렵다. 매시업(mashup) 애플리케이션을 개발하기 위해 이러한 데이터를 부분적으로활용한 예는 있으나 근본적인 문제 해결을 위해서는 HTML과 같은 인터넷 프로토콜을 이용한 데이터의 연결이 가능하도록 웹의 변경이 필요하다.

컴퓨터와 같은 기계 스스로 웹에 접근하여 자료를 분석할 수 있도록 하는 기술은 시맨틱 웹이라는 이름으로 시작되었다.웹의 창시자라고도 할 수 있는 팀 버너스리는‘Raw Data Now’라는 연설을 통하여 기존의 인터넷을 문서의 연결뿐 아니라 데이터의 연결을 가능하게 하자는 링크드 데이터(linked data) 보급을 강조 하였다(Berners-Lee, 2009). 이러한 데이터 연결 프로젝트는 2007년 1월 W3C에 의해 발표된 후 많은 연구자와 기관의 지원을 받아 급속히 확산되고 있다(Bizer et al., 2009).

Page 12: 고려대 교육정보서비스 시스템 4-5주

인용: https://ymchu.files.wordpress.com/2010/07/semanticwebimage2.jpg

‘Linked Data’의 네가지 원칙1. 개체를 식별하기 위해서 URIs(Unique Resource Identifiers)를 사용한다.2. 이들 개체가 이용자에 의해 참조하거나 참조되기 위해 HTTP URIs를 사용한다.3. URI가 참조되었을 때 그 개체에 대한 유용한 정보를 제공한다.4. 웹상에서 관련 있는 다른 정보를 발견하기 위해 데이터 내에서 다른 개체로의 링크를 포함한다.즉, 실세계의 사물(thing)에 대응되는 웹 상의 개체(entity)에 URI를 부여하고 이에 대한 디스크립션(메타데이터, 또는 설명)을 기술한 후, HTTP를 통해 접근할 수 있도록 발행함으로써 HTTP URL과 유사한 방식으로URI에 대해 “http://~~~”라고 웹에서 요청(request)을 보내면 해당하는 유용한 정보를 리턴하는 것이다.

Page 13: 고려대 교육정보서비스 시스템 4-5주

인용: https://ymchu.files.wordpress.com/2010/07/semanticwebimage2.jpghttps://ymchu.wordpress.com/2010/07/16/%EC%8B%9C%EB%A7%A8%ED%8B%B1-%EC%9B%B9-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EB%A7%81%ED%81%AC%EB%93%9C-%EB%8D%B0%EC%9D%B4%ED%84%B0/

데이터를 기계가 이해가능하도록 RDF화 하고 공통의 어휘(commonvocabularies- 예를 들어, SKOS, DBPedia, FOAF 등)이용해 데이터를 디스크립션하고,서로 연결(link)한다. 웹으로 발행함으로써 데이터를 웹에 공개한다.이러한 링크드 데이터 원칙에 따라 Linked Open Data(LOD, 즉, data cloud)가 형성된다. 이것이 바로 데이터가 거미줄처럼 얽히는 (시맨틱) 데이터의웹 세상이다.이러한 데이터의 웹 세상이 되면 내가 만든 데이터 뿐만 아니라 남이 만든데이터도 링크를 통해 재사용이 가능하다. 따라서 다양한 데이터를 융합한새로운 데이터를 쉽게 만들어 낼 수 있다(mashup). 이렇게 융합된 데이터는또다시 웹을 통해 공개되고 발행된다. 이것이 바로 시맨틱 웹이 꿈꾸는 디지털 데이터의 생태계이고 유통환경이다. 그러한 시맨틱 데이터의 생태계가조성된다면, 한편에서는 시맨틱 데이터를 이용해서 기계와 기계 간의 데이터가 자유롭게 교환되고, 온톨로지 및 규칙 기반의 추론을 통해 그 의미가해석되고 처리됨으로써 자동화된 서비스로 우리에게 제공되는 궁극적인 시맨틱 웹 세상, 진정한 유비쿼터스 세상이 도래하지 않을까?

Page 14: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

링크드 데이터의 활용 사례

링크드 데이터의 장점을 예를 들어 보자. 평창 동계올림픽에 대한 정보를 소개하는 웹사이트를 만든다고 가정한다. 내용 중에 김연아 선수를 소개하는 페이지를 개설해야 하는데 김연아 선수에 대한 소개내용은 김연아 선수가 새로운 경기에 출전할 때마다 바꾸어야 한다. 매번 이러한 내용을확인하고 수정하는 대신 위키피디아의 김연아라는 문서와 링크시키면 새로운 경기가 진행될 경우문서를 수정하는 번거로움을 피할 수 있다. 이는 위키피디아에서 링크드 데이터를 제공하기에 가능한 것이다.

Page 15: 고려대 교육정보서비스 시스템 4-5주

https://www.youtube.com/watch?v=LRDrqHP9rLIhttp://www.slideshare.net/mooknc/2014-40823102

Page 16: 고려대 교육정보서비스 시스템 4-5주

이만재, “빅 데이터와 공공 데이터 활용‘, Internet and Information Security 제 권 제 호( 년 월) pp. 47~64

링크드 데이터의 활용 사례

링크드 데이터는 트리플이라는 연결 구조를 통해 구현된다. 예를 들어 우리나라 지역에 대한 데이터는 대한민국 지역정보 데이터세트에 보관되어 있고 올림픽 개최도시는 올림픽 데이터 세트에포함되어 있을 경우“대한민국-도시이다-평창”이라는 관계와“올림픽-개최되었다-평창”이라는두 개의 트리플 구조를 통해 평창에 관한 정보를 찾고자 할 경우 대한민국의 지역정보 데이터세트에 기록된 내용을 이용할 수 있다. 이러한 트리플 방식의 연계는 링크드 데이터 구조의 핵심이다.

링크드 데이터는 정보의 복잡성을 해결하고 데이터에 직접 접근하여 데이터를 알기 쉬운 형태로제공할 수 있도록 하는데 꼭 필요한 기능이다. 앞선 비주얼 애널리틱스가 정보의 분석과 시각화를 강조하고 있다면 링크드 데이터는 인터넷에존재하는 모든 데이터세트를 효율적으로 연결하여 분석을 가능하게 하는 인프라로 볼 수 있다.

Page 17: 고려대 교육정보서비스 시스템 4-5주
Page 18: 고려대 교육정보서비스 시스템 4-5주
Page 19: 고려대 교육정보서비스 시스템 4-5주

매시업 서비스로 가장 유명한 것은 구글 지도와 부동산정보사이트인 크레이그 리스트(www.craigslist.org)를결합시킨 ‘하우징맵(www.housingmaps.com)’ 사이트로, 지도 정보에서 특정 지역을 선택하면 해당 지역의 부동산 매물정보를 보여주는 서비스를 제공하고 있다. 하우징맵은 폴 레이드매처(Paul Rademacher)라는 사람이 구글의 지도 API 코드를 해킹하여 만든 것인데 당시구글 지도를 활용한 확장성과 가능성을 본 구글은 폴레이드매처를 고소하기는커녕 그를 구글 직원으로 채용하였고, 그때부터 공개적으로 구글의 지도 API를 제공하기 시작하였다.

[네이버 지식백과] 매시업 [Mashup] (두산백과)

Page 20: 고려대 교육정보서비스 시스템 4-5주

인용: Dirk deRoos, Paul C. Zikopoulos, Roman B. Melnyk, PhD, Bruce Brown, Rafael Coss, “Hadoop”, John Wiley & Sons, Inc, 2014

Page 21: 고려대 교육정보서비스 시스템 4-5주

인용: Dirk deRoos, Paul C. Zikopoulos, Roman B. Melnyk, PhD, Bruce Brown, Rafael Coss, “Hadoop”, John Wiley & Sons, Inc, 2014

Page 22: 고려대 교육정보서비스 시스템 4-5주

클라우드 컴퓨팅이라는 용어를 처음 만든 클리스토퍼 비시글리아를 중심으로 오라클, 구글, 야후, 페이스북 등에서 일했던 전문가 집단들이 모여설립한 컨설팅 회사다. 대용량 데이터 분석, 처리서비스를 기업고객에게제공하고 있다. 특히, 미래 핵심사업인 생명공학, 텔레콤 등의 마켓을 타깃으로 사업을 추진하고 있다.[네이버 지식백과] 클라우데라 [Cloudera] (한경 경제용어사전, 한국경제신문/한경닷컴 )

인용: Dirk deRoos, Paul C. Zikopoulos, Roman B. Melnyk, PhD, Bruce Brown, Rafael Coss, “Hadoop”, John Wiley & Sons, Inc, 2014

Page 23: 고려대 교육정보서비스 시스템 4-5주
Page 24: 고려대 교육정보서비스 시스템 4-5주

HDFS는 마스터/슬레이브 구조의 분산 파일 시스템마스터를 네임노드라고 부르고 슬레이브를 데이터노드라고 부름하나의 HDFS에 하나의 네임스페이스 제공

파일을 여러 개의 블록으로 나누어 저장한다.하부 운영 체제의 파일 시스템을 그대로 사용한다.하드웨어가 고장이 나도 문제를 해결할 수 있다.Write Once Read Many다른 시스템의 기본 구성 블록웹에서 접근 가능

인용: 한기용, 직접 해보는 하둡 프로그래밍, 이지스퍼블리싱, 2013.

Page 25: 고려대 교육정보서비스 시스템 4-5주

HDFS에서 한 데이터 블록의 기본크기는 64MB이다.

HDFS상의 파일과 디렉토리, 블록 저장 정보들은 네임노드가 관리한다.

HDFS 마다 단 하나 존재하는 마스터를 네임노드라고 하며 HDFS에 저장되는 각종 파일과 디렉토리들의 메타정보를 관리하고 실제 데이터는다수의 데이터 노드에 분산저장하는 역할을 담당한다.

네임노드는 메타정보 손실에 대비하기 위해 2차 네임 노드를 두고체크 포인트를 만들어 놓는다.

인용: 한기용, 직접 해보는 하둡 프로그래밍, 이지스퍼블리싱, 2013.

Page 26: 고려대 교육정보서비스 시스템 4-5주

지금 여러분은?

참조- http://www.slideshare.net/DSPIP/cloud-computing-introduction-2978287(검색일:2012.06.24)

Page 27: 고려대 교육정보서비스 시스템 4-5주

https://www.youtube.com/watch?v=D4ZQxBPtyHg

Page 28: 고려대 교육정보서비스 시스템 4-5주

The followings were made to supplement my shabby presentation. When you need anything,

please e-mail me at this address at any time.

[email protected]

[email protected]

여타 참조1. Tim Berners-Lee, “Design Issues: Linked Data“, 2006, http://www.w3.org/DesignIssues/LinkedData.html2. Tom Heath, “Linked Data? Web of Data? Semantic Web? WTF?” http://tomheath.com/blog/2009/03/linked-data-web-of-data-semantic-web-wtf/3. Passant, Alexandre, Tummarello, “Hello, Open Data World!”, Giovanni SemTech 2009, T2_MON_0830_Passant_Alexandre_Tummarello_Giovanni_Color.pdf4. Jim Hendler, “Linked Open Government data and the Semantic Web”, http://blogs.nature.com/jhendler/2010/06/01/linked-open-government-data-and-the-semantic-web

Page 29: 고려대 교육정보서비스 시스템 4-5주
Page 30: 고려대 교육정보서비스 시스템 4-5주
Page 31: 고려대 교육정보서비스 시스템 4-5주

http://mashupguide.net/1.0/html/ch01s02.xhtml

Page 32: 고려대 교육정보서비스 시스템 4-5주

http://mashupguide.net/1.0/html/ch01s02.xhtml

Page 33: 고려대 교육정보서비스 시스템 4-5주

http://mashupguide.net/1.0/html/ch01s02.xhtml

Page 34: 고려대 교육정보서비스 시스템 4-5주

http://mashupguide.net/1.0/html/ch01s02.xhtml

Page 35: 고려대 교육정보서비스 시스템 4-5주

http://mashupguide.net/1.0/html/ch01s02.xhtml