페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고...

41
페이크 뉴스와 팩트체크, 그리고 테크놀로지 <서울대학교 언론정보학 포럼> 오세욱 (한국언론진흥재단 선임연구위원)

Upload: others

Post on 10-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

페이크 뉴스와 팩트체크, 그리고 테크놀로지

<서울대학교 언론정보학 포럼>

오세욱 (한국언론진흥재단 선임연구위원)

Page 2: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

2

주요내용

페이크 뉴스?

• 개념, 논란, 대책, 기원, 사례, 현상 등

자동화된 ‘사실 확인(fact checking)’ 기술

• 사실 자동 확인 기술의 등장 배경

• 사실 자동 확인 기술들의 유형

• 사실 자동 확인 기술들의 사례

왜 어려운가?

• 진행하고 있는 프로젝트

논의 및 결론 : 기술과 투명성

Page 3: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

로이터 저널리즘 연구소의 2017 예측

3

언론사와 플랫폼들의 소위 ‘페이크 뉴스’에 대응하기 위한 수많은 계획들은 대중의 신뢰를 회복하는데 실패한다. 팩트

체킹 서비스들이 중앙 무대로 이동한다.

우리는 뉴스 산업에서 더 많은 일자리 상실을 목격할 것이다. 유럽과 미국의 더 많은 신문사들이 폐간하고 조직 규모

를 줄이거나 디지털로만 발행한다.

알고리즘 책무성(accountability), 이용자 맞춤형 정보 제공을 위한 데이터 활용, 기술 기업들의 권력(power)에 대한 더

많은 관심이 집중된다.

초기 투자를 지속하는 것과 수익화가 어렵다는 점이 증명될수록 ‘페이스북 라이브’에 대한 언론사들의 반발을 보게 될

것이다.

언론사들은 좀 더 개인화된 콘텐츠와 메시지를 전달하는데 도움이 되는 데이터에 대한 투자를 강하게 늘릴 뿐만 아니

라 웹사이트와 앱에 이용자들이 가입 및 로그인하도록 강제한다.

메시지 앱, 챗봇, 그리고 ‘대화형 저널리즘(conversational journalism)’ 기술에서 광범위한 혁신을 기대하라.

우리 중에 더 많은 사람들이 아마존의 ‘알렉사(Alexa)’, 애플의 ‘시리(Siri)’, 구글 ‘어시스턴트(Assistant)’ 등 음성 기반의

개인 보조 장치를 통해 컴퓨터와 대화를 나눌 것이다.

페이스북이 소셜 및 라이브 오디오 형식을 새로 선보임에 따라 오디오/팟캐스트에게 있어서 대단한 한 해가 될 것이다.

스마트폰 잠금 화면 전쟁이 가열됨에 따라 모바일 뉴스 알림 서비스가 폭발할 것이다.

가상 현실과 증강 현실에 대한 더 많은 실험을 볼 것이지만, 그 결과는 뉴스의 경우 지속적으로 실망스러울 것이다.

정부와 시민들 사이의 전쟁이 개인 감시의 한계를 뛰어넘음에 따라 사이버 전쟁이 심해진다.

더 많은 정치인들이 이슈를 정의하고 새로운 정책을 파괴하기 위해 전통적인 미디어 접근을 대체하는 수단으로서 소

셜 미디어를 활용함에 있어서 도널드 트럼프의 선례를 따른다.

Page 4: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

페이크 뉴스

4

1. 팩트 체킹의 폭발

2. 플랫폼과 알고리즘의 변화

3. 규제 위협과 플랫폼 딜레마 감소

4. 뜻밖의 우연(Serendipity)처럼 등장하는 알고리즘: Burst your bubble

5. 품질 높은 뉴스 브랜드로의 지향 : “품질 높은 뉴스의 제공자의 필요”

Page 5: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

What is fake?

5

- fake / true - fake vs. fraudulent - factual / opinion - factually true / factually untrue - logically sound / flawed - original source / meta-commentary on the source - user generated content - personal information - news - paid content - commercial clickbait - gaming system purely for profit - prank / joke - to drive followers/likes - create panic - brainwashing / programming / deprogramming - state-sponsored (external / internal) - propaganda - pushing agenda

- local ideology - local norms and legislation - restrictions and censorship - fake accounts - fake reviews - fake followers - click farms - patterns - satire - bias - misinformation - disinformation - libel - organic / non organic - viral

Page 6: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

Fake news?

6

Fake article / story: For example, a fabricated story, based on made-up information, presented as true. Fake reference: A not-intentionally fake article that cites a fake source Fake meme: A popular media-type for viral syndication, usually comprising of an image and a quote. In this case, one that contains false/fake information. Fake personality: A person controlling a social profile who pretends to be who they are not, unbeknownst to the public. E.g. a troll pretending to be a celebrity Fake representative: A person who falsely claims to represent an organisation, sometimes for the purposes of getting attention, sometimes for the purposes of discrediting that organisation. Fake social page: A social page claiming to or portraying itself as officially representing a person/brand/organisation that has no basis Fake website: A whole website that purports to be what it is not, with content that might be cited in topics of interest. Fake reviews: Reviews, be them published online or within a review section on an ecommerce site that are incentivised or intentionally biased, whereby, if an honest person understood their approach to writing the review, that honest person would mind. Arguably, this applies to non-disclosed product placement or native advertising that is not disclosed clearly. Fake portrayal: As video becomes a primary way by which information is transmitted, in any situation where a person is behaving as an actor, to communicate something they don’t hold to be true, and are not doing this purely for entertainment, this could be described as a “fake portrayal”. For example, if a voice-over artist reads a script for a brand knowing it to be false but uses their skills to present that compellingly, the output is a kind of fake-media. For example, if a celebrity fitness model showcases a lifestyle using a product they don’t habitually consume as may be inferred by an ordinary person watching the show or advert, this is a kind of fake-media that ought to be limited.

Page 7: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

진실? 거짓?

7

“유스티니아누스는 악마와도 같은 존재였고, 황비 테오도라는 집단 섹스

와 동물과의 성행위를 즐기던 창녀 출신이었으며, 테오도라와 유스티니아

누스는 끝없는 탐욕과 거짓말로 로마제국을 멸망시킨 장본인들이었다.”

< Secret History >

“기원 후 6세기 동로마제국의 유스티니아누스(Justinianus) 황제는 대로

마제국 재건을 시도한다. 4세기, 5세기 게르만 민족들에게 점령당한 서

로마 영토들을 다시 정복하겠다는 것으로 동로마의 영웅 벨리사리우스

(Belisarius) 장군의 영웅적 활약으로 이에 성공한다. 벨리사리우스는

황제의 명령에 따라 북아프리카를 장악한 반달족을 멸망시키고, 20년

가까운 전쟁을 통해 이탈리아와 로마를 고트족으로부터 해방시키는데

성공한다. ”

< The Wars of Justinian >

벨리사리우스의 비서 겸 법률 고문을 역임한 비잔틴의 저명한 역사학자인 그는 죽었다.

Page 8: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

1475년..

8

Bernardino da Feltre

“트렌트에서 실종된 유아가 유태인에게 납치되어 잔인하게 살해되었다”

“우리의 디지털 생태계가 왜곡되고 잘못된 뉴스가 살아남기에 거의 완벽한 환경으로 진화한 것일 뿐, 잘

못된 정보, 허위 정보로서 페이크 뉴스는 과거부터 있어 왔다”(Thompson, 2016).

Page 9: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

디지털 환경

9

미디어 콘텐츠(Manovich, 2013)

‘이동성(mobility)’

‘모듈성(modularity)’

‘심층적 재조합 가능성(deep remixability)’

정보로서 콘텐츠 생산량의 급격한 증가

콘텐츠 원본의 식별 불가능성

콘텐츠 작성 주체의 불명확성

콘텐츠 생산이 급격히 증가한 환경에서, 원본과 작성 주체의 불명확성이라는 특성을 감안해 이용자가 믿을 수

있는 뉴스 형식을 갖춰 신뢰를 얻은 후, 정파적 혹은 경제적 목적으로 내용을 의도적으로 교묘히 조작하여, 한

눈에 전체 내용을 파악할 수 없는 소셜 미디어, 모바일 메신저 등 콘텐츠 유통 플랫폼을 통해 콘텐츠 확산을 의

도한 뉴스

Page 10: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

Fake news site

10

Page 11: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

Fake news 사례들

11

• ‘엔딩 더 페드(Ending the Fed)’ : “프란치스코 교황이 트럼프를 지지했다”

• 독일 : “러시아 태생의 13살 소녀가 베를린에서 중동 난민에게 강간당했다”

• 프랑스 : “에마뉘엘 마크롱(Emmanuel Macron)은 미국 정보요원이며, 동성애자다”

• 오스트리아 : “녹색당의 여성 당수인 에바 글라비쉬니히(Eva Glawischnig)는 시민을 배반한 아주

엉망인 사람이자 부패한 얼뜨기”

• 브라질 : “연방 경찰이 호세프가 거대 육류 회사인 프리보이(Friboi)에게 왜 30억 레알을 줬는지를

알고 싶어 한다”

• 이탈리아 : “개헌안 찬성으로 표기된 투표용지가 투표 전에 무더기로 발견됐다”

Page 12: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

fake concept

12

misinformation, disinformation, false/incorrect report, rumor, parody, satire

faux news, fraud report

Karlova & Fisher, 2014

truth, accuracy, completeness, currency, deceptiveness

• Satire or Parody: No intention to cause harm but has potential to fool.

• False Connection: When headlines, visuals of captions don't support the content.

• Misleading Content: Misleading use of information to frame an issue or individual.

• False Content: When genuine content is shared with false contextual information.

• Imposter Content: When genuine sources are impersonated.

• Manipulated Content: When genuine information of imagery is manipulated to deceive.

• Fabricated Content: New content is 100% false, designed to deceive and do harm.

• 상업적 또는 정치적 목적에서 타자를 속이려는 의도가 담긴 정보

• 수용자가 허구임을 오인하도록 언론보도의 양식을 띤 정보

• 사실확인이라는 저널리즘의 기능이 배제된 가운데 확인된 사실처럼 허위 포장한 정보

Page 13: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

fake news 문제와 대책

13

진실(truth)과 페이크에 대한 기준에 있어서 서로 다른 우리로 인해, 페이크 뉴스로 인한 진짜 문제는

사실 우리다(Boyd, 2017. 3. 27)

누가 페이크 뉴스라는 용어를 사용해서 이득을 보고 있는가?(Tambini, 2017)

1. (트럼프 같은) 파퓰리스트 2. (잘못된 정보로 패배했다 우기는) 역사적 패배자들(losers) 3. 레거시

미디어

페이크 뉴스 사기꾼들은 거듭된 실패로 병들어 가고 있는 언론사들을 위한 희생양에 불과하다. 우리에

게 필요한 것은 페이크 뉴스 규제 혹은 방지가 아니라 더 깊은 맥락에서 잘못을 수정하는 것이

다.(Hempel, 2017. 3. 13)

페이스북은 인공지능을 활용해 ‘사실 확인’을 실시하려는 계획을 추진 중이지만, 아직은 초보 단계라고

스스로 고백하고 있다(Levy, 2017. 2. 24).

구글은 ‘지식 금고’라는 지식 베이스를 만들어 사실 여부를 파악하고 형식적 판단을 통해 뉴스에 ‘팩트

체크’라는 표식을 붙이고 있지만, 페이크 뉴스와 일부 의견을 사실로 판단하는 오류를 자주 보여주고

있다(Condliffe, 2017. 3. 6).

팩트 체킹 시스템의 구축, 뉴스 생산 및 유통의 투명성 강화, 저널리즘 품질 고양, 미디어 교육 확대 등

Page 14: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

14

• 트럼프 지지자들은 다른 집단과 거의 소통하지 않는 결속력 있는 강한 집단으로 존재했으며, 언론사 소속 기자들

하고도 전혀 소통하지 않음

• 힐러리 지지자들은 다른 집단과의 상호작용이 활발하고 언론사 소속 기자들과도 유연한 관계였음, 단 트럼프 지

지자들하고는 전혀 상호작용하지 않았음

• 미디어들은 자기와 비슷한 사람들과만 소통하면서 트럼프 지지자들에 대해 전혀 알지 못했음

Electome project

Page 15: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

15

rightwing fake news ecosystem

300개의 페이크 뉴스 사이트를 수집한 후 이들과 연결된 130만 개의 하이퍼 링크 분석 (Albright, 2016)

Page 16: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

그런데 우리나라는..

16

Page 17: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

한국 신문

17

※ 출처 : https://korean-newsspot.blogspot.kr

Page 18: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

그러한 가운데..

18

“언론사와 플랫폼들의 소위 ‘페이크 뉴스(fake news)’에 대응하기 위한 수많은 계획들은 대중의 신

뢰를 회복하는데 실패하고, 사실 확인(fact-checking) 서비스들이 중앙 무대로 이동한다.”(Newman,

2017, p. 2)

• “우리의 디지털 생태계가 왜곡되고 잘못된 뉴스가 살아남기에 거의 완벽한 환경으로 진화한 것”일 뿐, 잘못된

정보, 허위 정보로서 페이크 뉴스는 과거부터 있어 왔음(Thompson, 2016)

표현의 자유에 관한 유엔 인권 특별보고관(the United Nations Special Rapporteur on Freedom of

opinion and expression)을 중심으로 한 페이크 뉴스 대응에 관한 공동성명

• 페이크 뉴스를 무조건 규제하면 표현의 자유를 침해할 수 있는 역효과가 발생할 수 있으니, 신뢰할 수 있는 정

보의 유통을 적극 지원하는 방향으로 유도할 필요가 있다는 것으로, 페이크 뉴스에 대한 대응방안으로 ‘사실

확인(fact checking)’이 유력한 방안으로 검토되고 있음

그런데, 소규모 인력이 문제가 되는 사실을 확인하는 방식으로 이루어지는 기존의 ‘사실 확인’ 방식

으로 다루기에는 너무나 많은 양의 사실들이 등장하고 있음

• ‘사실 확인’이 사실 여부를 확인하는 사람 및 기관, 언론의 정치적 입장에서 이뤄지는 ‘의견 저널리즘(Opinion

Journalism)’의 양상을 보이고 있다는 비판

컴퓨터에 의한 자동화된 ‘사실 확인’ 모델들의 등장

Page 19: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 확인의 현황

19

지난 10여 년 동안 약 50여 개 국가에서 ‘사실 확인’을 독립적으로 실시하는 곳이 등장했음

현재 약 114개의 언론사 혹은 단체가 ‘사실 확인’을 실행하고 있는 것으로 집계되고 있으며, 이

중 90% 이상은 2010년 이후 등장했음(Graves & Cherubini, 2016).

Page 20: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술의 등장 배경

20

디지털화에 따라 수많은 뉴스와 정보, 발언 등이 기록되어 나타나면서 무엇이 사실인지 여부를

사람이 일일이 확인한다는 것은 거의 어려운 일이 됨

정보량 증가에 따라 사실을 자동으로 확인하는 기술이 등장한 배경 세 가지

첫째, ‘사실 확인’을 해야 할 텍스트 자체의 급격한 증가

• 유명인, 정치인 등 사실 여부를 확인해야 할 주요 인사들의 발언 창구가 2010년대 이후 신문, 방송 등 기존

언론을 넘어 트위터, 페이스북 등 SNS와 팟캐스트 등으로까지 확대됐음

• 또한, 이들의 발언 내용을 임의로 편집한 이용자 생성 콘텐츠들까지 기하급수적으로 늘어났음

둘째, 확인하려는 사실을 선정함에 있어서 개입되는 편견의 배제

• 그 많은 정보 중 왜 꼭 특정 사실에 대해서만 확인하려고 했는지에 대해 설명할 수 있어야 함

• 왜 이 발언을 확인하는지 왜 이 사실을 확인하는지에 대한 합리적, 객관적 설명이 없다면 ‘사실 확인’은 그

근거를 잃음

셋째, 뉴스 기사 유통의 플랫폼화

• 플랫폼들은 뉴스를 직접 생산하기보다 유통에만 주력하기 때문에 사실 확인 등을 수행할 전문 인력을 보유

하지 않고 있음

• 기술기업으로서 플랫폼들은 ‘사실 확인’에 있어서도 사람보다는 기술의 힘을 선호하고 있음

• 페이크 뉴스 등과 관련해 사실 확인을 위한 플랫폼의 책임을 강조할수록 사실을 자동으로 확인하려는 플랫

폼의 욕구도 높아질 것임

Page 21: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술의 유형

21

구분 확인 방식 관련 연구

지식 기반 방식

(knowledge based)

가능한 많은 정보 및 문서들을 확보한 후 새로 등장한

사실과 비교해 사실 여부를 확인함

· Magdy & Wanas, 2010

· Shi and Weninger, 2016

· Wu et al., 2014

맥락적 방식

(contextual)

위키피디아, SNS 등 소셜 네트워크상에서 정보가 확산

되는 과정을 분석해 관련 내용의 사실 여부를 확인함

· Tambuscio et al., 2015

· Mocanu et al., 2015

형식 기반 방식

(style based)

사실임을 확인할 수 있는 특정한 형식을 준수하고 있는

지 여부 등을 통해 사실 여부를 확인함

· Afroz et al., 2012

· Rubin et al., 2015

기계 학습 방식

(machine learning)

우리가 알고 있는 것을 수학적 모델로 구현한 후 기계가

그것을 학습한 하게 해 사실 여부를 확인하게 함

· Hassan et al., 2015

· Fake News Challenge

이상의 유형들은 사실 방식에 있어서 특성을 강조한 것일 뿐 각자 독립된 방식이라고 규정하기는 어려움

지식 기반의 방식에 기계 학습 방식을 적용하는 경우, 지식 기반으로 맥락적 방식으로 적용하는 경우, 형식 기반 방식

을 위해 기계 학습 방식을 적용하는 경우 등 이미 다양한 실험이 진행되고 있음(Babakar & Moy, 2016)

또한, 사실을 자동으로 확인하는 기술의 경우 아직까지는 실제 적용보다 연구 수준에 머물러 있다고 할 수 있음

Page 22: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (1)

22

지식 기반 방식 : ‘지식 금고(Knowledge Vault)’

구글은 ‘지식 금고(Knowledge Vault)’라는 ‘지식베이스(Knowledge base)’를 도입하여 ‘사실 확인’

의 처리량과 정확도를 향상시키려는 시도를 진행하고 있음

• 지식베이스란 체계화된 데이터 집합인 데이터베이스에 인간이 축적한 전문 지식과 문제 해결에 필요한 관

계 등이 접목되어 확장된 형태를 말함

• 이러한 관계의 대표적인 것으로 <If-then>(조건관계), <Has-a>(포함관계), <Is-a>(상속관계) 등이 있음

• 인간의 전문 지식을 활용해 데이터베이스에 저장된 데이터들을 이러한 관계들로 연결하여 지식베이스를 구

축할 수 있음

구글은 자동화된 방식으로 이러한 지식베이스를 구축하고 있음

• 먼저 ‘웹 크롤러(Web Crawler)’를 통해 웹에 등록되는 페이지들을 실시간으로 수집함

• 이렇게 수집된 페이지에 대해 ‘개체명 인식(Named-entity recognition)’등의 기술을 이용하여 페이지 내 텍

스트로부터 인물, 조직, 도시, 통화 등 중요한 정보를 추출한 다음 기계학습 알고리즘을 이용하여 <If-then>,

<Has-a>, <Is-a> 등의 정보들 간 관계를 예측하여 하나의 사실 관계(fact)를 생성함

• 이 사실 관계들이 모여서 지식 금고를 형성하며, 구글은 2014년 기준 16억 개의 사실 관계를 확보하였으며

이 중 2억 7천만 여 개의 사실 관계는 90% 이상의 신뢰도를 나타냈음

Page 23: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (1)

23

지식 기반 방식 : ‘지식 금고(Knowledge Vault)’

Dong et al. (2014). Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion. Paper presented at the The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York.

Page 24: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (2)

24

맥락적 방식 : ‘지식 그래프(Knowledge graph)’

미국 인디아나 대학교(Indiana University)의 복잡 네트워크와 시스템 연구 센터(Center for

Complex Networks and Systems Research)의 연구팀이 제시한 ‘지식 그래프’(Ciampaglia et al.,

2015)는 맥락적 방식을 통해 실제로 사실 여부를 확인하는 대표적 사례임

• 연구팀은 위키피디아 각 문서(article)의 링크 관계를 그래프로 나타내어 ‘지식 그래프(Knowledge graph)’

를 생성한 다음 “A is B”와 같은 형태의 ‘사실 확인’이 필요한 문장이 입력되었을 때 A와 B를 지식 그래프에

서 찾아 최단 거리를 측정했음

• 이 때 거리가 짧으면 A와 B가 연관성이 있기 때문에 가까운 개념이라고 해석하여 이 문장은 사실일 확률

이 높다고 판단함

• 반대로 거리가 멀면 A와 B의 연관성이 부족하고 먼 개념이라고 해석하여 이 문장은 거짓일 확률이 높다고

판단함

위키피디아 문서가 크라우드 소싱 방식으로 작성되고 있음을 감안하면, 해당 내용의 사실 여부는

사실 확인되지 않았을 수도 있음

• 다만, 여러 사람들이 사실이라고 인정할 경우 사실 가능성이 높다는 가정에서 사실 여부를 확인하고 있는

것임

Page 25: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (2)

25

맥락적 방식 : ‘지식 그래프(Knowledge graph)’

• “오바마는 이슬람 교도(Obama is a Muslim)”라는 문장

의 사실 여부를 확인하는 과정

• 먼저 오바마에 대한 위키피디아 문서 (a)를 찾은 다음

링크된 문서들(파란색 글자)을 연결함(b의 콜럼비아 대

학교)

• 이어서 위키피디아에서 콜럼비아 대학교를 설명하는

문서를 찾은 다음 링크된 문서들을 또 연결함(b의 미국

대학 연합)

• 이어서 이슬람(Islam)이나 이슬람 교도(Muslim)에 대한

문서로 연결될 때까지 이 과정을 반복함 이슬람에 대

한 문서(b의 이슬람)를 찾으면 위 과정을 종료하고 오

바마에서 이슬람에 이르는 최단거리를 측정함

Page 26: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (3)

26

형식적 방식 : 구글 뉴스의 ‘팩트체크’

구글은 자사 뉴스 사이트에 기사들을 자동으로 배열하는데, 기사의 자동 배열뿐만 아니라 기사의

형식도 자동으로 구분하고 있음

• 구글은 실시간 관련기사, 심층 뉴스, 사설, 많이 인용된 뉴스, 화제가 되는 뉴스(trending), 국내 취재(local

Source), 해외 취재(From [location]), 많이 참조된 웹 콘텐츠(most Referenced), 위키피디아(wikipedia, 해당

뉴스의 맥락과 배경정보를 설명해주는 위키피디아 내용), 풍자 뉴스(satire), 당신이 선호하는 언론사 뉴스

(your preferred source) 등의 형식을 자동으로 구분해 제공하고 있음

• 지난해 10월 13일부터는 구글 뉴스 기사에 팩트 체크 표식을 붙이기 시작했음

Page 27: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (3)

27

형식적 방식 : 구글 뉴스의 ‘팩트체크’

• “만약 우리가 해당 사이트가 이러한 기준들을 위한 ‘클

레임 리뷰 마크업(ClaimReview markup)’을 준수하지

않고 있다는 점을 찾는다면, 우리는 우리 재량으로 그

사이트를 구글 뉴스에서 제거할 수도 있다.”

• 구글은 기사 내용을 판단해 ‘팩트 체크’ 형식임을 찾아

내는 것이 아니라, 자신들이 제시한 형식을 충실하게

따른 기사를 ‘팩트 체크’ 형식이라고 판단하는 것임

• 마크업은 신문사나 잡지사의 교정 기자들이 쓰는 특수

목적의 표기법으로 문서의 논리적 구조와 배치 양식에

대한 정보를 표현하는 언어를 의미함

• ‘클레임 리뷰 마크업’은 사실을 확인하기 위해 지정된

일종의 컴퓨터 언어 형식으로 구글은 내용이 아니라

형식을 확인해 자동으로 ‘팩트 체크’ 표식을 기사에 붙

이는 것임

• 기사의 내용을 분석하는 것이 아니라 그 기사의 기술

적 형식이 자사가 제시한 기준을 충족하는지를 분석함

Page 28: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (4)

28

기계 학습 방식 : ‘클레임 버스터’

미국 텍사스 대학(University of Texas at Arlington)과 듀크 대학, 스탠포드 대학 연구진과 구글 리

서치 팀이 공동으로 진행 중인 ‘클레임버스터(ClaimBuster)’는 기계 학습 방식으로 사실을 자동으

로 확인하려는 대표적 사례임

• 클레임버스터는 <그림 5>처럼 어떤 문장의 사실 여부를 0과 1사이의 수치로 표현함

• 클레임버스터는 주어진 신문 기사, 토론문, 연설문, 인터뷰 등을 문장 단위로 자른 다음 각 문장의 신뢰도를

기계 학습 알고리즘으로 판단함

Page 29: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술 사례 (4)

29

기계 학습 방식 : ‘클레임 버스터’

클레임버스터는 과거 정치인들의 토론문으로부터 2만 여 개의 문장을 선정한 다음 226명의 전문

가들이 이 문장들을 다음과 같이 세 범주로 분류하도록 했음

• 첫째, 사실이 아닌 문장(Non-Factual Sentence)으로 ‘사실 확인’이 필요하지 않은 주관적 주장이 담긴 문장

• 둘째, 중요하지 않은 사실 문장(Unimportant Factual Sentence)으로 너무 객관적인 내용이라 높은 수준의

‘사실 확인’이 필요하지 않은 문장

• 셋째, 검증 가치가 있는 사실 문장(Check-worthy Factual Sentence, 이하 CFS)으로 진위에 대한 논란의 여지

가 있어 ‘사실 확인’이 필요한 문장 (Hassan et al, 2015)

연구팀은 전문가들에게 CFS로 분류된 문장에 대해서는 신뢰도를 0과 1 사이의 값으로 매기도록

하고, 이를 학습 데이터로 하여 SVM 알고리즘을 이용해 ‘사실 확인’ 모델을 학습하였음

• 학습이 완료된 모델에 ‘사실 확인’이 필요한 문장을 입력한 후 CFS로 분류된 경우, 분류 확률(classification

probability)에 따라 신뢰도 점수를 추정했음

• 그 결과 클레임버스터의 ‘사실 확인’ 모델은 79%의 정확도로 새로운 문장을 CFS로 분류하고 전문가가 매긴

점수와 유사한 점수를 추정하였음

하지만, 클레임버스터의 분석 결과는 사실 여부를 확인해야 할 문장이나 내용을 빠르게 판단해

줄 뿐 최종적으로 사실 여부를 확인해 주지는 않음

Page 30: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술의 한계

30

구분 대표 사례 장점 단점 한계

지식기반 방식 지식 금고 기록된 데이터를 통한

정확성

방대한 양의 정보 DB화

필요

기록되지 않은 데이터는

확인 불가

맥락적 방식 지식 그래프 기록되지 않은 루머 등도

확인 가능

대중의 잘못된 판단을

사실로 판단할 수 있음

활용하는 소스에 따라

다른 맥락

형식적 방식 ‘팩트체크’ 표식 형식 요건을 통해 새로운

사실도 확인 가능

형식만을 판단해 내용에

대해서는 판단하지 못함

형식을 제대로 갖춘 틀린

사실은 확인 불가

기계학습 방식 클레임버스터 사실 여부가 불확실해도

일정 정도 판단 가능

명확한 판단이 아닌

확률적 판단에 불과

모델링의 어려움 및 학습

데이터부족

Page 31: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

논의

31

실제로 사실을 확인하는가?

• 사실 자동 확인 기술들은 사실을 확인한다고 하지만, 실제로 그 내용이 사실임을 확인하기 보다는 사실일

가능성이 큰 것을 찾는 방식임

• 페이스북은 인공지능을 활용해 ‘사실 확인’을 실시하려는 계획을 추진 중이지만, 아직은 초보 단계라고 스스

로 고백함(Levy, 2017. 2. 24)

• 앞서 제시 했듯이 구글은 ‘지식 금고’라는 지식 베이스를 만들어 사실 여부를 파악하고 형식적 판단을 통해

뉴스에 ‘팩트 체크’라는 표식을 붙이고 있지만, 페이크 뉴스와 일부 의견을 사실로 판단하는 오류를 자주 보

여주고 있음(Condliffe, 2017. 3. 6).

누가 사실임을 확인하는가?

• 사실 자동 확인 기술들은 방대한 양의 정보들 중에서 빠르게 사실을 확인하기보다는 사실 확인이 필요한 내

용을 빠르게 찾아주는데 유용하다고 볼 수 있음(Graves & Cherubini, 2016)

• 사실 확인이라는 것 자체에 대해서는 아직까지 한계는 있지만, 사실 자동 확인 기술들은 방대한 정보 속에

서 사람이 최종적으로 사실 여부를 판단할 내용들을 찾아줄 수는 있음

현재 단계에서 사실 자동 확인 기술들은 방대한 정보의 빠른 처리를 통해 인간의 최종적인 사실

확인을 도와주는 수준이라고 할 수 있음

Page 32: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

페이스북

32

Page 33: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

논의 : 사실 확인의 윤리 원칙

33

‘국제 사실 확인 조직(International Fact-Checking Network, IFCN)’의 ‘사실 확인’ 원칙

• 첫째, 초당파성과 공정성에 대한 약속(commitment)

사실 확인을 할 때마다 동일한 기준을 사용하여 주장들을 확인하며, 한 쪽 진영에 치우치지 않는 것

• 둘째, 자료출처의 투명성에 대한 약속

출처를 투명하게 공개함으로써 독자들이 도출한 결과에 대해 스스로 검증할 수 있기를 바라는 것으

로 가능한 자세하게 모든 자료출처를 제공해 독자들이 작업을 반복해 볼 수 있게 함

단 취재원의 신변안전이 훼손되는 경우는 제외함

• 셋째, 재원 및 조직의 투명성에 대한 약속

‘사실 확인’을 실시하는 언론 또는 단체가 후원 받는 기금(funding)에 대해 투명하게 밝히는 것 만약

다른 단체나 기관으로부터 재정적 지원을 받는다면, 해당 자금이 ‘사실 확인’의 결론에 영향을 미치

지 않게 함

• 넷째, 방법론의 투명성에 대한 약속

‘사실 확인’의 과정에서 선택, 연구, 작성, 편집, 출판, 수정하기 위해 사용한 방법론에 대해 가능한

자세히 설명하는 것

• 다섯째, 개방성과 정직한 수정에 대한 약속

사실이라는 것은 절대적이지 않고 사실이라 믿더라도 틀릴 수 있기 때문에 수정정책을 게시하고 철

저히 준수하는 것

수정 정책을 지켜 명확하고 투명하게 수정하며 가능한 최신 버전을 독자들이 볼 수 있도록 함

Page 34: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

레이놀즈 테스트

34

‘책임감 있는 저널리즘(responsible journalism)’인지 판단하기 위해 검토되어야 하는 요건(박아

란, 2015, 56쪽)

(1) 언론보도 내용이 얼마나 심각한 것인가

(2) 정보의 성질과 보도 주제의 공익성 관련의 정도

(3) 정보원

(4) 정보의 상태

(5) 정보의 검증단계

(6) 사안의 긴급성

(7) 보도대상이었던 원고에게 코멘트를 얻고자 노력했는지 여부

(8) 기사가 원고 측 이야기의 핵심을 실었는지 여부

(9) 기사의 어조

(10) 타이밍 등 기사 발행과 관련된 상황 등

• 이러한 10가지 요건은 일명 ‘레이놀즈 테스트(Reynolds test)’라고 불림

• 영국의 언론관련 명예훼손 소송에서 언론의 보도가 면책될 수 있는 것인지를 검토하는 데에 있어 중심적인

역할을 하고 있음

• 레이놀즈 사건에서는 해당 보도가 공익과 밀접한 관련이 있었음에도 언론이 레이놀즈 본인의 해명을 싣기

위한 노력을 하지 않았으므로 부정확하고 불공정한 보도라고 판단했음

Page 35: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

논의 : 사실 자동 확인 기술에 대한 검증

35

기술은 설계 당시 기입된 편견을 지속적으로 강화할 위험성을 갖고 있으며, 잘못되거나 편향된

데이터를 선택해 결론을 유추할 수도 있으며, 계량화되지 못한 요소들은 내용과 상관없이 배제해

버릴 수 있음(오세욱, 2016).

• 기술이라고 해서 편견을 배제하거나 초당파적인 것은 아니며, 따라서 사실을 자동으로 확인하는 기술도 지

켜야 할 원칙 및 검증의 방법이 있어야 함

• 특히, 사실 확인은 사실 여부를 확인하는 것이기에 더욱 엄격한 검증이 필요함

사실 자동 확인 기술들은 기본적으로 데이터를 다루고 있음

• 입력된 데이터를 처리해 결과로서 사실 여부를 확인하는데, 단지 기계적으로 처리했다고 해서 이 내용이 사

실임을 입증하지는 않음

• 기계 또는 기술이 수행한 결과에 대해서 ‘사실 확인’이 필요하며, IFCN이 ‘사실 확인’에 있어서 제시한 원칙

들은 기술에도 적용이 필요함

저널리즘의 많은 영역이 디지털화되면서 알고리즘, 인공지능 등에 의한 자동화 사례가 많아지는

가운데, 데이터를 처리하는 과정에서 지켜야 할 윤리 기준들을 입력, 과정, 출력 등으로 구분할 필

요성이 있음

• 구체적으로 데이터를 다루는 사실 자동 확인 기술에 있어서 가장 중요한 것은 투명성이라고 할 수 있음

Page 36: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술과 투명성 (1)

36

조직 영역 전문가 영역 사회 영역

미디어 시스템 윤리 개인 윤리 수용자 윤리

입력

(input)

▲ 데이터

- 데이터의 출처

· 신뢰성(정확성)

· 객관성 · 책임성

· 사생활 보호

· 데이터 수집의 적절한 방법론

· 편향

- 데이터 권리

- 경제적 목적

▲ 코드

- 코드 구조

· 투명성 · 객관성

· 책임성 · 정확성

· 편향

· 기계 커뮤니케이션 최적화

· 코드 권리

· 경제적 목적

▲ 코드

- 코드 구조

· 투명성

· 객관성

· 책임성

· 정확성

· 편향

· 기계 커뮤니케이션 최적화

▲ 데이터

- 데이터 출처

· 사회의 다양한 부분들을 관찰하기 위한

데이터 다양성

과정

(thruoghput) - 생산물 권위 - 소프트웨어/코딩 테스트와 모니터링

출력

(output)

- 결과물 권리

- 투명성

· 데이터 출처 공개

· 자동화 과정 공개

· 코드 공개

-법적 책무성

- 권위 있는 결과 모니터링

- 투명성과 신뢰

- 요구 통제

- 데이터와 텍스트 분석에 대한 확인

- 해당 지역에서 사회에 대한 관찰

※ 출처: Dörr & Hollnbuchner, 2016, p. 11

Page 37: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

사실 자동 확인 기술과 투명성 (2)

37

층위 요인

데이터

· 정보의 질(정확성, 불확실성, 시의성, 완전성)

· 샘플링 방법 · 변인의 정의 · 출처

· 기계 학습에 사용된 데이터

· 데이터 수집 과정에서의 가정

· 개인 확인이 가능한 정보 포함여부

모델

· 변인과 특성

· 최적화에 사용되는 타깃 변인

· 요인 가중치 · 소스코드

· 모델명, 사용된 소프트웨어

· 인간의 영향력과 업데이트

· 명백하게 내재된 규칙(임계값 등)

추론

(inference)

· 추론의 존재 여부와 유형

· 정확성 판단 방법 · 오류 분석

· 신뢰도 값 혹은 불확실한 정보

인터페이스

· 알고리즘의 존재를 알려주는 신호

· 온오프

· 투입 데이터 및 가중치의 수정 가능 여부 등

※ 출처: Diakopoulos & Koliska, 2016, p. 9

Page 38: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

형태소 분석

39

Page 39: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

샘플 데이터

41

Page 40: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

결론을 대신하며..

43

“에디터들은 뉴스룸의 내부 작동 과정을 상세히 다루는 칼럼을 더 많이

쓸 필요가 있다. 우리가 어떻게 일하고 우리가 무엇을 하고 있는지를 설명

할 필요가 있다. 뉴스룸의 결정이 어떻게 이루어지고 있는지에 대한 설명

의 의무가 있다.”(Bhatia, 2017. 2. 15)

페이크 뉴스는 그동안 ‘사실’을 전달해 온 언론의 위상을 다시 확인받을 수 있는 계기가 될 수

있는 동시에 ‘사실 확인’에서조차 신뢰를 얻지 못하면 언론이 페이크 뉴스가 되는 현상을 불러

올 수도 있음

사실 자동 확인 기술들이 ‘사실 확인’을 위해 근거 데이터로 가장 많이 사용하고 있는 것은 뉴스

기사임

최근의 페이크 뉴스 소란과 언론이 항상 해 온 ‘사실 확인’의 재부상은 그동안 진행돼 온 저널리

즘의 실패를 보여주는 현상임

Page 41: 페이크 뉴스와 팩트체크 테크놀로지...페이크 뉴스와 팩트체크, 그리고 테크놀로지  오세욱 (한국언론진흥재단

감사합니다~