[한국의 전문기자들 ⑥] 권혜진 데이터저널리즘연구소 소장, “데이터 마이닝은 취재 영역의 확장, ‘삽질’ 두려워말아야”
입력 : 2014-11-09 08:48:38 노출 : 2014.11.09 13:16:44
이정환 기자 | black@mediatoday.co.kr
미디어오늘이 ‘한국의 전문기자들’ 기획 인터뷰를 연재합니다. 저널리즘의 가치가 추락하고 선정적인 이슈 경쟁과 가십성 낚시 기사가 범람하는 시대, 격동의 취재 현장에서 전문 영역을 개척하면서 뉴스의 사각지대와 이면을 파고들고 저널리즘의 본질을 추구하는 ‘진짜 기자’들을 찾아 나서는 기획입니다. <편집자 주>
[한국의 전문기자들 ①] 경제 기사만 26년 “재벌과 어울리되 비판 주저마라”
[한국의 전문기자들 ②] 65세 통일부 2진 기자가 들려주는 북한 뉴스 읽는 법
[한국의 전문기자들 ③] 최초의 여성 국방부기자 “여기자, 10년 새 10배 늘어”
[한국의 전문기자들 ④] 41번의 특종기자 “보직은 일찌감치 포기했다”
[한국의 전문기자들 ⑤] “놀러 다니며 기사 쓰니 ‘꿀보직’? 춥고 배고프다”
“노려보고 있으면 어느 순간, 매직 아이처럼 튀어 오릅니다. 신심을 갖고 봐야 돼요.”
권혜진 뉴스타파 데이터저널리즘연구소 소장이 말하는 데이터 더미에서 유의미한 데이터를 뽑아내는 방법이다. 신심을 가지란 건 물론 농담이다. 그렇지만 실제로 한없이 들여다봐야 할 때가 있다. 결국 기자의 감이 절대적이다. 데이터 저널리즘 역시 결국은 저널리즘이라 기술적인 문제 이전에 ‘야마’를 잘 잡는 게 중요하고 데이터를 찾고 정리하는 작업이 거의 절반이다.
권 소장은 지난해 4월 어느 날을 평생 잊지 못할 거라고 생각한다. 국가정보원 대선 개입 사건에 연루된 것으로 추정되는 트윗을 뽑아봤더니 무려 28만건, 의혹은 있지만 실체를 드러내고 입증하기는 쉽지 않았다. 그래서 대선 직전 삭제된 아이디들 목록을 뽑아서 정치적 관련 메시지가 많은 아이디들을 추리고 의심이 가는 아이디들을 중심으로 리트윗을 추적하면서 트윗을 추려내기 시작했다.
데이터 저널리즘이 밝혀낸 국가정보원 연루 트윗 계정의 사회연결망 지도. ⓒ뉴스타파.
몇 가지 조건을 주고 필터링을 하자 일정한 패턴이 드러났고 10개의 그룹으로 나뉜 658개의 트윗 아이디의 상관관계가 그야말로 매직 아이처럼 드러났다. 놀라운 순간이었다. 아이디어 자체는 간단했다. 국정원이 조직적으로 여론 조작을 했다면 비슷한 시기에 무더기로 트윗 계정을 만들어서 활동하고 대선 직전에 삭제했을 가능성이 크다. 그리고 이들이 서로 알고 있었다면 서로의 트윗을 리트윗했을 가능성이 크다. 이런 가정에서 출발했다.
“데이터 저널리즘이란 게 보조적인 역할이 되기 쉽죠. 그런데 국정원 트위터 분석은 데이터 저널리즘이 메인이고 여기가 바로 현장이었습니다. 데이터는 분명히 있는데 손을 대지 못하는 상황이었죠. 우리는 숨어있는 팩트를 직접 찾아냈습니다. 한국 데이터 저널리즘 역사에서 비중있게 기록될만한 사건이었다고 생각합니다. 20년 가까이 이쪽 분야에서 일을 했지만 이날 데이터 저널리즘의 가능성과 미래를 확신하게 됐다고 말하면 너무 거창한가요?”
아이디어는 쉬웠지만 구현하기는 만만치 않았다. 일단 삭제된 트윗 계정을 확인하고 트윗 내용을 복구하는 게 관건이었다. 그런데 국내 데이터 관련 업체들이 국정원 관련 이슈라는 걸 알고 곤란해 했다. 사실 이 업체들 대부분이 국정원과 거래 관계에 있거나 국정원이 잠재 고객이었다. 그래서 해외 업체들을 찾았다. 트윗 데이터베이스는 취급하는 데가 얼마든지 있다. 데이터를 확보하고 나니 고구마 줄기를 캐듯 국정원의 음모가 드러나기 시작했다.
이를 테면 이런 취재는 눈덩이를 굴리는 것과 같다. 결국 기자의 감에서 출발한다. 계정을 하나 잡고 그 계정과 연관된 리트윗을 모두 크롤링한 다음 그렇게 확보된 계정에서 다시 크롤링을 확장한다. 이 과정에서 정보가 계속 불어난다. 수집된 정보는 모듈러리티 기법으로 상관 관계를 분석하고 그루핑한다. 그 결과 이 658개의 계정이 10개의 그룹으로 활동했으며 3744건의 글이 이 그룹 안에서 5만5639번이나 리트윗 됐다는 사실을 밝혀낼 수 있었다.
권 소장은 이화여대 문헌정보학과를 졸업하고 포스데이터에서 데이터베이스 전문가로 활동하다가 1995년 중앙일보와 1999년 동아일보를 거치면서 리서치와 데이터 분석을 결합한 새로운 저널리즘의 영역을 개척했다. 2012년부터는 뉴스타파로 옮겨 데이터저널리즘연구소를 설립하고 소장을 맡고 있다. 중앙일보와 동아일보에서는 아무래도 취재 기자들을 지원하는 역할이 많았지만 뉴스타파에서는 독립적으로 취재 아이템을 확보하고 탐사보도를 한다.
뉴스타파가 분석한 공직자 재산공개 현황. 이미 공개된 자료를 횡으로 종으로 자르고 쪼개고 다시 합치는 과정에서 새로운 의미가 드러난다. ⓒ뉴스타파.
권 소장이 데이터 저널리즘의 대표 사례로 꼽는 3가지 가운데 첫 번째가 국정원 트윗 추적이고 두 번째는 조세회피처 추적 보도, 그리고 세 번째는 공직자 재산 공개 보도다. 조세회피처 보도 때는 보안 유지를 위해 한 달 가까이 별도로 마련한 사무실에서 자료 분석을 하기도 했다. 200만개가 넘는 파일 용량이 260GB나 됐다. 팩트 자체도 충격적이었지만 세계적 특종에 참여할 수 있었던 평생 잊지 못할 감격적인 프로젝트로 꼽는다.
공직자 재산 공개 보도는 보도 자체 보다는 데이터 저널리즘의 방법론을 정립했다는 데 의의를 둔다. 이미 공개된 자료인 데다 수많은 언론이 숱하게 많은 기사를 쏟아냈지만 대부분 비슷비슷하다. 정부가 공개하는 자료는 문서 이미지를 스캔한 PDF 파일로 제공된다. 데이터 가공이 어렵기 때문에 적당히 눈으로 들여다보거나 정부가 제공한 결과 이외의 정보를 파고들기가 쉽지 않다.
권 소장은 작정하고 2106명, 모두 700여 페이지 분량의 PDF 파일을 모두 텍스트로 전환하는 작업을 시작했다. 문서 인식 프로그램을 돌리면 간단히 해결될 문제지만 가로 줄이 맞지 않아 인식을 못한다거나 행과 열이 깨져 있다거나 하는 경우는 모두 수작업으로 직접 보정을 해줘야 한다. 그렇게 모든 데이터를 스프레드시트에 정렬하고 나니 비로소 다양한 분석이 가능하게 됐다. 뉴스타파는 이렇게 만든 데이터베이스를 모두 인터넷에 공개했다.
때로는 한 장의 그래프가 수십매짜리 기사 여러건 보다 더 많은 말을 한다. 한국수력원자력 계약업체들 임원들 현황. ⓒ뉴스타파.
권 소장 뿐만 아니라 데이터 저널리즘 전문가들은 하나 같이 “데이터 저널리즘의 80%는 자료 수집과 가공”이라고 말한다. “데이터 마이닝은 굉장히 지루하고 끈기와 집념을 필요로 하는 작업”이라고도 말한다. 흔히 외국은 리서처와 애널리스트가 따로 있는 경우가 많지만 권 소장 같은 경우는 두 가지 작업을 동시에 해 왔다. 자료 수집부터 이미지 스캔과 보정, 데이터 분석과 가공, 비주얼라이제이션까지 맡는 ‘올라운드 플레이’가 가능해야 했다.
요즘은 데이터 저널리즘 관련 강좌도 많이 생겼지만 몇 시간 배운다고 터득할 수 있는 건 아니다. 조세회피처 보도의 경우 한국 주소는 드러났지만 실제 거주지가 아닌 경우도 많고 영어 이름과 한국 이름이 다른 경우도 많았다. 네이버나 구글 검색으로 뚝딱 나오는 자료도 아니다. 등기부 등본은 기본이고 과거 기사 검색과 인비지블(invisible) 딥 웹이나 버티컬 포털을 최대한 효율적으로 뒤져야 한다. 정해진 답이 없고 사안에 따라 해법이 다 다르다.
조세회피처 보도는 권 소장에게 그동안 쌓은 데이터 리서치 노하우를 마음껏 풀어놓을 수 있는 흥미로운 도전이었다. 어딘가에는 있는 자료지만 어떻게 그걸 찾고 상관관계를 읽어내느냐가 관건이다. 데이터 저널리즘은 마치 거대한 퍼즐의 조각을 맞춰나가는 것과도 같다. 현장 기자의 감이 중요하지만 그 감을 입증하기 위해서는 권 소장과 같은 전문가들의 도움이 필요하다. 때로는 현장 취재로 얻을 수 없는 정보를 데이터에서 발견하는 일도 있다.
노가다를 최대한 줄일 수 있는 방법은 없을까. 자료 다듬는 데 시간을 들이기 보다는 애초에 정부 부처에서 ‘머신 리더블’한 자료를 달라고 요구하는 게 근본적인 해법일 수 있다. 그러나 아무리 이야기해도 잘 바뀌지 않는다. 권 소장이 가디언 데이터 블로그 팀장 출신의 사이먼 로저스를 만나서 물었더니 “PDF를 텍스트로 바꾸는 데 엄청난 시간을 들인다”고 해서 역시 어디나 마찬가지구나 하는 생각을 했다고 한다.
물론 권 소장도 지금은 이런 ‘허드렛일’을 다른 직원이나 아르바이트생을 시킬 때도 많다. 데이터저널리즘연구소에는 리서치와 데이터 분석, 웹 기획과 관리 등 4명의 팀원이 업무를 나눠맡고 있다. 그러나 역시 중요한 자료를 분석할 때는 권 소장도 직접 로(raw) 데이터를 들여다 본다. 행과 열이 하나만 잘못 틀어져도 전체 데이터가 망가지고 전혀 엉뚱한 결과를 끌어낼 수 있기 때문이다.
권혜진 뉴스타파 데이터저널리즘연구소 소장. ⓒ뉴스타파 제공.
조세회피처 보도를 두고 다른 언론사에서 질시어린 시선도 많이 받았다. 운 좋게 자료를 받아서 특종을 한 것일 뿐, 분석 자체는 누구나 할 수 있는 것 아니냐는 지적도 있었다. 실제로 국제탐사보도언론인협회(ICIJ)에 자료 요청을 한 국내 언론사가 굉장히 많았다. 뉴스타파가 비영리 탐사 보도라는 간판을 내걸었기 때문이기도 하지만 과거 케이만군도 등 조세회피처 보도를 꾸준하게 해 왔다는 사실을 높이 평가했던 것 같다는 게 권 소장의 설명이다.
권 소장은 “조세회피처라고 해서 복잡하게 생각할 거 없다”면서 “다트만 잘 뒤져도 엄청나게 많은 정보를 얻을 수 있다”고 말한다. 다트(dart)는 금융감독원 전자공시 사이트를 말한다. 기업 결산 보고서와 감사 보고서 등이 올라오는데 주주 구성과 출자 관계 등의 정보도 담겨 있다. 문제는 다트 역시 ‘머신 리더블’ 자료가 아니고 뭔가 데이터를 추출하려면 산더미 같은 수작업 노다가에 인력과 비용을 투자해야 한다는 데 있다.
“이 일을 시작하면서 디자인 보다는 먼저 데이터를 만들어야 되겠다는 생각을 했습니다. 한국은 특히 쓸 수 있는 데이터가 많지 않아요. 힘들여서 만든 데이터를 기사 한 번 쓰고 버리는 경우도 많죠. 그래서 우리가 먼저 데이터를 만들어서 공개하고 다른 언론사도 참여하도록 하고 다양한 취재와 보도에 활용할 수 있는 공공적인 데이터베이스를 만드는 작업을 해보고 싶었죠. 공직자 재산 분석 보도는 그런 첫 사례였다고 생각합니다.”
미국 시카고대 교수인 스티븐 레빗이 쓴 ‘괴짜 경제학’에는 일본 스모 선수들의 조직적 승부 조작 정황을 시합 결과를 데이터 분석으로 입증한 사례가 나온다. 스모 정규 대회는 선수들마다 15차례의 시합을 하는데 8승 이상이면 순위가 오르고 그 미만이면 순위가 떨어지거나 탈락될 수도 있다. 그래서 대회 마지막날 7승7패한 선수와 8승6패한 선수가 붙는 경우를 모두 더해 통계를 내봤더니 7승7패한 선수가 이기는 확률이 압도적으로 높게 나타났다.
이를 테면 한국처럼 법관의 전관예우 문제가 심각한 나라에서는 판사와 검사, 변호사의 출신학교 데이터를 집어넣고 양형과 비교 분석해 보면 유의미한 결과가 나올지도 모른다. 금융감독원에서는 주가조작 사건을 수사할 때 합리적이지 않은 거래(더 싸게 살 수 있는데 비싼 가격에 매수 주문을 낸다거나)를 모니터링하면서 비슷한 패턴을 보이는 계좌들 사이의 상관관계를 파고든다. IP 주소를 교차 확인하면 대부분 주가조작을 잡아낼 수 있다.
권 소장의 경우 조류독감의 발생 빈도를 추적하려 데이터를 수집하는데 구체적인 주소를 확인할 수가 없었다. 그런데 한참을 뒤진 끝에 한국 정부가 UN에 보고한 자료에서 GIS(지리정보시스템) 데이터를 발견할 수 있었다. 국내 자료를 해외에서 구할 수 있는 경우가 가끔 있다. 원자력발전소 비리를 취재할 때는 관련 재판의 판결문을 분석해서 등장인물과 관련 기업의 연결망을 추적 분석하기도 했다. 정보는 넘쳐난다. 그걸 찾는 게 문제 해결의 80%다.
이를 테면 박근혜 정부 최대 미스터리로 꼽히는 4월16일의 사라진 7시간을 데이터 저널리즘 기법으로 규명할 수 있을까. 권 소장은 “데이터 저널리즘은 데이터 사이언스와 달리 논리적 완결성을 갖추지 못할 수도 있다”면서 “중요한 건 계속해서 질문을 던지고 가설을 갖고 그 가설을 입증할 데이터를 추적해 들어가는 것”이라고 말했다. 100% 진실을 밝혀내지는 못하더라도 실체에 어느 정도 가깝게 접근할 수는 있다는 이야기다.
데이터 저널리즘의 성과가 알려지면서 데이터 저널리스트가 되고 싶다는 지망생들이 늘어났는데 아직 언론사의 수요는 제한적이다. 권 소장은 이 후배들에게 “데이터 저널리스트가 따로 타고 나는 게 아니라 우선은 취재 기자들부터 데이터 저널리즘 기법을 익혀서 취재의 영역을 확장해 나가는 방향으로 가는 게 바람직하다”고 조언한다. 실제로 해외 데이터 저널리즘 학회 발표 내용을 보면 취재 기자 출신이 대부분이다.
일단은 스프레드시트(엑셀 등) 활용법부터 익히는 게 중요하고 무엇보다도 데이터에서 의미를 뽑아내는 훈련이 필요하다. 구글 퓨전테이블(Fusion Tables)이나 타블로(Tableau), 노드엑셀(NodeXL) 같은 툴은 일반 취재 기자들도 조금만 익히면 바로 활용할 수 있다. 데이터 저널리스트라고 해서 엄청나게 복잡한 기술과 장비를 활용하는 게 아니라는 이야기다. 인포그램 같은 서비스를 이용하면 디자이너 도움 없이도 직접 인포그래픽을 만들 수 있다.
데이터 저널리즘은 테크놀로지라기 보다는 80% 이상이 ‘삽질’의 연속이다. 취재가 접근할 수 없는 영역, 수면 아래 가라앉아 있는 진실에 접근하는 게 데이터 저널리즘의 역할이지만 데이터를 가공하고 분석하는 건 다음 단계고 우선은 데이터에 접근하는 과정이 더욱 중요하다. 취재의 보완이나 대안이라기 보다는 취재의 확장이라고 보는 게 맞다는 게 권 소장의 설명이다.
권 소장은 데이터 저널리즘에 관심이 있는 언론사들끼리 연대해 기초적인 데이터베이스를 공유하는 비영리 기구를 만들자는 제안을 해볼 생각이다. 한국언론재단 등 데이터 저널리스트 교육 과정에도 참여하고 있고 새로운 시도를 하는 다른 언론사 후배 기자들에게 자문과 조언을 아끼지 않는다. 정부 부처와 기관들이 정보 공개와 공유에 대한 인식을 바꾸도록 압력을 넣는 작업오 이 기구를 통해 추진할 계획이다.
이정환 기자의 트위터를 팔로우 하세요. @ leejeonghwan
댓글 없음:
댓글 쓰기