아이티랩 - ‘하루살이’ 뉴스를 정보의 원석으로 바꾼 빅카인즈

뉴스만큼 소비 가치를 빨리 잃어버리는 콘텐츠는 없을 것이다. 영화, 방송 프로그램 같이 다양한 미디 어를 거쳐 2차, 3차로 확장해갈 수 있는 콘텐츠와 달 리, 뉴스는 하루살이 베스트셀러 1의 성격이 강하다. 뉴스 속에 포함돼 있는 사건, 시공간, 등장인물은 한 번 읽어버리면 그만인 이벤트에 불과하다. 그나마 ‘월간지는 1개월, 주간지는 1주, 일간지는 1일’로 유지돼 오던 뉴스의 수명 주기는 속보기사의 시대로 접어들면서 수초 단위로 바뀌어 버렸다. 최근 중복적으로 같은 내용의 기사를 전송하는 어뷰징 기사의 등장은 수초에 달하는 기사의 수명을 1분간만이라도 연장하려는 언론사의 몸부림이기도 하다.

‘카인즈’에서 ‘빅카인즈’로 진화

빅카인즈 메인화면. 서비스 개발을 완료하고 현재 오픈 준비 중이다.

빅카인즈 메인화면. 서비스 개발을 완료하고 현재 오픈 준비 중이다.

이렇게 수초 단위로 뉴스가 소비되는 미디어 환경 에서 한국언론진흥재단이 1990년부터 운영하고 있는 뉴스 데이터베이스 카인즈(KINDS)는 다소 모순적인 존재였다. 카인즈에는 20년이 훌쩍 넘은 기사들이 묵혀 있다. 물론 지금도 속보기사가 전송되고는 있지만 카인즈의 가치는 ‘실시간성’에 있는 게 아니라 수년간 켜켜이 쌓여온 기사들의 ‘역사성’에 있다. 하지만 속보기사 일변도의 환경에서, 그리고 오래된 뉴스는 읽히지 않는 미디어 환경에서 과연 카인즈의 과거기사가 어떤 가치를 지닐 수 있을까?

‘뉴스 빅데이터 분석 시스템 구축’ 사업은 이런 배경에서 시작됐다. “어떻게 하면 사람들이 오래된 기사를 다시금 꺼내볼 수 있게 할 수 있을까?” “어떻게 하면 뉴스를 재활용할 수 있을까”와 같은 고민에서 탄생한 게 바로 이 프로젝트였다. 우리는 카인즈의 뉴스를 분석이 가능한 ‘빅데이터’의 일종으로 보고, ‘분석 가치’를 부여해 뉴스 콘텐츠를 다시 보는 계기를 만들고자 했다. 이러한 시도는 뉴스 생산자인 언론사도 충분히 함께할 수 있는 것이라 생각 했다. “어뷰징 등으로 언론사 스스로 뉴스를 저품질화하는 악순환을 어떻게 벗어날 것인가”는 언론계가 같이 고민하는 지점이었다. 뉴스가 하루살이 정보가 아닌 두고두고 쓰이는 가치 있는 정보로 거듭난다면, 뉴스는 좀 더 고상해질 수 있을 테다.

[그림] 빅카인즈 키워드 분석 관계도.(예시 키워드 : 기준금리)

[그림] 빅카인즈 키워드 분석 관계도.(예시 키워드 : 기준금리)

현재 뉴스 빅데이터 분석 시스템은 지난해 말 개발을 끝내고 현재 서비스 오픈을 준비 중이다. 뉴스 빅데이터 분석 시스템은 크게 두 가지 서비스로 제공될 예정이다. 하나는 뉴스 빅데이터 분석 결과를 시각화된 화면으로 제공하는 일반인용 서비스와 언론인, 학자 등 전문가가 직접 심층 뉴스 분석 데이터를 만들어 다운로드까지 할 수 있는 전문가용 서비스다.

단순 뉴스 ‘소비자’에서 ‘분석가’로

일반인용 서비스는 ‘빅카인즈(BIG KINDS)’ 란 서비스명으로 2016년 3~4월 중 오픈할 계획이다. 키워드 검색을 기반으로 하며, 키워드 언급 추이, 뉴스 히스토리, 매체별 언급 빈도 등 다양하고 입체적으로 뉴스를 파악할 수 있는 기능을 제공하는  것이 특징이다. 주목할 점은 최근 새로운 조류로 부상하고 있는 스트럭처 저널리즘 2을 빅카인즈가 충실히 구현했다는 점이다.

빅카인즈는 뉴스 속에 등장한 인물· 기관·장소 키워드를 분리해 그들 사이의 관계도를 그래프로 보여준다. 예컨대 ‘기준금리’라는 키워드를 입력하면 해당 단어와 함께 가장 많이 언급된 ‘한국은행’ ‘연준(미 연방준비제도)’ 등 기관명과 이주열 한국은행 총재 등 인물명, ‘미국’ ‘북한’ 등 장소명이 함께 연결돼 표출되는 식이다[그림 참조]. 이용자는 특정 키워드 가 뉴스 속에서 어떤 인물과 기관, 장소와 함께 언급이 됐는지 재맥락화된 정보를 얻을 수 있다. 이러한 기능은 스트럭처 저널리즘을 구현한 대표적 서비스 인 ‘뉴스 익스플로러’ 3의 기능과도 유사하다.

이 외에도 특정 주제 와 관련해 어떤 인물이 뉴 스 속에서 발언을 많이 했 는지, 어떤 발언을 했는지 등을 뽑아 보여주는 ‘정보원 분석 서비스와 특정 키워드가 연도별로 얼마나 언급됐는지를 계산해주는 ‘이슈 트렌드’ 서비스도 제공 한다. 이러한 서비스의 특 징은 이용자가 뉴스를 좀 더 구조적인 맥락으로 바라 볼 수 있게 한다는 것이다.

한국의 입시와 관련해 교육부 장관이 어떤 발언을 해 왔는지 뽑아보고, ‘입시’와 ‘취업’ 중 어떤 단어가 뉴스 에서 더 다뤄졌는지 시대별로 분석해볼 수 있다. 이를 통해 단건 뉴스만을 소비 하던 이용자는 능동적으로 뉴스를 분석하는 ‘참여 자’로 변화할 수 있다.

전문가를 위한 ‘빅카인즈-프로(가칭)’

정보원 분석 서비스 화면. '금리'라는 단어를 넣어 분석한결과 해당 이슈와 관련해 가장 발언을 많이 한 인물들을 보여준다. 차례대로 이주열 한국은행 총재, 박근혜 대통령, 임종룡 금융위원장.

정보원 분석 서비스 화면. ‘금리’라는 단어를 넣어 분석한결과 해당 이슈와 관련해 가장 발언을 많이 한 인물들을 보여준다. 차례대로 이주열 한국은행 총재, 박근혜 대통령, 임종룡 금융위원장.

전문가용 서비스는 기자, 학자 등 전문가를 대상 으로 제공된다. 서비스명은 ‘빅카인즈-프로(BIG KINDS-Pro)(가칭)’이다. 빅카인즈-프로(가칭)에서는 좀 더 상세한 분석 조건을 설정할 수도 있고, 분석한 자료를 내려받을 수도 있다. 일반인용 서비스 와 구별되는 가장 큰 특징은 ‘텍사노미’ 관리 기능이다. 텍사노미란 단어 간 분류체계를 만들어놓은 일종의 단어사전이다. 예컨대 ‘한국 대통령’이란 텍사노미를 만들어두고, 해당 텍사노미에 역대 한국 대통령 이름을 모두 저장하는 식이다. 이렇게 저장된 텍사노미는 대통령 이름이 등장한 뉴스만을 검색하는 등 필요한 뉴스만을 뽑아내는 데 사용할 수 있게 된다.

이렇게 필요한 뉴스만 추려낸 후에는 정보원 분석, 키워드 빈도, 워드크라우드 등 빅카인즈-프로(가칭)에서 제공하는 다양한 뉴스 분석 기능을 적용하기만 하면 된다. 분석된 자료는 엑셀 데이터로 다운로드해 SPSS와 R과 같은 통계분석 프로그램으로 추가 분석할 수도 있다. 추출 정보를 시각화해 웹에 게시하는 퍼블리싱 기능도 함께 제공한다.

재단은 이미 강원도민일보, 동아일보, 한겨레신문, 한국경제 등 4개 언론사와 함께 뉴스 빅데이터 분석의 활용 가능성을 확인한 바 있다. 4개 언론사가 뉴스 빅데이터 분석 데이터를 활용해 신년 기 획물을 제작했고, 의미 있는 기사들을 생산해냈다. 기자가 빅카인즈-프로(가칭)을 제대로 활용한다면 ‘데이터 저널리즘’을 넘어선 ‘빅데이터 저널리즘’이 가능할 것이라 기대하는 이유다.

뉴스 빅데이터의 가치

그림1

전문가용 서비스인 ‘빅카인즈-프로(가칭)’ 의 분석 화면.

그림2

전문가용 서비스인 ‘빅카인즈-프로(가칭)’ 의 분석 화면.

 

물론 한계는 있다. 아직 세부적으로 개선해야 할 부분도 많고, 검증되지 않은 새로운 서비스를 제공해야 한다는 부담도 크다. 뉴스 생산자인 언론사의 협조도 절실하다. 하지만 뉴스 데이터에 ‘분석 가치’를 부여한 첫 시도라는 점에서 뉴스 빅데이터 분석 시스템이 가지는 의미는 크다. 단순 조회용으로 소비됐던 뉴스 콘텐츠가 유용한 정보를 담고 있는 ‘원석’ 으로 변화할 계기다.

“빅데이터는 인문학을 바꾸고, 사회과학을 변형 시키고, 상업 세계와 상아탑 사이의 관계를 재조정 할 것이다” 4 ‘빅데이터 인문학’이란 책에서 등장하는 구절이다. 뉴스 빅데이터가 만들어낼 세계가 이와 같지 않을까. 뉴스는 그 시대의 문화와 사회, 역사를 담고 있는 보고다. 이 데이터를 잘만 활용하면 우리는 주변에서 발생하는 여러 사회현상들에 대한 통찰력을 얻을 수 있게 될지 모른다. 더 나아가 역사와 문화, 인문학과 사회과학에 적용될 수 있는 ‘해석 도구’로서 뉴스 빅데이터가 쓰이게 될 수도 있다.

앞으로 재단은 시스템 고도화를 통해 좀 더 서비 스를 안정화시키고 새로운 분석 기능들을 지속적으 로 개발해 나갈 예정이다. 뉴스 빅데이터 분석 시스 템이 언론에 새로운 바람을 불러일으킬 수 있기를 기대해본다.

이 기사는 한국언론진흥재단이 매월 발간하는 ‘신문과방송’ 3월호에 게시된 글입니다. 원고의 저자는 김수지 한국언론진흥재단 뉴스빅데이터팀 사원입니다. 원제는 ‘뉴스의 변신 ‘하루살이’에서 정보의 원석으로’입니다. <블로터>는 한국언론진흥재단과 콘텐츠 제휴를 맺고 동시 게재하고 있습니다. 신문과방송 원문은 미디어가온에서도 확인하실 수 있습니다.

각주

  1.  Benedict Anderson(2006), Imagined Communities, London, Verso, 1991, p.35
  2.  스트럭처 저널리즘(structured journalism)은 정보를 비트와 조각으로 쪼갠 후 다양한 방식으로 다시 섞고 짜 맞추는 저널리즘을 말한다. 스트럭처 저널리즘의 가장 큰 특징은 ‘재맥락화’다. 인물, 인물의 인용구, 사건사고 등 뉴스 속 정보들을 새로운 사실과 정보와 연결해 의미와 가치를 만들어낸다. <2015 해외 미디어 동향-06> 참조.
  3.  2015년 IBM 왓슨이 공개한 서비스로, 자연어처리 기술을 통해 특정 키워드에 대한 인물, 기관, 회사의 연결망과 관련 뉴스의 타임라인 등을 제공한다.
  4. 에레즈 에이든·장바티스트 미셸, ‘빅데이터 인문학’(김재중 옮김, 사계절, 2015, 17쪽). 이 책의 저자는 빅데이터의 사례로 구글이 구축한 3,000만 권의 디지털 책을 꼽는다. 그리고 책 속 키워드 빈도를 뽑아내는 구글의 ‘엔그램 뷰어’ 서비스로 역사, 문화, 사회에 이르는 방대한 분석을 내놓는다. ‘디지털 책 데이터’가 ‘뉴스 데이터’로 바뀌었을 뿐, 구글의 엔그램 뷰어 서비스는 빅카인즈 서비스와 별반 다르지 않다. 빅카인즈도 수십 년간 쌓아온 뉴스 속에서 키워드 빈도를 뽑아내는 ‘이슈 트렌드’ 서비스를 제공하고 있다.

의견 0 신규등록      목록