아이티랩 - 로봇 기자는 인간 기자 대체재 아닌 조력자

국내에서 파이낸셜뉴스를 통해 처음으로 로봇으로 작성한 기사를 송출하기 시작한 이후 주변으로부터 관심이 쏟아졌다. 가장 흔한 반응은 로봇이 기자의 일자리마저 빼앗게 되는 건 아닐까 하는 우려였다. 새로운 기술이 등장할 때마다 실제로 많은 인간들의 일들을 기계가 대체해왔고 이러한 배경에서 기자라는 일자리마저 대체되지는 않을까 하는 공포를 느끼는 것 같다. 특히 ‘로봇’이라는 용어 때문에 마치 인간과 경쟁 관계라는 오해를 부르기도 한다.

창조는 불가능

결론부터 말하자면, 알고리즘에 기반한 로봇 기자는 기자를 대체하는 것이 아닌 보완하는 역할을 한다. 단순 클릭 숫자를 늘리기 위해 어뷰징 기사를 생산해 내는 일을 하고 있다면 앞으로 알고리즘과 경쟁해야 할지도 모른다. 그러나 알고리즘이 잘 할 수 있는 일과 사람이 잘 할 수 있는 일은 다르다. 지난해 네이처 커뮤니케이션(Nature Communications)에 실린, ‘딥러닝’딥러닝은 인공신경망의 한계를 극복하기 위해 제안된 기계학습 방법이다. 인공신경망은 높은 분류 정확도에 비해 속도가 느린 것이 단점이었다. 게다가 과적합(overfitting)도 웬만해선 해결되지 않는 과제였다. 이 때문에 비교적 오랜 기간 실무에선 배척 당하기도 했다. 하지만 최근 들어 이 분야를 깊숙이 고민해온 연구자들이 그에 대한 해법을 내놓으면서 다시 각광을 받기 시작했다. close 기술을 적용한 알고리즘을 이용하여 거장의 미술 작품을 모방해낸 한 논문이 주목을 받았다[사진1 참조]. 독일의 연구팀에서 개발한 이 알고리즘은 어떤 장면이라도 피카소나 고흐와 같은 거장의 회화 작품을 유사하게 그려낸다. 그러나 이 알고리즘이 아무리 정교할지라도 새로운 화풍을 창조하는 것은 불가능하다는 면에서 알고리즘은 예술가를 대체할 수 없다.

로봇 저널리즘의 대표적인 예로 미국지질조사국(USGS)에서 제공하는 데이터를 기반으로 지진이 일어나면 LA타임스에 즉시 기사를 게시하는 ‘퀘이크봇’을 거론한다. 지진파 데이터를 지속적으로 수집하다가 일정 수준 이상의 수치가 감지되면 기사를 만들어 내는 것이다. 자료의 수집, 데이터 분석, 가치 판단, 자료의 출력을 알고리즘이 대신하는데 알고리즘이 이러한 일련의 작업들을 모두 자동으로 진행하면서, 마치 사람이 기사를 작성하는 것과 유 사하기 때문에 (책상에 앉아 기계장치로 키보드를 두드리지는 않지만) ‘로봇’이라고 불리게 됐다. 퀘이크봇은 사람보다 빨리 재난 정보를 송고할 수 있다는 점 때문에 로봇 저널리즘이 가진 장점을 언급할 때 자주 소개되기도 한다.

국내에서 로봇 기사는 어떻게 작성되고 있을까. 본 연구팀에서는 지난해에 프로야구 경기의 기사를 자동으로 작성하는 로봇 저널리즘 소프트웨어를 개 발하여 작성된 기사를 페이스북에 게시했다.https://www.facebook.com/kbaseballbotclose 그리고 올해 1월 21일부터는 주식시황 기사를 작성하는 소프트웨어를 개발하여 매일 알고리즘이 작성한 기사를 파이낸셜뉴스를 통해 배급하고 있다. 프로야구 뉴스 로봇과 마찬가지로 주식 시황 기사의 경우 에도 기사의 자동 생성은 모두5단계의 과정을 거치 는데, 각각 데이터 수집, 이벤트 추출, 핵심 이벤트 감지, 무드 감지, 기사 작성 순이다. 이러한 과정은 사람 이 기사를 작성하는 것에 그대로 비교해볼 수 있다.

빠르고 실수 없는 데이터 수집

이준환_언론현장_1

[사진 1] 딥러닝 알고리즘을 이용하여 제작한 미술 작품(A Neural Algorithm of Artistic Style / Gatys, et al.). 독일의 한 연구팀에서 개발한 알고리즘을 활용해 피카소나 고흐와 같은 거장의 작품을 유사하게 그려냈지만, 알고리즘이 아무리 정교할지라도 새로운 화풍을 창조하는 것은 불가능하다.

먼저 ‘인간 기자’는 기사를 쓰기 위해 인터뷰, 검색 등의 방법을 통해 자료를 수집한다. 정해진 시간마다 주가, 거래량 등을 체크하고 주목할 만한 수치가 있는지 확인한다. 필요에 따라 전문가를 직접 만나 이야기를 듣기도 한다. 한편, 로봇 기자는 자료를 수집하는 프로그램인 크롤러(crawler)를 이용하여 자료를 수집한다. 미리 설정해 둔 시간마다 실시간으로 자료를 가져오는데, 대부분 한국거래소가 웹을 통해 공개하는 수치들이다. 명령을 내리지 않은 자료까지 알아서 가져오지는 않지만, 거의 모든 데이터를 실수 없이 빠르게 수집하여 데이터베이스에 저장한다.

다음 단계에서는 어떤 내용을 기사로 쓸 것인지 결정한다. 주식 시황 기사는 일반적으로 형식이 정해져 있기 때문에 사람이 작성하더라도 매일 비슷한 경우가 많지만, 특이 사항이 있을 경우 그 내용을 리드로 가져간다. 예를 들어 미국 증시가 많이 떨어진 다음 날이라면 “미국 증시 영향으로 코스피 하락”이라는 내용을 기사의 핵심으로 정하게 된다. 로봇 기자도 비슷한 일을 수행한다. 여러 수치들을 입력하면, 판단 알고리즘을 통해 이벤트를 추출한다. 그리고 각각 이벤트마다 서로 다른 가중치를 두고, 그날 입력된 수치를 대입하여 어떤 이벤트가 더 중요한지 판단하게 된다. 이를 통해 ‘핵심 이벤트’를 검출한다. 핵심적인 이벤트가 검출된 다음 바로 기사를 적기에 앞서, 글의 ‘무드’를 결정한다. 해외 증시 영향을 핵심 이벤트로 잡더라도 단순히 “영향을 받았다”에 그칠 수도 있고, 폭락에 대한 위기감을 강조할 수도 있다. 경험이 많은 사람이 더 현명한 판단을 하는 것처럼, 로봇은 그간에 축적된 데이터베이스에 근거해서 더 정교한 판단을 할 수 있게 된다.

결정된 이벤트와 무드에 따라 미리 준비된 다양한 문장들 중 적합한 문장을 선별하고 조합하여 사람이 읽을 수 있는 글로 완성한다. 이때에는 글이 자연스러워 보이도록 하는 알고리즘이 사용된다. 단순히 빈칸만 채워 넣으면 어색해 보일 수 있기 때문이다. 알고리즘이 도출한 무드에 따라 ‘폭등’이라고 할 것인지 ‘상승’이라고 할 것인지 선택한다. 기계가 썼다는 어색함을 감추기 위해 어떤 때에는 여러 비슷한 표현 중에 랜덤으로 하나를 선택하기도 한다. 사람이 학습한 다양한 문장 표현 중 적절한 것을 고르는 과정이랑 비슷하다고 할 수 있다. 마지막으로 인간 기자가 글을 퇴고하고 시스템에 접속해서 기사를 송출하듯 로봇 기자도 시스템에 자동으로 접속하여 완성된 기사를 내보낸다[사진2 참조].

이준환_언론현장_2

[사진 2] 알고리즘을 통해 생성된 증시 시황 기사. 데이터 수집, 이벤트 추출, 핵심 이벤트 감지, 무드 감지, 기사 작성의 5단계 과정을 거쳐 자동으로 기사가 생성된다.

스스로 판단할 수 있어

로봇 저널리즘의 아이디어는 주식 기사가 수치를 기반으로 하는 분야이기에 가능했다. 주식 시황 기사는 코스피의 등락폭, 매매 주체별 거래량, 업종별 등락 등의 정보를 말로 풀어내는 것이 대부분을 차지한다. 미국의 로봇 저널리즘 기업 오토메이티드 인사이츠에서도 기업의 실적 데이터를 입력하여 AP에 다수의 실적 기사를 제공하는 것으로 유명해졌다. 그 밖에도 범죄율 변화, 선거 결과, 항공기 지연 등 고객사의 요구에 맞는 기사의 종류를 제공하는데, 모두 수치 데이터를 입력해서 이를 바탕으로 그래프를 그리거나 자연어로 바꾸어 제공한다.

로봇 기사를 만드는 프로그램의 핵심은 데이터에 기반하여 뉴스거리가 무엇인지 판단하는 알고리즘이다. 정해진 규칙과 준비된 문장이 아무리 많아도 그날의 상황에 적절한 기사가 나와야 어색하지 않다. 현재와 같이 기사가 나오기 시작한 지 얼마 안되는 상황에서는 보는 사람 입장에서 알고리즘이 지나치게 단순하다고 느낄 수도 있다. 로봇은 사람이 하는 것과 비슷한 결정을 내릴 수는 있지만, 사람이 한 번도 하지 않은 결정을 스스로 할 수는 없다. 따라서 데이터가 꾸준히 쌓이고 알고리즘이 이를 지속적으로 학습한다면 현재보다는 훨씬 다양한 판단을 바탕으로 기사를 작성하게 될 것이다.

기사에 포함될 이벤트의 종류가 다양해질수록 판단의 문제는 복잡해진다. 가령, 국제 유가가 1% 상승했고 중국의 증시가4% 상승했다고 하면, 오늘의 기사에서는 무엇을 중요하게 다루어야 할까. 일반적으로 국제 유가의 영향이 더 크다면, “국제 유가의 상승으로 인한 국내 증시의 상승”을 주제로 잡을 수도 있겠지만, 중국의 증시의 영향이 유가에 비해 적다 해도 숫자가 크기 때문에, “중국 증시의 영향에 따른 국내 증시 상승”을 주제로 잡을 수도 있을 것이다. 더구나 이날 외국인이20일 연속으로 매수세를 보였다면 이 가운데 어떤 것을 주제로 삼아야 할 것인가. 실제 주식 시장에는 이보다 더 많은 변수가 존재하고, 이 중에 어떤 내용을 주제로 선정할 것인지 판단하는 것은 단순하지 않다.

이러한 판단을 위해 데이터를 축적하는 것이 필요하다. 데이터가 주어지면 알고리즘 이전에 내려졌던 결정들을 비교하여 가장 가까운 결과를 선택한다. 그리고 이 결정은 데이터를 바라보는 시각에 따라 좌우된다. 위의 예에서 유가와 중국 증시의 상승, 외인 매수세 사이의 중요도는 이를 바라보는 기자의 시각에 따라 달라진다. 알고리즘에도 역시 이들 중요도의 우선순위를 계속 알려준다면 주제 선정을 보다 수월하게 할 수 있다. 따라서 정교한 선택 알고리즘을 개발하는 것도 중요하지만, 많은 양의 기사 결정 경험 데이터가 중요해진다. 로봇 기자도 학습과 성장이라는 과정을 거치게 되는 것이다.

처음엔 연구자들이 개입하여 룰을 정하고 로봇의 판단을 수정하는 휴리스틱한 방법을 사용하지만, 이를 기반으로 데이터가 쌓여갈수록 로봇 스스로 학습하고 판단하는 능력이 정교해진다. 이러한 판단 과정이 ‘기계 학습’이다. 카네기멜론대학의 펭슝 수 등이 만든 ‘딥 블루’가 1996년에 세계 체스 챔피언을 꺾었고, 구글이 만든 ‘알파고’가 바둑을 세계 최고 수준급으로 둘 수 있게 된 원리가 여기에 있다. 시간이 지날수록 더 많은 데이터가 모이면, 정확한 예측을 할 수 있는 샘플의 숫자가 늘어가면서 자연스럽게 성능이 월등해지는 원리가 로봇 저널리즘에도 똑같이 적용된다.

로봇 기자의 효율성

election

오토메이티드 인사이츠의 알고리즘이 작성한 선거 기사.(사진 출처 : Automated Insights 홈페이지)

로봇 기자가 쓴 글에서는 단순 반복 작업의 대체 이 외에도 새로운 가치를 발견할 수 있다. 기사의 근거가 개인의 직관, 경험 혹은 다른 사람의 의견이 아니라 명백한 데이터에 기반한다는 것이다. 기존 언론 에서는 정보원의 권위에 기대어 타당성을 주장하는 경우도 있어 왔다. 때로는 정치적 목적이 개입하기도 한다. 그러나 로봇 기자는 이로부터 상당히 자유 로울 수 있으며, 데이터에 기반하여 가치 창출 방식의 전환을 가져올 수 있다. 게다가 언론인이 각종 통계 및 방법론을 이용하여 직접 정보를 만들어 내기도 하지만, 불과 몇 초 안에 수천여 개에 달하는 수치를 종합적으로 분석해서 결과물을 내놓는 로봇 기자에게 효율성 면에서 비할 바 아니다.

로봇 저널리즘은 보다 새로운 가치를 창출할 수 있는데, 그중의 하나가 개인화이다. 주식 기사의 예에서도 일반적으로 보면 시가 총액 순위가 높은 종목에 비중을 두고 설명하는 것이 가치가 있겠지만, 사실 독자 하나하나의 입장에서는 내가 가진 주식에 대해 설명해준다면 보다 더 만족도를 높일 수 있을 것이다. 사람마다 자신을 잘 아는 비서를 한 명씩 고용해서 맞춤형 기사를 받을 수 있으면 좋겠지만, 그럴 수 없다면 로봇 저널리즘이 저비용으로 이를 가능하게 해준다. 또 다른 예로 결과물 형태의 다양성을 들 수 있다. 앞으로의 로봇 저널리즘 결과물은 신문 기사 형식에 머무르지만은 않을 것이다. 기존에 언론인이 작성하던 형태를 학습하여 이와 비슷한 기사를 만드는 것이 로봇 저널리즘의 궁극적인 목적이 아니다. 정보는 공급받는 자에게 가장 적합한 형태로 제공되어야 한다. 예를 들면, 전통적인 기사문의 형태가 아니라 대화형으로 궁금한 정보만을 묻고 받는 게 적절할 수도 있다.

사용자의 상황에 기반하여(context-aware) 정보를 제공하는 형태가 될 수도 있다. 정보가 제공되는 공간은 신문의 지면이나 컴퓨터 모니터뿐만 아니라, 스마트워치와 같은 웨어러블 기기, 공공장소의 광고판, 디스플레이 장치가 삽입된 거울 등으로 다양해지고 있다. 로봇 저널리즘을 활용하면 각각의 형태마다 따로따로 기사를 쓰는 것이 아니다. 기사가 여러 개 이벤트의 조합으로 이루어지기 때문에, 지면의 크기에 제한이 생기면 각각의 이벤트가 가지는 중요도에 따라 정보를 넣고 빼서 적절한 길이의 기사를 상황에 맞게 제공하게 된다.

로봇 저널리즘과 관련된 글들을 검색해보면 종종 “사람이 쓴 글과 구별하기가 힘들다”는 이야기가 나오곤 한다. 그러나 로봇 저널리즘의 목적이 “사람과 똑같이 글을 쓰는”데에 있지는 않다. 앞서 언급 했듯이 로봇 저널리즘은 기자들의 일자리를 빼앗기 위해 등장한 것이 아니라 빠르고 정확한 연산 능력을 가진 컴퓨터를 이용해 대용량의 정보에서 개개인에게 필요한 정보를 자동으로 수집, 분석하여 전달하는 데에 그 본연의 목적이 있다. 따라서 컴퓨터를 이용해 더 잘할 수 있는 일은 컴퓨터에게 맡기고, 기자는 사건의 배경이나 의미를 분석하면서 저널리즘 본연의 임무에 더 집중할 수 있도록 하는 것이 로봇 저널리즘이 가진 진정한 가치가 아닐까 싶다.

이 기사는 한국언론진흥재단이 매월 발간하는 ‘신문과방송’ 3월호에 게시된 글입니다. 원고의 저자는 오종환·이준환 성루대학교 융합과학부 박사과정·서울대학교 언론정보학과 교수입니다. <블로터>는 한국언론진흥재단과 콘텐츠 제휴를 맺고 동시 게재하고 있습니다. 신문과방송 원문은 미디어가온에서도 확인하실 수 있습니다.

의견 0 신규등록      목록