아이티랩 - 구글 인공지능 딥마인드, 입 모양 보고 말도 알아듣는다

딥러닝의 영역확장이 거세다. 알파고로 잘 알려진 구글의 인공지능팀 딥마인드와 옥스퍼드대학 연구진이 인공지능을 활용해 독순술(입술의 모양을 바탕으로 발언을 유추하는 기술)의 정확도를 대폭 끌어올린 소프트웨어를 개발했다. 이 같은 사실은 지난 11월24일 <더버지>가 보도했다.

lipreading

사진 : Lip Reading Sentences in the Wild

인공지능은 TV를 보고 공부했다. <BBC> 영상이 학습 데이터로 활용됐다. 5천 시간 이상의 영상 분량이며, 훈련 데이터로 ‘뉴스나이트’, ‘퀘스천타임’, ‘월드투데이’ 등의 프로그램이 쓰였다. 이 비디오에는 11만8천여개의 다른 문장과 1만7500여개의 고유명사가 포함돼 있다. 옥스퍼드대학 내의 다른 팀이 개발한 ‘립넷’의 훈련 데이터에는 고작 51개의 고유명사가 있는 것과 대조적이다.

lipreading(3)

사진 : Lip Reading Sentences in the Wild

립넷은 테스트에서 93.4%의 정확도를 보였지만, 이 결과는 연구참여자가 공식 문구로 이야기하는 특수한 상황에서 달성한 것이다. 이에 비해 딥마인드팀이 함께 참여해 개발한 ‘워치, 리슨, 어텐드 앤드 스펠'(Watch, Listen, Attend and Spell)은 좀 더 어려운 상황에서 테스트를 진행했다. <BBC>의 정치 쇼 프로그램을 대상으로 했다. 좀 더 일반적이고 자연스러운 대화가 오가는 상황이다.

googletag.cmd.push(function() { googletag.defineSlot('/6357468/0.Mobile_Article_intext_1_300_250', [300, 250], 'div-gpt-ad-1468307418602-0').addService(googletag.pubads());googletag.pubads().collapseEmptyDivs();googletag.pubads().enableSyncRendering();googletag.enableServices();googletag.display('div-gpt-ad-1468307418602-0'); });

테스트는 입술을 읽어 영상에 자막을 입히는 방식으로 진행됐다. 학습을 거친 프로그램은 대략 절반 수준을 인식했다. 이는 음성인식 기술의 정확도보다 낮은 수준이지만, 전문적으로 독순술을 익힌 사람이 12.4%를 제대로 인식한 것에 비해서는 상당히 높다.

surveillance

flickr, Jonathan McIntosh, CC BY-SA

청각장애인에 유용, 감시에 대한 우려도 있어

독순술 프로그램은 특히 청각장애를 가지고 있어 대화에 어려움을 겪는 사람을 돕는 데 유용할 수 있다. 애플의 ‘시리’, 마이크로소프트 ‘코타나’, 아마존 ‘알렉사’ 등 음성인식 기반 보조 프로그램에서도 활용할 여지가 있다.

물론 독순술에 대한 우려의 시각도 있다. 감시에 쓰일 수 있다는 것이다. 연구자들은 고해상도 영상에서 입술을 읽는 것과, 거칠고 낮은 프레임의 CCTV 영상에서 입술을 읽는 것에는 큰 차이가 있다고 설명했으나, <더버지>는 “인공지능이 이 차이를 좁힐 수 있다는 사실을 간과해서는 안 된다”라고 평했다.

의견 0 신규등록      목록