아이티랩 - 입모양만 봐도 알아듣는 인공지능

lip_reading_161126_2

청각 장애인은 상대방의 입술 움직임만 보고 대화 내용을 읽어내기도 한다. 그런데 구글이 개발한 인공지능을 이용해 인간 전문가가 읽어내는 것보다 높은 정밀도를 기록했다고 한다. 구글 인공지능 개발 부문인 딥마인드와 옥스퍼드 대학 연구자가 공동으로 인공지능을 개발, 보고 듣고 주의하고 낱말 맞추기(Watch, Listen, Attend, and Spell)라는 소프트웨어를 개발한 것.

인공지능 신경망에 수천 시간에 이르는 영국 BBC 방송을 학습시켜 실제 방언 내용 중 46.8%를 정확하게 읽어낼 수 있는 소프트웨어를 완성했다고 한다. 46.8%라고 하면 그다지 획기적인 수준이 아니라고 생각할 수도 있다. 하지만 인공지능이 읽어낸 영상을 전문가가 똑같이 해보면 제대로 알아들은 건 전체 중 12.4%에 불과하다고 한다. 인공지능이 훨씬 정밀한 수준이라는 걸 알 수 있다.

lip_reading_161126_1

옥스퍼드대학 내 또 다른 연구팀은 립넷(LipNet)이라는 같은 역할을 하는 소프트웨어를 발표한 바 있다. 립넷은 실험 단계에서 93.4%라는 경이적인 정답률을 보였다고 밝히고 있다. 이를 전문가가 똑같이 해보면 정답률은 52.3%였다. 다만 립넷은 자원봉사자가 정해진 문장을 말하는 모습을 촬영한 다음 이 영상을 통해 정확도를 테스트한 것이다. 구글이 개발한 인공지능처럼 다양한 영상을 통해 정밀도 향상을 시도한 것은 아니다.

이 인공지능이 학습에 이용한 영상은 5,000시간 분량이 넘는다. 사용한 영상 내 프로그램에선 11만 8,000개에 달하는 서로 다른 문장, 1만 7,500여 개에 이르는 독특한 단어가 증장한다. 이에 비해 립넷 테스트에 이용한 영상에는 독특한 단어의 경우 51개만 등장한다.

딥마인드 측은 이 소프트웨어가 다양한 분야에 도움이 될 것으로 기대하고 있다. 청각 장애자가 대화 내용을 이해하는 것 외에도 무성 영화에 주석을 붙이거나 시리, 알렉사 같은 음성인식 인공지능의 정확도를 높이는 데에도 활용될 가능성이 있다는 것이다.

또 연구팀에 따르면 밝은 조명에서 고해상도로 촬영한 TV 영상 혹은 저화질 영상 등에 따라 정답률은 크게 달라진다고 한다. 관련 내용은 이곳에서 확인할 수 있다.

의견 0 신규등록      목록