아이티랩 - 음성인식…인간 귀 수준까지 도달?

xuedong_huang_161020_2

컴퓨터 인지 능력이 폭발전인 발전을 거듭하면서 새로운 이정표에 도달한 것으로 보인다. 마이크로소프트에 따르면 인공지능 연구를 진행 중인 연구팀이 개발한 음성 인식 시스템이 인간의 음성을 실제 인간과 다르지 않은 정밀도로 인식할 수 있는 수준에 도달했다는 것. 쉽게 말해 컴퓨터 음성 인식이 인간의 귀와 같은 수준에 도달했다는 얘기다.

발표에 따르면 마이크로소프트에서 인공지능 활용 제품이나 서비스 개발을 맡은 마이크로소프트 AI 및 리서치 그룹(Microsoft AI and Research Group)이 개발한 음성인식 시스템이 인간 음성을 오인식률 5.9% 정확도로 인식할 수 있다는 것이다. 인간과 동등하거나 조금 웃도는 수준이다.

연구팀 리더인 쉐동 황(Xuedong Huang) 마이크로소프트 수석 음성 과학자는 이에 대해 “이번 개발은 인간과 같은 수준에 도달한 것으로 역사적 위업이라고 할 수 있다”고 의의를 설명하고 있다. 또 해리 셤(Harry Shum) 마이크로소프트 수석 부사장은 “5년 전까지만 해도 이런 성능을 실현할 수 있다고 생각하는 것 자체가 불가능했다”는 말로 급격한 기술 발전이 일어나고 있다는 점을 강조했다.

xuedong_huang_161020_1

물론 이렇게 마이크로소프트의 음성 인식 기술은 높은 인식률에 도달했지만 아직 오인식이 발생하는 경우도 남아 있다. 예를 들어 영어로 ‘Have’라는 단어를 ‘is’로 잘못 인식하는 경우도 있다. 하지만 이는 인간이 들었을 때에도 동일 수준에서 실수가 발생한다고 한다. 오인식이라기보다는 원래 말투에 기인한 것으로 볼 수 있다.

이런 성능을 실현하기 위해 이용한 건 딥러닝이다. 전용 칩을 이용해 처리 속도를 높인 마이크로소프트의 딥러닝 툴킷인 CNTK(Computational Network Toolkit)를 이용해 딥러닝 학습을 실시, 정밀도 향상을 도모한 것이다.

다음 과제는 인간의 실제 일상생활과 같은 환경, 상황에서의 인식률 향상이다. 목소리를 분명하게 알아들을 수 있는 좋은 환경이 아니라 주변에 소음이 있는 상황에서도 정확하게 음성을 인식하려면 더 높은 음성인식 개발 수준을 요구하기 때문. 연구팀은 음성 차이도 인식해 누가 얘기하고 있는지 여부까지 판별할 수 있는 기술 개발도 고려하고 있다고 한다.

이런 기술이 실현되면 결국 로봇이 인간처럼 생활할 수 있는 시대까지도 상상해볼 수도 있다. 하지만 연구팀은 이런 상황에 도달하려면 아직까지 갈 길이 멀다고 밝히고 있다. 이번에 실현해낸 건 어디까지나 음성 인식에 국한된 것이다. 내용을 이해하는 기술은 별개의 문제다. 따라서 연구팀은 다음 목표로 인식에서 이해로 발전시키는 걸 두고 있다. 관련 내용은 이곳에서 확인할 수 있다.

의견 0 신규등록      목록