[첨단 기술의 비밀] 음성인식과 자비스

아이폰에 시리가 처음 탑재되었을 때의 신선함은 꽤나 컸다. 직접 타이핑하기 어려운 상황에서 여기가 어딘지 묻거나 문자를 음성으로 보낼 수 있는 기능적으로도 상당히 유용했다. ‘잡스는 죽었지만 시리를 남겼다’고 말할 정도로 음성인식 기술의 활용 측면에서 시리는 괄목할 만한 발전을 보여줬다.

음성인식 기술의 발전사

음성인식 기술이 어느 날 갑자기 찾아온 건 아니다. 음성인식 기술의 역사는 우리가 생각하는 이상으로 오래됐다. 인간의 음성을 인공적으로 합성하려는 시도는 18세기까지 거슬러 간다. 컴퓨터가 등장한 이후 기계가 음성을 인식할 수 있었지만 말이다. 1950년대 미국에서는 사람의 말하는 모습을 X레이로 촬영하고 목소리의 구조를 조사하는 연구가 활발히 진행되었다. 소리를 낼 때 어떻게 변화하는지를 확인하고 그것을 수학적으로 기술하고자 한 것이다. 여기서 나온 수식 모델에 소리를 합성하면 음성 합성이 되고, 입력된 음성이 어떤 모델에 가까운가를 살펴보면 음성인식이 가능하다고 믿었던 것이다.

이 연구를 진행한 미국 벨연구소 음향 물리학자들은 인간의 음성을 수식 모델로 표현하는데 성공한다. ’아’라는 소리의 특정 Hz 영역이 강하다는 식이었다. 이런 공식에 기초하면 인간의 음성은 매우 간결하게 기술할 수 있다. 수십 개의 수식을 조합하면 인간의 음성에 가까운 소리를 합성할 수 있어서다. 그리고 수식 모델에 음성을 표현하는 음성 코딩을 한다. 음성의 부호화가 가능하므로 나머지는 입력된 음성을 이 모델에 적용시켜 근사 패턴을 감지하면 음성인식이 완성될 것이라는 게 당시 연구자들의 생각이었다. 사실 이 수식 모델은 음성인식 기술 발전에 큰 보탬이 됐다.

▲ IBM 슈박스

1963년 IBM이 음성으로 영단어 16개를 인식하는 것은 물론 간단한 숫자 계산까지 해주는 ‘슈박스(Shoebox)’라는 음성인식 기기를 공개했다. 하지만 조용한 장소에서 선명하게 이야기해야 한다는 전제조건이 붙었다. 변화무쌍한 인간의 말투 때문이다. 일상 회화에서 아나운서처럼 한 음 한 음을 명료하게 발음하는 사람은 거의 없다. 요컨대 수식 모델은 두 음절 이상의 단어에서, 뒤의 모음이 앞 모음의 영향으로 그와 가깝거나 같은 소리로 되는 ’조음 결합'을 잘 표현할 수 없었던 것이다.

한편, 이 과정에서 나온 음성 부호화 기술은 통신 분야에 응용되며 큰 성과를 낳는다. 대표적인 음성 부호화 기술인 ‘CELP(Code Excitation Linear Prediction)’는 사람의 음성을 수식 모델에 최대한 적용하여 표현한다. 그 결과 음성 파형을 그대로 데이터화하는 것보다 훨씬 적은 데이터로 원래의 음성을 재현하는 것이 가능했다. 오늘날 휴대폰에서 음성통화를 할 수 있는 것은 수식 모델을 사용한 음성 코딩에 의한 바가 크다.

▲ 은닉 마르코프 모델의 확률 모수들(예시)

기존 음성인식 기술이 안고 있던 문제를 해결하는 획기적인 방법이 등장한 것은 1980년대에 이르러서다. IBM이 1970년대에 고안한 ‘은닉 마르코프 모델(Hidden Markov Model)’을 카네기 멜론 대학이 음성인식에 응용한 것이다. 은닉 마르코프 모델은 실험에서 얻은 실제 데이터에 적합한 수식 모델을 생각하고 그것에 실제 음성을 적용시켜 나가는 기존 방식과는 전혀 달랐다. 통계 데이터를 바탕으로 확률적으로 데이터를 다루는 게 은닉 마르코프 모델의 특징이다. 예를 들면 ‘아’ 소리의 차이를 전형적인 ‘아’부터 높은 음의 ‘아’까지 다양한 데이터를 수집한다. 여기서 모인 ‘아’가 평균적인 ‘아’와 어떻게 다른지를 통계 학습하는 것이다. 즉, 앞서 언급한 시끄러운 장소나 조음 결합처럼 데이터양의 한계로 다양하고 불확실성이 존재하는 상황에서 음성 인식률을 높이는 것이 은닉 마르코프 모델의 개념이다. 은닉 마르코프 모델은 시간 변화를 포함하여 음성을 통계적으로 표현할 수 있다.

은닉 마르코프 모델이 유효하려면 방대한 데이터의 통계 처리가 필요하다. 음성 데이터는 텍스트 데이터에 비해 압도적으로 크기 때문에 당시 컴퓨터에서 처리하지 못해 연구에 진척이 더뎠다. 그러다 1980년대 이후 컴퓨터 처리 속도가 향상되고 기억 장치가 대용량화 되며 음성인식 연구는 탄력을 받는다. 음성인식 기능이 인식할 수 있는 단어 수는 1만 개까지 늘어났다. 그리고 1990년대 말부터 자동응답서비스 즉, ARS 같은 분야에 활용되며 본격적으로 상용화된다. 1996년 벨사우스가 ARS 서비스를 시작하면서 사용자가 수화기에 말한 내용을 인식해 정보를 제공했고, 1997년에는 ‘드래곤 내추럴리스피킹’라는 연속 음성을 인식할 수 있는 제품이 나오기도 했다.

참고 링크 : 위키피디아 은익 마르코프 모델

스마트폰, 음성인식 기술 대중화

이러한 음성인식 기술이 상용화 내지는 상품의 가치를 갖게된 건 불과 10년이 채 되지 않았다. 상품화를 가속화한 건 관련 연구에 한창이던 마이클 코언을 스카우트하여 음성인식 시스템의 개발 책임자로 세운 구글이었지만, 세상을 먼저 놀래킨 건 애플의 ‘시리’다. 애플은 iOS 5가 설치된 아이폰에 처음 시리를 지원했는데 지금까지 4번의 업데이트를 거쳐 일상생활에서 대화할 수 있는 수준까지 올라섰다. 내일 우산을 챙겨야 하는지 분당에서 서울 강남까지 지하철 노선이 궁금할 때 시리는 사용자를 실망시키지 않는 비서로서의 역할을 다한다.

가장 늦게 뛰어든 마이크로소프트의 코타나는 단순한 스마트폰 모바일 영역에서 마이크로소프트의 강점인 데스크톱 영역까지 넓히며 주목받기 시작했다. 애플 시리처럼 간단한 농담은 재치 있게 받아주면서 마이크로소프트가 보유하고 있는 빙 검색엔진을 통해 검색 결과를 보여주는데, 시리와 코타나에 같은 질문을 했을 때보다 좀 더 자연스럽게 해석해 결과를 내놓는다는 것이 업계의 평가다.
마이크로소프트는 또한 자사의 인터넷 전화겸 메신저 서비스인 스카이프를 이용해 대화 중에 실시간으로 음성을 번역해주는 스카이프 번역기를 테스트하고 있다. 이에 뒤질세라 애플과 IBM, 구글과 HP는 서로 협력하여 클라우드 기반, 빅데이터를 활용한 음성 서비스를 발전시키고 있고 많은 기업들도 차세대 기술로서의 음성인식 서비스에 너도나도 뛰어들고 있다.

음성인식이 변화시킬 미래

앞으로의 음성인식은 어떻게 발전할까. 지난해 사운드하운드가 발표한 ‘하운드’라는 음성인식 엔진의 경우 훨씬 어렵고 복잡한 것까지 처리해낸다. “오늘부터 한 달 동안 매주 수요일 서울에서 10만 원 미만에 무료 와이파이가 있는 호텔이 필요하다"는 식으로 말하면 데이터를 분석해 요구에 맞는 대답을 해주는 것이다. 보통 음성인식 엔진은 사용자 입력이 끝나야 수집과 합성, 전송, 처리 과정을 거치지만 이 엔진은 모든 과정을 동시에 처리하는 것이 특징이다. 하운드를 이용하면 스마트폰이나 태블릿은 물론 자동차나 심지어 토스터, 커피 머신 같은 제품과 맞물려 상호 작용을 하도록 할 수도 있다.

음성인식은 사물인터넷과 맞물려 상당한 파급력을 가져갈 가능성이 높다. 각종 기기 제어는 물론이고 음성 명령을 이용한 즉각적인 정보 검색이 언제 어디서나 가능하다. 인공지능과 결합하면 개인별 사용자 경험에 최적화된 맞춤형 서비스도 가능할 것이다. 영화 ‘아이언 맨’은 미래 사물인터넷과 음성인식 기술의 정점을 보여준다. 영화에서 주인공 토니 스타크가 강력한 힘을 발휘할 수 있는 것은 단지 강철 슈트 때문만은 아니다. 어떤 때는 토니 스타크의 머리가 되어주고, 또 어떤 때는 기꺼이 손과 발이 되어주는 '자비스' 덕분이다. 자비스는 토니의 상태와 주변 환경을 실시간으로 분석해 현재 어떤 위험에 처해있고, 어떻게 해야 위험에서 벗어날 수 있는지 대화하듯이 알려준다. 또한, 집안의 컴퓨터는 물론 통신, 조명 등 모든 가전을 작동시키고 관리한다.

먼 미래 이야기 같지만 페이스북 최고경영자 '마크 저커버그'가 자비스를 닮은 인공지능(AI) 시스템을 만들겠다고 선언하면서 머지않아 현실화될 가능성이 높아졌다. 저커버그는 “인공지능이 내 목소리를 인식하도록 해서 집안의 모든 것을 통제할 수 있도록 할 것"이라며 "음악, 조명, 온도 조절은 물론 친구들이 벨을 누르면 얼굴을 인식해서 문을 열어주도록 하겠다"고 말했다. 그는 또 자비스가 토니에게 했듯이 내가 확인해야 할 일이 생기면 내게 알려주고, 업무 측면에선 자료를 가상현실로 시각화해 내가 더 효율적으로 일하도록 돕게 만들겠다고 밝혔다.

▲ 운전자와 대화를 나누는 새로운 커뮤니케이션 도구 토요타 카로보 미니

바이두 리서치를 진두 지위하는 스탠퍼드대 앤드류 응(Andrew Ng) 교수도 음성인식 기술이 앞으로 웨어러블은 물론 자동차와 가정용 전자기기 등 사물인터넷 시장 자체를 바꾸어 놓을 것이라고 말한다. 토요타가 2015년 발표한 키로보 미니처럼 운전자와 대화를 하는 비서를 만나게 될 것이라는 얘기다. 스파이크 존스 감독의 영화 ’허’는 사람처럼 대화할 수 있는 인공지능 시스템과 사랑에 빠진다는 얘기를 다루고 있다. ‘그녀’와 사랑에 빠질지는 모르겠지만 적어도 음성인식의 미래가 이런 형태의 자연스러움을 갖게 될 것임은 분명하다.

[리뷰전문 유튜브 채널 더기어TV]

이 기사를 공유합니다

테슬라, 일부 자율 주행 기능 막았다.

[맥 초보 가이드] 아이맥 하드디스크를 SSD로 업그레이드하기 1편

ABOUT AUTHOR

이상우 aspen@thegear.co.kr

COMMENT 0