여러 명 중 한 명 목소리만 골라내는 놀라운 구글 AI

많은 사람이 웃고 떠들고 시끄러운 음악이 흐르는 중에도 우리는 앞에 있는 사람과 대화를 명확하게 알아들을 수 있다. 선택적 지각 능력으로 칵테일 파티 효과라고 한다.

구글이 말하는 사람의 얼굴을 인식하고 특정 목소리를 추출하는 심층 학습 인공지능 기술을 12일(현지시각) 공개했다. 우선 놀라운 영상을 감상하자.

쉴 새 없이 떠드는 두 코미디언의 목소리를 거의 완벽하게 분리해 낸다. 구글은 인공지능을 훈련시키기 위해 한 명이 이야기하는 10만 개의 고품질 유튜브 영상을 이용했다. 이 영상을 통해 등장인물의 얼굴, 입모양, 목소리를 인식하게 훈련 시킨 후 다른 배경음을 추가해 인위적으로 칵테일 파티를 만들어 냈고 이를 구분하는 훈련을 거듭했다. 그 결과 시각, 청각 효과를 이용해 목소리를 구분하는 인간과 유사한 능력을 구현해 냈다.

사람의 입모양은 목소리와 밀접한 관련이 있고 어느 부분에서 말하는지 판단하는데 중요한 기준이 된다. 소리만 사용하는 것보다 훨씬 정확하게 특정 음성을 분리해 낼 수 있다. 움직이면서 입이 잠시 보이지 않거나 손동작으로 가려질 때도 문제 없이 연속적으로 음성을 분리해 낼 수 있다고 한다. 물론 너무 많은 소리가 섞여 있거나 비슷한 톤의 목소리라면 조금 더 어여울 수도 있다.

이 기술이 사용화되면 영상 통화, 보청기 등에 활용될 수 있고 여러 사람이 말하는 다양한 상황에서 유용하게 사용될 수 있다. 어쩌면 도청을 피하기 위해 사람이 많은 곳에서 대화하는 것도 의미 없는 일이 될 수도 있다.

[리뷰전문 유튜브 채널 더기어TV]

이 기사를 공유합니다

일부 안드로이드폰 보안 패치 안 하고 한 것으로 표시

애플워치 시리즈2 42mm 배터리 팽창 문제로 3년 무상 수리

ABOUT AUTHOR

황승환 dv@xenix.net

COMMENT 0