16일 모바일 음성검색 서비스 발표 기자간담회에서 구글코리아 이원진 대표는 “몇 년 걸린 서비스가 몇 개월만에 한국 시장에 런칭된 것은 그만큼 구글이 한국 시장을 중시한다는 것”이라며, “구글의 모바일 1등은 2년 만에 한국 시장 1등을 차지한 유투브보다 빠를 것”이라고 장담했다.
조원규 R&D센터 사장은 “바야흐로 모바일 시대가 도래, 스마트폰이 폭발적으로 성장하고 있다”며, “구글의 글로벌 모바일 검색 트래픽이 2년간 5배 성장했고, 한국에서도 지난 6개월간 무려 10배 성장세를 보였다”고 밝혔다.
조 사장은 “구글의 모바일 음성인식 기술은 세계 최고 수준으로 노이즈 환경에서도 인식률이 뛰어난 화자 중심의 서비스다”며, “음성검색 시 꼭 필요한 많은 연산과 저장공간 문제를 단말 아닌 서버에서 처리하는 클라우드 컴퓨팅 방식으로 해결했다”고 강조했다.
다음은 이날 기자들과의 일문일답. 답변에는 구글 마이크 슈스터(Mike Schuster) 음성인식 총괄 연구원과 조원규 사장, 이해민 모바일 프로덕트 매니저가 맡았다.
Q1. 영어, 중국어, 일본어 등 먼저 모바일 음성 검색이 도입된 나라 경우 얼마나 쓰이나?
마이크 슈스터 연구원: 국가마다 상황이 다르다. 일본어 음성검색 기술 개발에 참여해서 아는데, 일본 경우 아이폰 사용자들이 음성검색 기술을 많이 사용한다. 매일매일 음성검색 수치 증가하고 있다. 정확히 몇%라고 수치를 말하긴 힘들지만, 매일 증가 추세다.
Q2. 다음 모바일 음성검색과의 차별화 요소는?
조원규 사장: 경쟁사 제품 언급은 곤란하다. 기본적으로 클라우드 뒤에서 벌어지는 일은 구글이 독창적이다. 구글 서비스는 정확하고 빠른 인식 성능을 보여준다. 직접 사용해보면, 기술 구현 방식 자체가 다르다는 걸 알게 될 것이다.
클라우드 컴퓨팅을 우리만 한다는 게 아니라 연산과 인식 알고리즘, 방식 등이 다르다는 것이다. 세계적 수준이다. 역시 가장 큰 차이는 정확성과 속도다.
Q3. 국내 독특한 단어나 사투리는 어떻게 반영하나?
마이크 슈스터: 한국 분도 이해 못하는 사투리 정도는 음성검색도 힘들 듯하다. 이 역시 개선될 것이다.
Q4. 구글 검색이 자연어 검색이라는데 음절단위로 이해하나, 아님 단어 단위 인식하나?
마이크 슈스터: 음절이 모여, 단어가 되고, 단어가 어구를 이룬다. 통계적 확률 시스템을 이용, 가능성이 높은 것을 적용하는 구조다. 주어진 음성학 정보를 갖고 가장 높은 결과를 노출하게 된다.
20만개 단어의 무제한 조합을 다 인식할 수 있어 무제한이랄 수 있다.
Q5. 클라우드 컴퓨팅 없는 음성인식의 실용화도 가능한가?
조원규: 언젠가는 손 안에 수퍼컴이 있을 수도 있다. 불가능 하진 않지만, 기본적으로 음성 인식 처럼 연산/저장공간을 많이 필요로 하는 것은 쉽지 않을 것이다. 휴대폰 구현에 있어 기술적 성능 구현이 많아져야 한다. 클라우드 컴퓨팅이 미래 모습이다.
Q6. 검색에만 음성인식이 쓰이나? 받아쓰기는?
이해민 PM: 음성 입력기 다른 나라에는 있다. 한국어 경우, 음성검색 런칭 후 더 기술이 높아지면 음성입력기 또한 출시할 계획이다. 마침표, 느낌표, 물음표 등 해결과제들이 있다. 최대한 품질 높여 론칭하기 위해 준비 중이다.
Q7. 음성입력 경우, 인식률 목표는?
마이크 슈스터: 2년전 영어 출시 당시 목표는 절반이었다. 지금은 70% 성공률을 보인다. 실패율에도 문장 단위 음성인식 에러가 포함돼 있다. 일반적으로 일상생활에서 이 정도면 훌륭하다는 평가다. 사용에 문제가 없는 정도다. 65% 정도 성공만 하더라도 사용할만하다는 게 자체 평가다. 한국어 검색 정확도는 보다 높다.
Q8. 단말에서 이용은 언제 가능한가? 아이폰 어플 다운은?
이해민: 오늘 간담회는 출시 발표 자리다. 일정은 정확히 말하기 어렵다. 서버단은 이미 가능하다. 사용자가 직접 이를 사용하도록 하기 위해서는 제조사, 이통사 결정이 필요하다. 휴대폰에 얹는 건 그쪽 일이다. 제조사와 조율 중이다.
오늘 발표 이유는 빠른 시간 내 휴대폰에 탑재할 수 있다는 판단 때문이다. 단말 업체 등과 최종조율을 진행하고 있다.
아이폰 경우, 모바일 웹이나 앱 형태, 빠른 시간 내 가능할 것이다.
Q9. 모바일 검색의 향후 진화 방향은?
마이크 슈스터: 문자 입력 키보드를 완벽히 대체하지는 않을 것이다. 보완재로 음성인식 기술이 널리 활용될 것으로 본다. 많은 분들이 말로 휴대폰에 인풋하는 걸 선호한다. 밤이나 주말에 트래픽이 많이 발생한다. 직장보다는 혼자 있을 때 전화기에 대고 말하는 것을 좋아하는 사람이 많다는 게 흥미롭다.

