네이버의 차세대 검색 ‘코끼리 프로젝트’
뉴스클리핑
2012-11-14 , 조회 (3001) , 추천 (0) , 스크랩 (0)
출처
원문

네이버가 코끼리를 키우고 있다. 포털에서 웬 코끼리 사육? 검색 얘기다. 네이버 검색을 손질하는 데 코끼리를 동원하려 한단다. 진짜 코끼리이기야 하겠는가. 네이버의 차세대 검색을 맡을 ‘코끼리 프로젝트’ 얘기다.

‘코끼리 프로젝트’는 오롯이 ‘검색’만 바라본다. 지금까지 주요 포털이나 각종 웹사이트에서 제공하는 검색 서비스와는 전혀 다른 청사진을 그리고 있단다. 결론부터 말하면 이렇다. 네이버를 운영하는 NHN 내부에서 나뉘어 진행돼 온 검색 관련 기술들을 한데 묶어 새로운 검색 서비스로 선보이겠다는 심산이다.

왜 ‘코끼리’일까. 마치 장님 코끼리 만지듯 제각각 해석하고 발전시켜 온 기술들을 조합해 완성된 코끼리 모양을 갖추겠다는 뜻에서 이름붙였다. 지금까진 머리와 몸통, 다리와 코가 따로 놀았다면 이제 이를 유기적으로 엮어 코끼리 제 모양을 갖추겠다는 얘기다.

“지금의 검색서비스는 검색어를 입력하고 결과를 찾는 방식입니다. 그런데 처음 검색을 만든 분도 이런 모습을 꿈꿨을까요? 사실은 그분들도 사람과 사람이 대화하듯 편안하게 질문하고 답을 찾아주는 모습을 그렸을 것입니다. 미래의 검색은 그런 모습이 될 거예요. 사람과 유사한 검색, 요컨대 대화하듯 묻고 대답하는 검색이 가장 쉽게 생각할 수 있는 방식이 되겠죠.”

네이버 검색 서비스를 책임지고 있는 이윤식(46) NHN 검색본부장은 “사람이 평소 하는 말로 대화해도 이를 이해하고 답을 던져주는 검색을 꿈꿨다”라고 말했다. 예컨대 ‘내 양말 어디 있어?’라고 물으면 ‘거기 있잖아’라고 대답해도 평소엔 대화가 통하지만, 검색은 ‘거기’를 이해하지 못한다. 하지만 미래 검색은 이런 식의 ‘인간의 언어’를 이해하는 쪽으로 발전할 것이라고 이윤식 본부장은 믿고 있다. 그런 미래형 검색이 첫 울음을 터뜨리는 게 바로 ‘코끼리 프로젝트’인 셈이다.

“사람처럼 대화하고 이해하는 검색 꿈꿨다”

코끼리 프로젝트는 ▲텍스트 기반에서 ‘음성’ 기반으로 ▲키워드 중심에서 ‘자연어’ 중심으로 ▲단방향에서 ‘대화형’으로 ▲단독 콘텐츠에서 ‘관계형 콘텐츠’로 바뀌는 검색을 꿈꾼다. 그러니 전체 코끼리 모양을 갖추기 위해 여러 기술이 유기적으로 결합돼 있다.

“정제된 키워드 중심이 아니라, 일상 언어인 자연어까지 이해하고 자연어로 대답하도록 구현하고 있습니다. 이를 위해 자연어 이해(Natural Language Understanding, NLU) 기술을 적용하고 있어요. 일상어로 질문을 던졌을 때 먼저 검색엔진이 이를 제대로 이해해야 합니다.”

일단 질문을 이해했다 해도, 그 속에 숨어 있는 뜻을 포착해내는 과정이 남아 있다. “예컨대 ‘정자동 날씨는?’이라고 물었다고 칩시다. 여기엔 ‘오늘’이란 의미가 숨어 있습니다. 이용자는 십중팔구 오늘 날씨를 묻는 것이지만, 질문엔 ‘오늘’이란 단어가 빠져 있어요. 이렇듯 컨텍스트가 이어지며 대화형으로 돼야 하는 겁니다. 이를 위해 ‘대화 관리’(Dialog Management, DM)라는 프로젝트도 진행하고 있어요.”

검색엔진이 질문을 이해하고 함의를 끄집어냈다 치자. 그에 따라 답을 찾더라도, 그게 자연스러운 문장으로 돼 있을 확률은 낮다. 지금까지 검색엔진은 파편화된 정보들을 긁어모아 검색결과로 뿌려주는 식이었다. “이렇듯 조각난 정보들을 모아 사람의 말로 만들어주는 과정도 필요합니다. 이렇게 자연스러운 문장으로 답을 만드는 과정에 들어가는 기술이 ‘자연어 생성’(Natural Language Generation, NLG)이죠.”

이처럼 자연어 이해(NLU)→대화 관리(DM)→자연어 생성(NLG) 과정을 거치며 텍스트를 음성으로 바꿔주는(Text to Speech, TTS) 단계를 거쳐 비로소 일상 언어로 궁금증을 묻고 자연어로 대답을 듣게 된다. “이 기술들이 어느날 하늘에서 떨어진 것은 아닙니다. 이미 수년 전부터 독립된 프로젝트로 진행되던 기술이 비로소 ‘코끼리 프로젝트’로 결합하며 새로운 검색으로 탄생하게 되는 것이죠.”

‘코끼리 프로젝트’의 또다른 특징은 ‘관계형’ 검색이다. 이는 ‘모름지기 정보는 연결돼야 한다’라는 생각에서 씨앗을 틔웠다. “영화 ‘피에타’를 검색했다고 가정합시다. 그 속에는 감독과 출연진, 영화 줄거리 정보만 있는 게 아닙니다. 예컨대 주연배우 조민수씨와 연결된 또다른 정보가 있겠죠. 그가 어떤 드라마에 출연했는지, 생년월일이나 취미는 무엇인지…. 이런 정보들을 꼬리에 꼬리를 물듯 연결하는 것도 코끼리 프로젝트의 목표입니다. 이를 내부에선 ‘NCR(Naver Contents Repository) 매시업’이란 프로젝트명으로 부르고 있어요.”

요컨대 지금까지 독립된 데이터베이스에서 뽑은 독립된 답변을 제공했다면, 앞으로는 연관된 DB를 분석해 이용자가 원하는 정보 외에도 복합적인 정보까지 추론해 제공하겠다는 것이다. “네이버 인물정보를 보세요. 대개 생년월일은 넣어도, 띠까지 나오지는 않아요. 앞으로 검색에선 ‘용띠 남자 연예인’이라고 질문하면, 이에 해당하는 인물만 뽑아 보여주는 식으로 진화할 겁니다. 아직은 누구도 그런 검색을 선보인 적 없지만요.”

지능형 음성검색 앱 ‘링크’ 선보여

‘코끼리 프로젝트’는 아직 진행중이다. 밑그림은 그럴듯한데, 정말 생각만큼 쓸 만한 녀석이 나올 수 있을까. 이를 미뤄 짐작할 수 있는 첫 시험대가 마련됐다. 네이버가 11월14일 공개한 ‘링크‘ 응용프로그램(앱)을 보자.

‘링크’는 한마디로 지능형 음성검색 서비스다. 쉽게는 ‘오늘 정자동 날씨는?’이라고 물으면 날씨 정보를 띄워주고, ‘NHN 주가는?’이란 질문에 실시간 주식 시세를 보여주는 식이다. 검색에만 국한되지는 않는다. ‘다음주 금요일 소개팅 일정 등록해 줘’라고 음성으로 명령하면 다음주 금요일에 해당하는 날짜를 띄우고 ‘소개팅’이라고 입력한 뒤 ‘이대로 등록할까요?’라고 묻는다. ‘엄마에게 늦는다고 문자 보내줘’라고 말하면 휴대폰 주소록에 등록된 엄마에게 ‘늦어요’라고 문자메시지도 보낸다. 애플 ‘시리’나 ‘구글 나우’와 비슷한 지능형 음성대화 서비스인 셈이다.

‘링크’ 앱은 네이버가 추진하는 ‘코끼리 프로젝트’에서 음성검색 기능만 떼내 시험판으로 공개한 것으로 보면 되겠다. “구글이나 애플과 달리 자체 개발한 언어모델링과 음성처리 기술을 적용했고, 실제 개발기간도 9주일 정도로 두 달 밖에 걸리지 않았다”라고 이윤식 본부장은 소개했다.

가장 중요한 건 서비스 자체의 품질일 게다. 이윤식 본부장은 뜻밖에도 다소 인색하고 냉정한 평가를 내렸다. “‘링크’는 아직 개발자 버전으로 나온 서비스로, 1.0이 아닌 0.8 버전입니다. 앞으로 검색이 어떤 모습으로 바뀔 지 고민하는 과정에 나온 중간 산출물인 셈이죠. 제대로 하려면 사람이 대화하듯 의미를 인식하는 수준이 돼야 하는데, 아직은 인식률이 70% 안팎으로 보고 있어요.”

그러면서도 은근히 자부심도 내비쳤다. “개발자 입장에서 보면 이런 생각이 듭니다. 애플 시리나 구글 나우의 음성인식이 현실적으로 어느 정도 실용적일까. 한글 검색은 네이버가 제일 잘 합니다. 그런데 마치 구글과 애플만 음성검색을 하는 것처럼 비춰지고 있어요. 우리도 이런 기술을 보유하고 있다는 걸 보여주고 싶었습니다.”

‘링크’ 앱 기획을 맡은 김국현 검색품질분석팀장은 “링크의 가장 큰 장점은 보다 다양한 생활형 정보를 보여주는 데 있다”라고 설명했다. “시리는 한국어 콘텐츠가 약합니다. 구글 나우도 한국에선 통합검색과 날씨, 지도와 교통정보 정도만 쓸 만합니다. 네이버 링크는 날씨와 인물, 증권, 로또, 어학사전, 영화, 백과사전 등 다양한 콘텐츠를 음성으로 이용할 수 있어요. 네이버에 쌓인 한국형 DB들을 얼마든지 연결해 서비스를 확장할 수 있는 게 가장 큰 경쟁력이죠.”

실제로 ‘엄마에게 늦는다고 문자 보내줘’라고 명령했을 때 ‘늦는다’라고 보내는 것과 ‘늦어요’라고 보내는 것은 차이가 있다. 이런 식으로 한국말로 이용할 때 보다 자연스러운 언어로 처리해주는 것이 ‘링크’ 앱의 장점이라고 김국현 팀장은 강조했다.

‘링크’ 앱은 안드로이드용으로 우선 제공된다. 아이폰이나 다른 OS로도 잇따라 서비스를 확장할 계획이란다.

“정답 없는 질문에도 답을 제시해야 하는 고충”

이윤식 본부장은 “코끼리 프로젝트를 진행하면서 가장 어려운 건 자연어 이해(NLU)였다”라고 털어놓았다. “사실, 음성이란 커뮤니케이션 수단을 빼면 자연어 검색은 검색업계에서 예전부터 시도해 온 영역입니다. 예전 시도들은 사실상 모두 실패했죠. 그걸 다시 도전하는데, 우리가 아는 지식이나 방식은 예전 방식 뿐이었어요. 그 방식을 찾고 답을 얻기까지가 가장 오래 걸렸고 어려웠습니다. NLU, 즉 자연어를 이해하게 만드는 데만 2년이 걸렸죠. 그나마도 운이 좋아 그 정도 밖에 안 걸린 것 같아요.”

그 뿐일까. 검색엔진이 부딪히는 어려움은 또 있다. “예컨대 ‘태백산맥 작가는’이라고 물으면 ‘조정래’를 띄워주면 되죠. 그런데 ‘데이트하기 좋은 곳’이라고 물으면 어떡해야 하나요. 사람이나 취향 따라 다르고, 심지어 그날 기분이나 날씨에 따라 달라지는데요. 그래도 답을 제시할 수 밖에 없는 게 검색엔진의 숙명입니다. 네이버를 비롯한 모든 검색엔진이 이용자의 피드백을 최대한 반영해 검색 결과를 보여주는 방향으로 진화해 온 것도 이런 까닭에서입니다.”

궁금했다. 네이버 검색을 책임지고 있는 수장으로서, 미래 못지 않게 ‘현재’에 대한 평가는 어떻게 내리고 있을까. “사실 세간의 오해가 없는 건 아닙니다. 예컨대 ‘검색어를 조작한다’는 식의 얘기는 정말 억울한 측면이 있지요. 그럼에도 우리가 개선할 점도 분명히 있습니다. 외부에서 네이버 검색을 두고 이런저런 말이 나왔을 때, 처음부터 적극 설명드렸다면 지금보다는 상황이 나아졌을 거라고 생각해요. 그 점을 깊이 반성하고 있습니다.”

이윤식 본부장은 검색 서비스를 종종 자동차 산업에 비유한다고 말했다. “자동차에 보통 1만여개 부품이 들어갑니다. 일본 도요타가 모든 면에서 우월할까요? 어떤 기술은 현대차에서 배워가기도 하지요. 구글과 네이버를 종종 비교하는데요. 구글이 잘하는 게 있고, 네이버가 잘 하는 게 분명 있겠죠. 글로벌하게는 구글이 압도적인 게 맞고, 한국에선 네이버가 훨씬 잘 하죠. 우리는 영어 검색을 안 하는데 ‘너넨 영어 논문 안 나오잖아’라고 비난하면 할 말은 없습니다. 그 대신 네이버는 한국어 문서와 한글 처리에선 최고라고 자부합니다.”

그는 요즘 ‘감’이 떨어지지 않도록 하는 게 가장 큰 숙제라고 말했다. “가끔 젊은이들의 문화나 대화를 보며 깜짝깜짝 놀랄 때가 있습니다. 이용자를 이해하지 못하면 서비스 품질이 떨어지게 마련이지요. 그래서 저는 일 없이도 가끔 홍대앞이나 가로수길을 들르곤 합니다. 한국에서 최고가 되려면 한국 이용자를 누구보다 잘 이해해야 하니까요.”

이윤식 본부장은 서울대 계산통계학과를 졸업하고 한국멘토, 비엘시스템스, 씨디네트웍스 등을 거쳐 2006년부터 NHN에서 근무하고 있다. 줄곧 빅데이터 처리 영역에서 “가치 있는 데이터를 발굴하는 일을 하다가” 2011년 1월부터 검색본부장을 맡았다.

출처 : http://www.bloter.net/archives/133875

nhn , 구글나우 , 네이버 , 링크 , 시리 , 음성검색 , 이윤식

트랙백:  수신불가
추천 스크랩 전체목록