[최준호의 사이언스&] “말뭉치 무한학습한 AI, 이젠 사투리·높임말도 번역”
AI 통·번역 기술 얼마나 진화했나
정읍 살인사건은 언뜻 들으면 통·번역기의 오류가 낳은 비극적 해프닝쯤으로 치부될 수 있다. 하지만 중국인과 한국인이 술자리에서 스마트폰 통·번역 앱으로 대화를 나눴다는 건, 그만큼 인공지능 통·번역 기술이 일반화·성숙화됐다는 뜻이기도 하다. 사람이 아닌 ‘기계’가 자동으로 해주는 통·번역 기술은 그간 얼마나 진화했을까. 인류는 언젠가 성서의 얘기처럼 ‘바벨탑’ 이전 하나의 언어로 소통하는 시대로 돌아갈 수 있을까.
Q : 국내외에 파파고와 같은 인공지능 통·번역기들이 꽤 많이 나와 있는데.
A : “글로벌 기업으로는 구글과 마이크로소프트가, 국내에선 네이버 파파고와 카카오, 한컴의 지니톡 등이 있다. 최근 들어서 직장인들은 물론이고, 외국인 노동자나 대학생, 여행자들도 다양한 통·번역기를 사용하고 있다. 국내에선 파파고가 1위라고 말할 수 있다. 지난 3월 기준, 월 1300만 명가량의 사용자가 웹과 앱 기반으로 사용하고 있다. 2019년 대비 사용자가 30% 이상 늘어났다.” (한컴 지니톡은 최근 개인 사용자를 상대로 한 통·번역 서비스는 중단했다.)
Q : 규모·기술력 면에서 구글이 월등해 보인다.
A : “구글과 번역 언어 개수로 승부할 생각은 없다. 구글 번역기의 방향은 이 세상에 존재하는 언어를 최대한 많이 다루려고 하는 거라 파파고와 지향점이 다르다. (구글 번역기에는 109개의 언어를 다루고 있다.) 파파고는 조금 제한된 번역기(15개 언어)이지만, 한글 기반 번역 수준이 구글보다 더 뛰어나다.”
Q : 어떻게 증명하나.
A : “한·영의 경우 파파고가 100점 만점에 80~90점 정도라면, 구글은 70~80점 정도다. 객관적인 번역품질 평가를 통한 결과다. 무작위로 추출한 한국어 문장 수백 개를 파파고와 구글로 각각 번역한 뒤, 한국어와 영어에 능통한 전문가들에게 평가를 받는 방식이다. 파파고는 사투리는 물론 우리말에 있는 높임말 번역도 된다. 한·일 번역의 경우 95점 수준에 이른다.”
Q : 통·번역 원리가 궁금하다.
A : “파파고는 기본적으로 학습을 반복해 정확도를 높이는 인공지능 기술이다. 파파고를 학습시키려면 우선 뜻이 똑같은 원문과 번역문이 필요한데, 우리는 이걸 ‘말뭉치’라고 부른다. 이런 말뭉치를 엄청나게 많이 학습한 번역 엔진이 대기하고 있다가 사용자가 요청하면 학습한 것을 토대로 번역 결과를 제공한다.” (통역과 번역은 서로 다른 언어를 소통할 수 있도록 옮겨준다는 점에서 같은 의미이긴 하지만, 번역은 글, 통역은 말이라는 점에서 차이가 있다. 통역하려면 음성을 데이터로 바꾸고, 거꾸로 데이터를 음성으로 바꾸는 기술을 더하면 된다.)
Q : 기계번역이 처음부터 이런 방식은 아니었지 않나.
A : “처음엔 번역에 필요한 단어와 문법 규칙을 모두 입력해 결과를 도출하는 시스템이었다. 하지만 문법이 복잡하고 예외가 많아 열심히 입력해도 오류가 너무 많아 널리 사용되지 않았다. 그다음 나온 게 통계기반 기계번역(SMT)이다. 말뭉치를 모아 학습하는 건 지금과 같지만, 학습결과를 바탕으로 특정 단어가 번역될 확률을 먼저 구한 다음, 이 통계를 바탕으로 번역하는 시스템이다. 파파고도 초기 서비스엔 이 기술을 이용했다. 하지만 한국어-영어처럼 계열이 완전히 다른 언어 사이엔 오류가 여전했다.”
Q : 아직 기계번역에 문제가 적지 않은데.
A : “같은 단어라도 개인마다, 또 국가·문화·상황마다 받아들이는 게 다를 수 있다. ‘아가씨’란 단어만 하더라도 우리나라 안에서도 통하는 뉘앙스가 제각각이지 않나. 사람이 아닌 기계 번역의 어려운 점이다. 번역의 오류 때문에 생기는 사건이 국내외에서 종종 일어나는 것으로 알고 있다.”
Q : 통·번역은 어느 수준까지 진화할까.
A : “지금의 통번역 기술은 매칭되는 두 언어의 문장 쌍을 입력해 학습시키는 방식이다. 문제는 새로운 단어와 문장이 계속 생겨난다는 점이다. 이 때문에 주기적으로 학습 데이터를 넣어줘야 한다. 더 많은 데이터를 학습할수록 번역 정확도는 더 올라갈 수밖에 없다. 양질의 데이터를 제공해야 양질의 번역이 나온다. 컴퓨팅 파워와 통신기술의 발전도 통·번역 품질을 더욱 진화시킬 거다. 현재의 딥러닝 방법으로 데이터를 학습하면 번역 수준이 머잖아 95점 정도까지는 올라갈 수 있을 것 같다. 하지만, 그렇다고 100점에 수렴할 수 있을지는 모르겠다.”
최준호(joonho@joongang.co.kr)
댓글 없음:
댓글 쓰기