MIT 연구진, 언어 규칙과 패턴 학습 가능한 AI 시스템 만들어
AI가 단어 변경되는 사례 학습하면 단어 형태 바뀌는 규칙 제시
언어학 문제 60% 파악하는 결과 나와

언어를 분석해 문법을 파악하는 인공지능이 개발됐다. (사진 : 셔터스톡)
언어를 분석해 문법을 파악하는 인공지능이 개발됐다. (사진 : 셔터스톡)

언어를 분석해 문법 등 언어 규칙을 파악하는 인공지능(AI)이 개발됐다.

미국 MIT 뉴스는 2일(현지시간) MIT, 코넬 대학, 맥길 대학 연구원들이 언어의 규칙과 패턴을 학습할 수 있는 인공지능 시스템을 개발해 시연했다고 밝혔다. 이 연구는 네이처 커뮤니케이션즈에 발표됐다.

인간의 언어는 굉장히 복잡성하고 연구자들처럼 말과 단어 구조를 분석하는 방법을 기계에 가르치는 것이 불가능하다고 오랫동안 생각해 왔다.

이 머신 러닝 모델은 한 언어로 다른 문법 기능(예: 시제, 격(주격 또는 소유격 등) 또는 성별)을 표현하도록 단어가 변경되는 예를 학습시키면 해당 단어의 형태가 바뀌는 이유를 설명하는 규칙을 제시한다. 예를 들어 시스템은 세르보크로아티아어로 남성적인 형태를 여성스럽게 만들려면 단어 끝에 문자 ‘a’를 추가해야 한다는 것을 파악한다. 이 모델은 여러 언어에 적용할 수 있는 상위 수준의 언어 패턴을 자동으로 학습해 더 나은 결과를 얻을 수 있다.

연구진은 58개의 서로 다른 언어를 다루는 언어학 교과서의 문제를 이용해 이 모델을 학습하고 테스트했다. 각 문제에는 단어 세트와 해당 단어 형태의 변화가 주어졌다. 이 모델은 문제의 60%에서 단어 형태의 변화를 설명하는 해당 규칙을 만들 수 있었다.

이 시스템은 언어 가설을 연구하고 다양한 언어에서 단어가 변형되는 방식에서 미묘한 유사성을 조사하는 데 사용될 수 있다. 이 시스템은 사람이 쉽게 이해할 수 있는 모델을 발견하고 수십 개의 단어와 같은 소량의 데이터에서 이러한 모델을 획득할 수 있는 것이 특징이다. 또 단일 작업에 하나의 대규모 데이터 세트를 사용하는 대신, 여러 개의 작은 데이터 세트를 활용하는 것은 과학자들이 가설을 제안하는 방식과 매우 가깝다. 즉, 여러 관련 데이터 세트를 살펴보고 이러한 데이터 세트 전반에 걸쳐 현상을 설명하는 모델을 제시한다.

코넬대 컴퓨터공학과 조교수로 이 논문의 주저자인 케빈 엘리스는 “이 작업의 동기 중 하나는 사람이 이해할 수 있는 방식으로 표현되는 데이터 세트 모델을 학습하는 시스템을 연구하려는 것이었다”며 “이 시스템을 구축해 서로 관련된 데이터 집합의 전체 장치를 학습하고 각 데이터 집합을 더 효과적으로 모델링하는 방법을 시스템에서 조금씩 배울 수 있기를 원했다”고 밝혔다. 연구진은 여러 관련 데이터세트에서 모델을 자동으로 학습할 수 있는 AI 시스템 개발을 위해 음성학(사운드 패턴 연구)과 형태학(단어 구조 연구)의 상호 작용을 살펴보기로 했다.

많은 언어가 핵심 기능을 공유하고 교과서의 문제가 특정 언어현상을 보여주기에 언어학 교과서의 데이터는 이상적인 테스트베드를 제공했다. 교과서의 문제는 대학생들도 매우 간단한 방법으로 해결할 수 있지만, 이러한 학생들은 전형적으로 새로운 문제의 추론을 위해 과거 수업에서 음성학에 대한 사전 지식을 가지고 있었다.

언어를 분석해 문법을 파악하는 인공지능이 개발됐다. (사진 : 셔터스톡)
언어를 분석해 문법을 파악하는 인공지능이 개발됐다. (사진 : 셔터스톡)

MIT에서 박사 학위를 받은 엘리스 교수는 MIT에서 처음으로 형태학 및 음성학에 대해 아담 얼브라이트 언어학과 교수에게 배웠다. 연구에 공동으로 참여한 얼브라이트 교수는 “언어학자는 사람의 언어 규칙을 진정으로 이해하고, 시스템의 작동하는 방식을 공감하려면 사람이어야 한다고 생각했다”며 “사람(언어학자)이 과업에 가져오는 지식과 추론을 모방하도록 할 수 있는지 알아보고 싶었다”고 설명했다.

문법이라고 불리는 단어를 조합하는 일련의 규칙을 배울 수 있는 모델을 만들기 위해 연구원들은 베이지안(Bayesian) 프로그램 학습이라는 머신 러닝 기술을 사용했다. 이 기술을 사용하면 모델에서 컴퓨터 프로그램을 만들어 문제를 해결할 수 있다. 이 경우, 프로그램은 모델이 언어학 문제에 있는 단어와 의미에 대한 가장 적합한 설명이라고 판단하는 문법이라고 할 수 있다. MIT에서 개발한 프로그램 신디사이저인 스케치(Sketch)를 사용해 이 모델을 만들었다.

그러나 스케치는 가장 가능성이 높은 프로그램을 만드는 데 시간이 오래 걸린다. 이 문제를 해결하기 위해 연구자들은 한 번에 한 조각씩 모델을 만들고, 일부 데이터를 설명하기 위한 작은 프로그램을 만든 다음, 더 많은 데이터를 다루기 위해 작은 프로그램을 수정하고 더 큰 프로그램을 만드는 등의 작업 과정을 거쳤다.

또 ‘우수한’ 프로그램이 어떤 것인지 학습할 수 있도록 모델을 설계했다. 예를 들면, 언어가 비슷하기 때문에 폴란드어에서 더 복잡한 문제에 적용하기 위해 단순한 러시아어 문제와 관련한 몇 가지 일반적인 규칙을 학습했다. 이렇게 하면 모델이 폴란드어 문제를 쉽게 해결할 수 있었다.

70개의 교과서 문제를 이용해 모델을 테스트한 결과 문제의 전체 단어 세트에 맞는 문법을 60%에서 찾을 수 있었고, 79%의 문제에서 단어 형태의 변화 대부분을 정확히 일치시켰다. 연구원들은 또 언어학 과정을 수강하는 경우 학습해야 하는 일부 지식을 가지고 모델을 사전 프로그래밍하려고 시도했고 모든 문제를 더 잘 해결할 수 있다는 것을 보였다.

얼브라이트 교수는 “이 작업의 한 가지 과제는 모델이 수행하는 작업이 타당한지 여부를 파악하는 것이었다”며 “한 개의 정답이 있는 상황이 아니다. 맞거나 비슷하게 맞거나 등 다양하게 있을 수 있다”고 설명했다.

이 모델은 종종 예상치 못한 솔루션을 제시하기도 한다. 한 예로, 폴란드어 문제에 대해 예상 답을 발견했을 뿐 아니라 교과서의 오류를 지적하면서 또 다른 정답을 찾아냈다. 이는 이 모델이 언어학 분석을 ‘디버깅’할 수 있다는 것을 보여준다. 연구진은 또 이 모델이 모든 문제에 적용될 수 있는 일반적인 음성학적 규칙 모형을 학습할 수 있다는 것을 보여주는 테스트를 실시했다.

엘리스 교수는 “가장 놀라운 점 중 하나는 여러 언어를 통해 배울 수 있다는 점이지만 큰 차이를 보이지 않는다는 것”이라며 “아마도 문제를 해결할 수 있는 더 나은 방법을 필요로 할 것이고 이러한 방법을 찾을 수 없다면, 이 작업을 통해 문제 전반에 걸쳐 공유할 지식과 관련한 여러 가지 아이디어를 모색할 수 있을 것”이라고 설명했다.

향후 연구자들은 이 모델을 사용해 다른 분야의 문제에 대해 예상치 못한 해결책을 모색할 계획이다. 또한 서로 관련된 데이터 세트 간에 보다 높은 수준의 지식을 적용할 수 있는 더 많은 상황에도 이 기술을 적용할 수 있을 것으로 보고 있다.

AI타임스 이한선 객원 기자 griffin12@gmail.com