전체 페이지뷰

2024년 5월 27일 월요일

국립국어원 2024년 일상 대화 말뭉치 구축 사업 관련 안내


작성자 국립국어원 등록일 2024. 5. 27. 조회수 60

국립국어원 2024년 일상 대화 말뭉치 구축
사업 관련 안내


 

  국립국어원에서는 우리말 인공지능 기술 개발과 국어 연구 등에 활용하고자 대화 자료를 수집하여 가공하는 ‘2024년 일상 대화 말뭉치 구축’ 사업을 추진하고 있습니다. 우리말 인공지능 기술 발전 등에 기초가 되는 국가적 언어 자료의 수집과 구축 사업에 귀하의 소중한 대화 자료가 유용하게 활용될 수 있도록 많은 관심과 참여를 부탁드립니다.


□ 사업 개요  

 ㅇ 사업명: 2024년 일상 대화 말뭉치 구축

 ㅇ 사업 기간: 2024. 3. 28. ~ 2024. 11. 15.

 ㅇ 사업 수행자: ㈜나라지식정보, 주식회사 스마트미디어테크

- 녹음 용역 수행: 주식회사 스마트미디어테크

 ㅇ 주요 사업 내용: 일상 대화 말뭉치 구축

- 일상 대화 녹음 및 음성 자료 정제(정제 후 700시간 분량)

- 음성 자료 이중 전사 및 원시 말뭉치 구축

- 구축 대상 자료에 대한 메타 정보 구축

 ㅇ 담당자: 국립국어원 언어정보과
                학예연구사 서샛별(02-2669-9754)

□ 주요 질의·답변

1. 일상 대화 자료를 수집하는 목적은?


 ㅇ 일상 속에서 자연스럽게 대화한 자료를 모아 컴퓨터가 읽을 수 있는 형태로 가공한 일상 대화 말뭉치를 국가적으로 구축하여 우리말 인공지능 개발과 국어 연구 등에 공공 자료로 활용할 수 있도록 하기 위해서입니다.

2. 저작권 이용 허락 범위는?


 ㅇ 국립국어원과 국립국어원의 용역 사업 수행자가 귀하의 대화 자료를 말뭉치로 구축하고 배포하기 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

- 수집 자료를 일정한 형식으로 전자적 기록 매체에 담아 보존하는 일

- 수집 자료를 형태소, 단어, 문장 등의 언어 단위별로 분리하며, 언어적·비언어적 정보를 부착하는 등 자료를 복제하여 변형하여 말뭉치를 구축하는 일

- 구축된 말뭉치를 연구 및 기술 개발용으로 학계·연구기관·산업체 등이 이용할 수 있도록 제공·배포하는 일

 ㅇ 학계·연구기관·산업체 등이 국어 연구와 언어 정보 처리 분야 응용 등을 위하여 아래 일을 할 수 있도록 허락을 해 주시는 것이 필요합니다.

- 우리말 인공지능 기술 개발과 국어 연구용으로 말뭉치를 분석 및 처리하여 사용하도록 하는 일

3. 저작권 이용 허락 기간은?


 ㅇ 학계·연구기관·산업체 등이 연구 및 기술 개발에 활용하기 위해서는 충분한 기간 동안 안정적으로 말뭉치를 이용할 수 있는 것이 중요합니다. 예를 들어 1990년대 초반에 영국에서 구축한 BNC(British National Corpus) 말뭉치는 25년이 지난 현재까지도 안정적으로 제공되어 활용되고 있습니다. 국립국어원에서는 귀하의 소중한 대화 자료를 말뭉치로 구축하여 최소 2045년 12월 31일까지는 안정적으로 이용할 수 있도록 허락해 주시기를 바랍니다.

 ㅇ 귀하께서 이용 허락 중지 의사를 밝히시면 최소 이용 허락 기간이 끝난 후 즉시 이용을 중지할 예정입니다.

4. 일상 대화 말뭉치는 어떠한 형식으로 구축되는 것인지?


 ㅇ 귀하를 포함한 2~4인의 대화나 단독 발화를 녹음하고, 녹음된 자료를 전사하고, 말뭉치의 형식을 갖추기 위한 정보를 부가하여 원시 말뭉치를 구축합니다. 여기에 형태소, 어휘, 문장과 관련된 언어적 정보를 부가하여 분석 말뭉치로 구축할 수 있습니다.

일상대화 말뭉치 예시1일상대화 말뭉치 예시2

5. 개인 정보가 노출될 우려는 없는지?


 ㅇ 이름, 전화번호, 주소 등 개인 정보는 알아볼 수 없게 처리합니다.


국립국어원 2024년 일상 대화 말뭉치 구축, 지인과 함께 녹음하실 분들을 초대합니다! (주)스마트미디어테크에서 일상 대화를 수집하고 있습니다. 녹음 자료는 인공 지능 기술 개발에 활용할 대규모 말뭉치로 만들어집니다. 많은 참여 부탁드립니다. 신청 대상 : 10대(만 15세) 이상 누구나! 가능합니다. 가족, 친구, 직장 동료, 선후배, 지인 등 동반 참여 환영! 10대 미성년자인 경우 법정 대리인(부모 등) 동의가 필수입니다. 진행 방법 : 지정 장소에서 자유 대화(대본 없음) 작업 시간 1시간(사전 교육 포함) (상황에 따라 녹음 시간은 변동될 수 있음) 모집 기간 : 2024년 4월 24일~모집 시까지, 녹음 장소 : 서울, 부산, 대전, 익산, 춘천, 제주 등 순차 개설 예정, 녹음 비용 : 1인당 20,000원씩 현장 지급, 지원 방법 : 인터넷 검색 창에 녹음알바.com 접속 후 지원서 작성(지인과 함꼐 혹은 혼자서도 신청 가능합니다.), 문의처 : (주)스마트미디어테크 : 녹음알바.com 010-4801-7452 본 녹음은 1인당 1회만 참여하실 수 있습니다. 문화체육관광부 국립국어원, (주)스마트미디어테크

공공저작물 자유이용허락 표시 기준(공공

댓글 없음:

댓글 쓰기