한국전자통신硏 "구글 기술보다 성능 평균 4.5% 우수"

▲ 임준호 ETRI 선임연구원이 한국어 언어모델인 코버트(KorBERT)의 작동 원리를 설명하고 있다. 사진=ETRI

[일간투데이 송호길 기자] 한국전자통신연구원(ETRI)이 인공지능(AI) 서비스 개발에 기반이 되는 한국어 언어모델 '코버트(KorBERT)'를 홈페이지를 통해 공개했다고 11일 밝혔다.

언어모델은 딥러닝으로 자연어를 처리하기 위해 언어를 숫자로 표현하고 이를 인식하게끔 만들어주는 말뭉치다.

ETRI에서 연구한 모델은 두 종류다. 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 형태와 교착어 특성까지 반영해 만든 버전이다. 언어처리를 위한 딥러닝을 위해서는 어절을 숫자로 표현해야 한다. 지금까지는 주로 구글의 다국어 언어모델 '버트'(BERT)를 활용했다.

연구진이 개발한 코버트(KorBERT)와 구글 언어모델의 알고리즘 비교표. 자료=ETRI

버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글은 40여만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 구현했다. ETRI 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문 기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

ETRI에 따르면 개발된 언어모델은 구글이 배포한 한국어 모델보다 성능이 평균 4.5%가량 우수하다. 이 기술은 현재 한컴오피스 지식검색 기능 베타 버전에 탑재됐다. 하반기에는 연구진의 언어모델을 활용한 법령분야 질의응답, 유사 특허 분석 기술 서비스도 공개될 예정이다.

연구진은 기업 및 기관 관계자들의 언어 AI 서비스 개발에도 많은 활용이 이뤄질 것으로 전망했다. ETRI 관계자는 "AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발이 한층 고도화될 것으로 전망된다"고 말했다.


저작권자 © 일간투데이 무단전재 및 재배포 금지