삼성전자, '갤럭시 AI' 언어 모델 20개로 확대 추진

2024.06.25 09:56:00 4면

현지 특성 반영한 차별화 모델 개발

 

삼성전자가 온디바이스 실시간 통·번역 기능을 제공하는 '갤럭시 인공지능(AI)'’의 언어 모델 개발을 위해 전 세계 20여 개 연구개발(R&D) 센터에서 연구 중이다.

 

'갤럭시 AI'의 온디바이스 실시간 통·번역 기능은 현재 16개 언어를 지원한다. 연내 스웨덴어, 네덜란드어, 루마니아어, 튀르키예어 등 4개 언어를 추가해 총 20개 언어를 지원할 계획이다.

 

삼성전자의 갤럭시 AI 언어 모델은  ▲언어의 특성·문법에 대한 정량 평가 ▲문화에 대한 지식·이해를 검증하는 정성 평가를 거친다. 일례로 20여 개국 4억 명 이상이 사용하는 아랍어의 경우 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언인 암미야(Ammiyya)를 모두 학습해야 한다. 아랍어 방언은 30여 종에 달한다.

 

삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고 텍스트로 변환하는 과정을 거쳤다.

 

전 세계 약 1억 명이 사용하는 베트남어는 성조 체계를 면밀히 분석했다. 예를 들어 베트남어 단어 '마(Ma)'는 성조에 따라 엄마(Má), 무덤(Mả), 귀신(Ma) 등 전혀 다른 의미를 지닌다. 

 

삼성리서치 베트남 연구소(SRV)는 성조의 미세한 차이를 인식할 수 있도록 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 거쳤다. 정확한 성조 구분을 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화 했다.

 

중남미 22개국의 공식 언어인 스페인어는 국가와 지역 별로 다른 단어의 특성 등을 반영했다.

 

2억 8000만 명이 사용하는 인도네시아어를 갤럭시 AI로 개발할 때에는 인간의 뇌가 학습하는 과정과 유사한 ‘인공신경망번역(NMT)’ 방식을 사용했다. 

 

인도네시아어는 관사·복수형·동사의 시제 변화가 없어 상대적으로 배우기 쉽지만 문장의 맥락을 충분히 파악하지 못하면 내용을 이해할 수 없기 때문이다. 삼성리서치 인도네시아 연구소(SRIN)는 단어가 아닌 ‘문장 단위’로 언어를 학습시켜 갤럭시 AI가 의사소통의 맥락과 규칙을 이해할 수 있도록 했다.

 

[ 경기신문 = 오다경 기자 ]

오다경 기자 omotaan@kgnews.co.kr
저작권자 © 경기신문 무단전재 및 재배포 금지


경기도 용인시 기흥구 흥덕4로 15번길 3-11 (영덕동 1111-2) 경기신문사 | 대표전화 : 031) 268-8114 | 팩스 : 031) 268-8393 | 청소년보호책임자 : 엄순엽 법인명 : ㈜경기신문사 | 제호 : 경기신문 | 등록번호 : 경기 가 00006 | 등록일 : 2002-04-06 | 발행일 : 2002-04-06 | 발행인·편집인 : 김대훈 | ISSN 2635-9790 경기신문 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다. Copyright © 2020 경기신문. All rights reserved. mail to webmaster@kgnews.co.kr