KO, YOUNGJOONG
(한국정보과학회, 2026-03)
거대 언어 모델은 일반 도메인 데이터에 기반해 학습되어서 정보 밀도가 높고 전문 용어가 많은 전문 도메인에서 한계를 보인다. 검색 증강 생성은 외부 지식을 참조함으로써 답변의 정확성과 신뢰성을 높이며, 이는 특히 사전학습 데이터가 부족한 전문 도메인에서 더욱 효과적이다. 그러나 한국어 전문 도메인을 대상으로 한 공개 데이터셋은 여전히 부족하므로, 이에 특화된 검색 증강 생성 데이터셋이 요구된다. ...