고영중교수 연구실(자연어처리 연구실), EMNLP 2024 논문게재 승인
2024-10-04
자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 2편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 EMNLP 2024(The 2024 Conference on Empirical Methods in Natural Language Processing)의 Industry Track에 게재 승인되었습니다. 각 연구는 NAVER, NC Soft와 산학 협력을 통해 이루어졌습니다. 논문#1: Hyper-QKSG: Framework for Automating Query Generation and Knowledge-Snippet Extraction from Tables and Lists (인공지능학과 박사과정 김두영, 인공지능학과 석사과정 장윤진, NAVER 산학) 논문 요약: 본 연구에서는 지식스니펫의 커버리지를 자동으로 확장하는 프레임워크를 제안합니다. 지식스니펫이란 검색엔진에서 검색 결과 상단에 위치하는 짧은 단락으로, 사용자가 쿼리에 대한 정보를 검색된 문서를 읽을 필요 없이 얻을 수 있도록 편의성을 제공하는 역할을 합니다. 테이블이나 리스트와 같이 복잡한 웹 문서구조에서 지식스니펫을 추출하기 위해서, 기존의 자연어 텍스트 기반의 언어모델을 HTML 기반의 언어모델으로 재학습하였으며, 문서로부터 쿼리와 지식스니펫을 추출하는 파이프라인 시스템을 구축하였습니다. 또한 본 연구에서 자동으로 지식스니펫의 커버리지를 확장하는 과정에서 생성되는 다양한 노이즈 지식스니펫-쿼리 쌍에 대해서 필터링 및 개선 방법을 제안하였습니다. 실제 검색 환경에서 자동 확장된 지식스니펫 데이터베이스를 기반으로 정성평가를 진행한 결과 반환된 지식스니펫이 사용자 쿼리에 대해 유용한 정보를 제공할 수 있음을 보였으며, 기존에 테이블이나 리스트에서 지식스니펫을 뽑지 못하는 한계를 극복하고 다양한 HTML 구조에서 지식스니펫을 추출하여 정보를 제공할 수 있음을 보였습니다. Abstract: These days, there is an increasing necessity to provide a user with a short knowledge-snippet for a query in commercial information retrieval services such as the featured snippet of Google. In this paper, we focus on how to automatically extract the candidates of query-knowledge snippet pairs from structured HTML documents by using a new Language Model (HTML-PLM). In particular, the proposed system is powerful on extracting them from Tables and Lists, and provides a new framework for automate query generation and knowledge-snippet extraction based on a QA-pair filtering procedure including the snippet refinement and verification processes, which enhance the quality of generated query-knowledge snippet pairs. As a result, 53.8% of the generated knowledge-snippets includes complex HTML structures such as tables and lists in our experiments of a real-world environments, and 66.5% of the knowledge-snippets are evaluated as valid. 논문#2: RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings (인공지능학과 박사과정 최봉근, 인공지능학과 석박통합과정 박정재, NC Soft 산학) 논문 요약: “RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings” 논문은 NC Soft와 산학 협력을 통해 구축한 데이터셋을 소개합니다. 해당 데이터셋은 검색 기반의 대화형 질의응답 문제를 다루고 있으며, 구체적으로 대화 문맥 내에서 사용자의 질문에 대한 사실 기반의 응답을 하기 위해 문맥 기반의 질의 재작성, 문서 검색, 문서 재순위화, 응답 생성의 과정을 포함하고 있습니다. 특히, 기존의 대화형 질의응답 데이터들이 검색된 문서 내의 일부 단어 혹은 문장을 추출하여 응답으로 사용하는 반면, 검색된 문서를 반영하여 사람과 같은 자연스러운 응답을 생성할 수 있는 것을 목표로 하고 있습니다. 본 논문에서는 데이터셋과 함께 BM25와 한국어 Dense Retriever을 기반으로 한 문서 검색 성능 및 Ko-BART와 LLM(GPT-4o-mini)을 기반으로 한 응답 생성 성능을 Baseline으로 제공하고 있습니다. Abstract: In recent years, significant advancements in conversational question and answering (CQA) have been driven by the exponential growth of large language models and the integration of retrieval mechanisms that leverage external knowledge to generate accurate and contextually relevant responses. Consequently, the fields of conversational search and retrieval-augmented generation (RAG) have obtained substantial attention for their capacity to address two key challenges: query rewriting within conversational histories for better retrieval performance and generating responses by employing retrieved knowledge. However, both fields are often independently studied, and comprehensive study on entire systems remains underexplored. In this work, we present a novel retrieval-augmented conversation (RAC) dataset and develop a baseline system comprising query rewriting, retrieval, reranking, and response generation stages. Experimental results demonstrate the competitiveness of the system and extensive analyses are conducted to apprehend the impact of retrieval results to response generation. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu