-
멀티미디어 컴퓨팅시스템 연구실 (MCSL, 지도교수 : 류은석 교수) MPEG 국제표준화 회의 참석
2025-07-072025년 6월 29일부터 7월 4일까지 류은석 교수님과 MCSL 연구원들은 한국 대전에서 개최된 MPEG 국제 표준화 회의에 참석하였습니다. 5박 6일간의 출장 기간 동안 연구원들은 다양한 Working Group(WG)에서 진행된 표준화 미팅에 참가하며, 표준화에 대한 이해도와 견문을 넓혔습니다. 특히, MCSL은 본 표준화 회의에서 WG04 내 표준화 그룹에서 아래와 같은 발표를 진행하였습니다. - m72877: Heterogeneous point cloud object(대규모: point cloud w/ G-PCC, 세부 객체: GS PLY) 시나리오를 고려한 G-PCC 및 GS PLY에 DRM 기술을 적용하는 방안을 제안하였습니다.
AIM LAB(지도교수: 홍성은 교수) ICCV 2025 논문 2편 게재 승인
2025-07-04인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 컴퓨터 비전 분야 세계 최고 권위의 학술대회인 ICCV (IEEE/CVF International Conference on Computer Vision) 2025에 게재 승인되었습니다. 이번 ICCV는 2025년 10월, 미국 하와이에서 개최될 예정이며, 두 논문 모두 현지에서 발표됩니다. 논문1. Task Vector Quantization for Memory-Efficient Model Merging (이승환 석사과정, 정애천 박사과정 공동 제1저자) 이 논문에서는 특정 작업에 특화된 모델들을 하나의 범용 모델로 만드는 '모델 병합(Model Merging)' 기술을 다룹니다. 모델 병합을 위해서는 각 작업별로 파인튜닝된 다수의 모델 체크포인트를 저장해야 하는데, 이는 상당한 메모리를 차지하여 확장성을 저해하는 주요 원인이었습니다. 이를 해결하기 위해 논문은 두 가지 핵심적인 양자화(Quantization) 기법을 제안합니다. Task Vector Quantization (TVQ)는 파인튜닝된 모델 전체가 아닌, 사전 학습된 원본 모델과 파인튜닝된 모델의 가중치 차이만을 나타내는 '태스크 벡터'를 양자화하는 방식입니다. 태스크 벡터는 전체 모델의 가중치보다 분포 범위가 훨씬 좁아, 양자화 시 발생하는 오차가 더 작다는 특성을 활용합니다. Residual Task Vector Quantization (RTVQ)는 2비트와 같은 극단적인 저정밀도 환경에서 발생하는 성능 저하를 완화하기 위해 설계되었습니다. 이 방식은 태스크 벡터를 모든 태스크가 공유하는 하나의 'base vector'와 각 태스크의 고유한 차이를 나타내는 여러 개의 'offset vector'로 분해합니다. 중요 정보가 담긴 기반 벡터는 상대적으로 높은 정밀도(예: 4비트)로, 오프셋 벡터는 낮은 정밀도(예: 2비트)로 양자화하여 메모리 예산 내에서 오차를 최소화합니다. 결과적으로 제안된 방식들은 기존 모델 병합 성능을 유지하면서도, 전체 정밀도(FP32) 체크포인트 대비 약 8%의 저장 공간만을 사용합니다. 특히, 이 기법들은 기존 모델 병합 프레임워크를 수정할 필요 없이 저장된 체크포인트만 교체하면 되므로, 메모리가 제한된 실제 환경에서의 확장성과 실용성을 크게 높였습니다. 논문2. DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding 이 논문에서는 텍스트, 음성 등 다양한 신호로부터 인간의 움직임을 생성하는 문제를 다루며, 기존 방식들의 한계를 극복하기 위한 새로운 프레임워크인 DisCoRD를 제안합니다. 기존의 연속적(Continuous) 생성 방식은 움직임은 자연스럽지만 주어진 조건을 정확히 따르지 못하는 경향이 있었고, 반대로 이산적(Discrete) 생성 방식은 조건은 잘 따르지만 움직임의 표현력이 제한되고 부자연스러운 문제가 있었습니다. DisCoRD는 이러한 '불일치(discord)'를 해결하기 위해 제안된 프레임워크로, 두 가지 핵심 요소로 구성됩니다. Condition Projection: 이산적인 모션 토큰에서 프레임별 특징을 추출하여 토큰과 실제 모션 프레임 간의 시간적 대응 관계를 명확히 유지합니다. Rectified Flow Decoder: 추출된 특징을 이용해 가우시안 노이즈로부터 점진적으로 모션을 복원합니다. 연속 공간에서 이루어지는 이 반복적 디코딩은 미세한 노이즈와 어색함을 줄여 훨씬 부드럽고 역동적인 움직임을 생성합니다. DisCoRD는 이산 방식의 높은 '충실도(faithfulness)'와 연속 방식의 '자연스러움(naturalness)'을 성공적으로 결합했으며, 다양한 기존 이산 모델에 적용해 성능을 높이는 범용 솔루션의 가능성을 입증했습니다.
DLI Lab(지도교수: 최윤석 교수), ACL 2025 논문 1편 게재 승인
2025-05-26데이터 및 언어 지능(Data & Language Intelligence, DLILAB) 연구실의 논문 1편이 세계 최고 권위의 자연어처리 국제학술대회인 ACL 2025 (“2025 Annual Conference of the Nations of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 7월 오스트리아 빈에서 발표될 예정입니다. - Jihyung Lee, Jin-Seop Lee, Jaehoon Lee, YunSeok Choi†, Jee-Hyong Lee†, "DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph", Proceedings of the 2025 Annual Conference of the Association for Computational Linguistics (ACL 2025) († Corresponding Author) 자연어 질문을 SQL 쿼리로 변환하는 Text-to-SQL Task는 대형 언어 모델(LLM)의 In-context learning을 통해 발전해왔습니다. 하지만 기존의 방법들은 무작위로 선택한 Demonstration과 비교해도 성능 향상이 거의 없으며, Llama 3.1-8B와 같은 소형 LLM을 사용할 경우 성능이 크게 하락하는 문제를 보입니다. 이는 현재 방법들이 실제로 유용한 Demonstration을 효과적으로 검색하기보다는, 초대형 LLM의 내재된 능력에 과도하게 의존하고 있습니다. 본 논문에서는 Demonstration을 효과적으로 검색하고 SQL 쿼리를 생성하기 위한 새로운 접근법을 제안합니다. 우리는 질문(Query)과 스키마(Schema) 항목 간의 핵심 정보와 의미적 관계를 포함하는 Deep Contextual Schema Link Graph를 구성합니다. 제안된 방법은 Text-to-SQL 샘플을 효과적으로 표현하고, In-context learning에 유용한 Demonstration을 검색할 수 있도록 합니다. Spider 벤치마크에서의 실험 결과는 제안된 방법의 효용성을 입증하며, 다양한 초대형 LLM뿐만 아니라 소형 LLM에서도 SQL 생성 성능이 향상됨을 보여줍니다. 본 방법은 소형 모델과 초대형 모델 모두에서 효율성과 효과성을 입증했습니다. 최윤석 교수: ys.choi@skku.edu | 데이터 및 언어 지능 연구실: https://dli.skku.edu/
I2SLAB 송인표, 주민준 학생 (지도교수: 이장원 교수), WACV2025 논문 발표
2025-05-02I2SLAB(지도교수: 이장원)의 송인표, 주민준 학생(실감미디어공학과)이 지난 2025년 2월 28일부터 3월 4일까지 미국 애리조나 투손에서 열린 컴퓨터 비전 분야의 대표 국제학회인 WACV 2025 (IEEE/CVF Winter Conference on Applications of Computer Vision)에 참가해 주목할 만한 연구 성과를 발표했다. 이번 학회에서 I2SLAB 연구팀은 웨어러블 360도 카메라를 활용해 사용자의 주변 환경을 인식하고, 시각장애인이 일상에서 마주칠 수 있는 다양한 위험 상황—예를 들어, 도로 위에서의 소매치기, ATM 이용 중 비밀번호를 도청당하는 상황 등—을 탐지할 수 있는 새로운 인공지능 모델을 제안했다. 해당 연구는 시각장애인의 안전한 사회 활동을 지원할 수 있는 기술적 가능성을 제시하며, WACV 2025 참석자들로부터 많은 관심과 긍정적인 평가를 받았다. I2SLAB 연구팀이 발표한 논문의 주요 내용은 다음과 같다. [논문] Inpyo Song, Sanghyeon Lee, Minjun Joo, and Jangwon Lee. “Anomaly detection for people with visual impairments using an egocentric 360-degree camera.” In IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Feb 2025. [Abstract] Recent advancements in computer vision have led to a renewed interest in developing assistive technologies for individuals with visual impairments. Although extensive research has been conducted in the field of computer vision-based assistive technologies, most of the focus has been on understanding contexts in images, rather than addressing their physical safety and security concerns. To address this challenge, we propose the first step towards detecting anomalous situations for visually impaired people by observing their entire surroundings using an egocentric 360-degree camera. We first introduce a novel egocentric 360-degree video dataset called VIEW360 (Visually Impaired Equipped with Wearable 360-degree camera), which contains abnormal activities that visually impaired individuals may encounter, such as shoulder surfing and pickpocketing. Furthermore, we propose a new architecture called the FDPN (Frame and Direction Prediction Network), which facilitates frame-level prediction of abnormal events and identifying of their directions. Finally, we evaluate our approach on our VIEW360 dataset and the publicly available UCF-Crime and Shanghaitech datasets, demonstrating state-of-the-art performance.