-
AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
2025-03-12인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 논문은 6월 미국 내슈빌에서 발표될 예정입니다. 저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자) 논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다. QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다. 1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다. 2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다. 결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다.
Pixel Lab (지도교수: 이상민 교수), CVPR 2025 논문 5편 게재 승인
2025-03-12성균관대 Pixel Lab의 논문 5편이 인공지능 및 컴퓨터비전 분야 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 해당 연구들은 UIUC, Georgia Tech, UW-Madison, Meta, KHU 등 국제적으로 다양한 기관과의 협업을 통해 이루어졌으며, 6월 미국 내슈빌에서 발표될 예정입니다. 논문1. SocialGesture: Delving into Multi-person Gesture Understanding 저자: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee✝, James M. Rehg✝ (✝ Corresponding Author) 인간의 제스처 인식에 관한 기존의 연구는 대부분 다인 간 상호작용을 충분히 고려하지 않았습니다. 하지만 다인 간 상호작용은 자연스러운 제스처가 지닌 사회적 맥락을 이해하는 데 매우 중요한 요소입니다. 이러한 기존 데이터셋의 한계로 인해 인간의 제스처를 언어나 음성 등 다른 모달리티와 효과적으로 연계하는 데 어려움이 있었습니다. 이 문제를 해결하고자 본 연구에서는 다인 간 제스처 분석을 위해 특별히 설계된 최초의 대규모 데이터셋인 SocialGesture를 소개합니다. SocialGesture는 다양한 자연스러운 상황을 포함하고 있으며, 영상 기반의 제스처 인식과 시간적 위치를 비롯한 여러 제스처 분석 작업을 지원합니다. 따라서 복잡한 사회적 상호작용 상황에서 제스처 연구를 발전시키는 데 있어 중요한 자료를 제공합니다. 또한 본 논문은 사회적 제스처 이해를 위한 비주얼 질의응답(Visual Question Answering, VQA)이라는 새로운 태스크를 제안하여 비전-언어 모델(Vision-Language Models, VLM)의 성능 평가를 위한 벤치마크를 제공합니다. 실험 결과는 현재의 제스처 인식 모델이 가지는 여러 한계를 보여주며, 앞으로 이 분야에서 개선할 방향성에 대한 통찰력을 제시합니다. 논문2. Object-aware Sound Source Localization via Audio-Visual Scene Understanding 저자: Sung Jin Um, Dongjin Kim, Sangmin Lee✝, Jung Uk Kim✝ (✝ Corresponding Author) 음원 위치 추정(Sound Source Localization) 태스크는 시각적 장면 내에서 소리를 발생시키는 각 객체의 영역을 정확하게 찾아내는 것을 목표로 합니다. 기존의 방법들은 단순한 오디오-시각적 외관 대응 관계에만 의존하여, 시각적으로 유사한 무음 객체가 여럿 존재하는 등의 도전적인 환경에서는 실제 음원에 해당하는 개별 객체의 정확한 위치를 찾는 데 어려움을 겪었습니다. 이러한 문제를 해결하고자 본 논문에서는 세부적인 맥락 정보를 활용하여 정밀한 음원 위치 추정을 수행하는 새로운 프레임워크를 제안합니다. 구체적으로, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 시청각 특징을 바탕으로 세부적인 장면 설명 정보를 생성합니다. 또한 생성된 세부 정보를 효과적으로 활용하기 위해 객체 인식 대비 정렬 손실과 객체 영역 분리 손실이라는 두 가지 손실 함수를 새롭게 제안합니다. 본 방법은 이 두 가지 손실 함수를 통해 세밀한 시청각 대응관계를 바탕으로 정밀한 음원 위치 추정을 효과적으로 수행할 수 있습니다. MUSIC 및 VGGSound 데이터셋을 이용한 광범위한 실험 결과, 본 연구가 단일 음원과 다중 음원이 포함된 상황 모두에서 기존 방법 대비 성능을 크게 향상시킴을 입증했습니다. 논문3. Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 저자: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao 텍스트 기반 이미지 편집(Text-guided image manipulation)은 최근 수년간 눈부신 발전을 이루었습니다. 하지만 언어의 모호성을 줄이기 위해, 훈련 데이터에서 잘 나타나지 않거나 순수하게 언어로 설명하기 어려운 명령어에 대해 시각적 예시를 활용한 소수 샷 학습(few-shot learning)이 사용되기도 합니다. 그러나 시각적 프롬프트로부터 학습하는 것은 매우 뛰어난 추론 능력을 요구하기 때문에, 최근 널리 사용되는 확산 모델(diffusion models)들이 이 문제를 효과적으로 다루지 못하고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 InstaManip이라는 새로운 멀티모달 자기회귀 모델을 제안합니다. InstaManip은 문장과 이미지로 구성된 가이던스를 통해, 인-컨텍스트 러닝 방식으로 이미지 편집 작업을 빠르게 습득하고, 이를 새로운 이미지에 즉시 적용할 수 있습니다. 구체적으로, 본 논문에서는 혁신적인 그룹 자기 어텐션 메커니즘을 통해 인-컨텍스트 학습을 학습(learning)과 적용(applying)이라는 두 개의 독립된 단계로 명확히 구분함으로써 복잡한 문제를 보다 단순한 두 개의 하위 태스크로 분할합니다. 또한, 예시 이미지 내에서 이미지 변환과 직접 관련되지 않은 콘텐츠를 분리하기 위한 관계 정규화 방법도 함께 제안합니다. 광범위한 실험을 통해 본 논문의 방법이 기존의 소수 샷 이미지 편집 모델들에 비해 인간 평가 기준으로 최소 19% 이상의 큰 성능 향상을 보임을 확인하였습니다. 나아가, 제안한 모델이 예시 이미지의 개수나 다양성을 높일수록 성능이 더욱 향상될 수 있음을 발견했습니다. 논문4. Question-Aware Gaussian Experts for Audio-Visual Question Answering 저자: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong 오디오-비주얼 질의응답(Audio-Visual Question Answering, AVQA)은 질문 기반의 멀티모달 추론은 물론이고, 미세한 동적 변화를 포착할 수 있도록 정확한 시간적 근거를 요구하는 태스크입니다. 그러나 기존 연구들은 주로 질문 정보를 암묵적으로만 활용하기 때문에, 질문과 관련된 세부적인 부분에 명확히 집중하지 못한다는 한계가 있었습니다. 또한 대부분의 방법이 일정 간격으로 균등하게 프레임을 샘플링하기 때문에, 질문과 관련된 핵심 프레임들을 놓칠 수 있습니다. 최근 이를 해결하기 위해 Top-K 프레임 선택 방식이 제안되었으나, 이 방법들 또한 이산적이어서 보다 세밀한 연속적 시간 정보는 제대로 반영하지 못하고 있습니다. 이러한 문제점을 해결하기 위해 본 논문에서는 질문 정보를 명시적으로 활용하며 연속적인 시간 역학을 모델링하는 새로운 프레임워크 QA-TIGER를 제안합니다. QA-TIGER는 가우시안 기반 모델링을 통해 질문 내용을 바탕으로 연속적 및 비연속적 프레임들에 적응적으로 집중하고, 질문 정보를 명시적으로 주입함과 동시에 점진적으로 세부 사항을 정교화하는 방식을 핵심 아이디어로 사용합니다. 구체적으로, 본 연구는 전문가 혼합 모델(Mixture of Experts, MoE) 방식을 활용해 다양한 가우시안 모델들을 유연하게 구현하고, 질문별로 특화된 시간 전문가를 활성화합니다. 여러 AVQA 벤치마크 데이터셋에서 수행한 폭넓은 실험을 통해 QA-TIGER가 기존 방법들에 비해 state-of-the-art 성능을 달성했음을 확인했습니다. 논문5. Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 저자: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg 본 논문에서는 장면 내에서 사람이 어디를 바라보고 있는지를 예측하는 시선 대상 추정(gaze target estimation) 문제를 다룹니다. 사람의 시선 대상을 정확히 예측하기 위해서는 인물의 외형적 특성과 해당 장면의 콘텐츠에 대한 종합적인 추론이 필요합니다. 기존 연구들은 이 문제를 해결하기 위해 장면 인코더, 헤드 인코더, 깊이 및 포즈와 같은 보조 모델 등에서 얻은 특징들을 정교하게 결합하는, 점점 더 복잡한 hand-crafted 파이프라인을 개발해 왔습니다. 본 연구에서는 최근 다양한 시각적 작업에서 우수한 성능을 입증한 범용적(general-purpose) 특징 추출기의 성공에서 영감을 받아, 사전학습된 DINOv2 인코더로부터 추출한 특징을 활용해 시선 대상 추정을 단순화하는 새로운 트랜스포머 기반 프레임워크 Gaze-LLE를 제안합니다. 구체적으로, 장면에 대해 단일한 특징 표현을 추출한 후, 인물에 특화된 위치 프롬프트를 적용하여 간단한 디코딩 모듈로 시선 방향을 예측합니다. 여러 벤치마크 실험을 통해 본 논문의 방법이 기존 연구들을 뛰어넘는 state-of-the-art을 달성했으며, 본 연구에서 설계한 구성 요소들의 타당성을 입증하기 위한 폭넓은 분석도 함께 제시합니다.
2025-02-28메타버스 융합대학원 인력양성 사업(류은석 단장)의 일환으로 지난 2월 24일부터 25일까지 우리 대학 인사캠에서 열린 ‘2025 실감미디어 겨울학교’가 성황리에 마무리됐다.이번 행사는 ‘가상 세계를 만드는 멀티모달 AI와 3D 생성 및 재구성 기술’이라는 주제로 개최됐으며, 멀티모달 AI 및 3D 기술의 최신 연구 동향과 실습이 어우러진 유익한 프로그램으로 구성됐다. 행사의 첫날은 홍성은 교수의 ‘멀티모달 AI의 원리와 응용’ 강연으로 시작됐다. 홍성은 교수는 멀티모달 AI의 핵심 개념과 주요 트렌드를 설명하며, 서로 다른 모달리티를 융합하는 다양한 방법과 응용 사례를 소개했다. 이어서 이상민 교수의 ‘멀티모달 AI 응용: 시각, 언어, 오디오 연결’ 강연이 진행됐으며, 다양한 데이터 표현 방식과 이를 활용한 문제 해결 방법이 논의됐다. 이어서 진행된 이경호 교수의 3D 디지털 휴먼 관련 강연에서는 ‘현실을 재현하는 3D 디지털 휴먼 기술’이라는 주제로 3D 스캔 및 모델링, 애니메이션 기술을 활용한 디지털 휴먼 제작 과정과 활용 사례를 설명했다. 참가자들은 언리얼 엔진의 Metahuman을 활용한 실제 사례를 통해 기술적 이해도를 높일 수 있었다. 둘째 날에는 생성형 AI를 활용한 가상 캐릭터 동작 생성 및 3D 공간 재구성 기술이 집중적으로 다뤄졌다. 이경호 교수는 ‘생성형 AI 기반 가상 캐릭터 동작 생성’ 강연을 통해 텍스트 기반 음성 및 동작 생성 기술을 설명하며, 가상 캐릭터의 자연스러운 표현 방식에 대해 논의했다. 이후 정종범 연구원이 ‘이미지 기반 3차원 재구성’ 강연에서 Structure-from-Motion(SfM) 및 Neural Radiance Fields(NeRF) 기술을 기반으로 한 3D 공간 재구성 기법을 소개했다. 오후 세션에서는 최근 주목받고 있는 Gaussian Splatting(GS) 기술을 주제로 발표가 진행됐다. 최재열 연구원이 ‘Gaussian Splatting 핵심 개념’ 강연을 통해 GS의 기본 원리를 설명한 데 이어, 박준형 연구원이 ‘Gaussian Splatting 최신 연구 동향’을 발표하며 대형 동적 공간 표현 및 렌더링 성능 향상 기술을 소개했다. 마지막으로 진행된 ‘Gaussian Splatting 실험 환경 셋업 및 실습’ 세션에서는 참가자들이 직접 GS 학습 모듈을 빌드하고 실시간 3D 공간을 렌더링하는 실습을 진행하며 기술 적용 방법을 체험할 수 있었다. 소프트웨어융합대학 실감 미디어공학과 주최로 개최된 이번 겨울학교 프로그램은 지능형멀티미디어연구센터, 한국방송미디어공학회의 지원을 받아 성사됐다. 행사에 참여한 한 연구자는 “이론뿐만 아니라 실습까지 포함된 프로그램이 매우 유익했다”라며 “실감 미디어 기술의 발전 가능성을 실감할 수 있는 자리였다”라고 소감을 전했다. 실감 미디어 및 AI 기술의 혁신을 이끌어 갈 연구자들의 적극적인 교류와 참여 속에 막을 내린 ‘2025 실감 미디어 겨울학교’는 앞으로도 매년 겨울방학 기간 동안 정기적으로 진행될 예정이다.
DLILAB(지도교수 : 최윤석 교수) , NAACL 2025 논문 4편 게재 승인
2025-02-06데이터 및 언어 지능(Data & Language Intelligence, DLILAB) 연구실의 논문 4편이 자연어처리 분야의 최우수 국제학술대회인 NAACL 2025 (“2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 4월 미국 뉴 멕시코에서 발표될 예정입니다. 자동 코드 질문 응답(AQA)은 코드 스니펫을 분석하여 코드 관련 질문에 대해 정확한 답변을 생성하는 것을 목표로 합니다. 적절한 답변을 제공하려면 코드의 관련 부분을 정확히 이해하고, 질문의 의도를 올바르게 해석해야 합니다. 그러나 실제 환경에서는 질문자가 코드의 일부만 제공하는 경우가 많아 답변을 찾는 데 어려움이 발생합니다. 응답자는 이러한 제한된 정보를 기반으로 적절한 답변을 제공할 수 있어야 합니다. 이를 해결하기 위해 우리는 CoRAC이라는 지식 기반 프레임워크를 제안합니다. CoRAC은 선택적 API 문서 검색과 질문 의미 의도 클러스터링을 통해 이해력을 향상시켜 자동 코드 질문 응답을 지원합니다. 세 가지 실제 벤치마크 데이터셋에서 CoRAC의 성능을 평가했으며, 다양한 실험을 통해 그 효과를 입증했습니다. 또한, CoRAC이 ChatGPT와 같은 대규모 언어 모델에 비해 고품질의 답변을 생성할 수 있음을 보여주었습니다. 이 논문에서는 SALAD (Structure-Aware and LLM-driven Augmented Data)라는 새로운 접근법을 제안합니다. SALAD는 대조 학습(Contrastive Learning)을 위해 구조를 인지하고 반사실적(counterfactual)으로 증강된 데이터를 생성함으로써 모델의 강건성(robustness)과 일반화(generalization)**를 향상시키는 것을 목표로 합니다. 태깅 기반 방식을 사용하여 구조를 인지한 긍정 샘플을 생성하고, 대규모 언어 모델(LLM)을 활용해 다양한 문장 패턴을 가진 반사실적 부정 샘플을 생성합니다. 이를 통해 모델이 주요 문장 구성 요소 간의 구조적 관계를 학습하도록 하며, 부적절한 상관관계(spurious correlations)에 대한 의존을 최소화합니다. 감정 분류(Sentiment Classification), 성차별 탐지(Sexism Detection), 자연어 추론(Natural Language Inference) 세 가지 과제에서 실험을 통해 SALAD의 효과를 검증했으며, 그 결과 SALAD가 다양한 환경에서 모델의 강건성과 성능을 향상시킬 뿐 아니라, 분포 외(out-of-distribution) 데이터셋과 교차 도메인 시나리오에서도 일반화 성능을 강화함을 보였습니다. 대규모 언어 모델(LLMs)은 제로샷 질문 응답(QA) 과제에서 뛰어난 성능을 보이지만, 기존 방법들은 모호한 질문과 명확한 질문 유형 간의 성능 격차가 크며, 주어진 지침이나 내부 지식에 강하게 의존하여 편향 제거 성능(debiasing performance)이 낮다는 한계를 가지고 있습니다. 이를 해결하기 위해, 우리는 DeCAP (Context-Aware Prompt Generation)을 제안합니다. DeCAP은 질문 유형의 차이로 인한 성능 격차를 줄이기 위해 질문 모호성 탐지기(Question Ambiguity Detector)를 활용하고, 중립적인 문맥을 제공하기 위해 중립적 다음 문장 생성기(Neutral Next Sentence Generator)를 사용하여 내부 편향 지식에 대한 의존도를 감소시킵니다. BBQ와 UNQOVER 데이터셋을 사용해 여섯 개의 LLM에 대한 실험 결과, DeCAP이 state-of-the-arts 편향 제거 QA 성능을 달성했으며, 다양한 QA 환경에서 LLM의 공정성과 정확성을 크게 향상시키는 데 효과적임을 입증했습니다. 언어 모델의 취약성을 검증하기 위해 많은 적대적 공격(adversarial attack) 방법들이 제안되었으나, 대부분 다수의 쿼리와 타겟 모델에 대한 정보를 필요로 합니다. 심지어 블랙박스 공격(black-box attack)조차도 타겟 모델의 출력 정보를 요구하며, 이는 타겟 모델이 닫혀있고 접근이 불가능한 하드 블랙박스(hard black-box) 환경에서는 현실적으로 적용이 어렵습니다. 최근 제안된 하드 블랙박스 공격 방법들도 여전히 많은 쿼리를 요구하며, 적대적 생성기를 훈련하는 데 매우 높은 비용이 소요됩니다. 이러한 문제를 해결하기 위해, 우리는 타겟 모델에 접근하지 않고 적대적 예제를 생성하는 효율적인 방법인 Q-faker(Query-free Hard Black-box Attacker)를 제안합니다. Q-faker는 타겟 모델에 접근하지 않기 위해 대리 모델(surrogate model)을 사용하며, 이 대리 모델은 타겟 모델을 속일 수 있는 적대적 문장을 생성합니다. 이 과정에서 제어된 생성 기법(controlled generation techniques)을 활용합니다. 우리는 8개의 데이터셋에서 Q-faker를 평가했으며, 실험 결과, Q-faker가 높은 전이성(transferability)과 높은 품질의 적대적 예제를 생성할 수 있음을 보여주었고, 하드 블랙박스 환경에서의 실용성을 입증했습니다.