-
올림플래닛 김명현 CTO, 2025년 IAB 위촉 및 시스터기업 가입
2025-03-27[사진] 홍성은 실감미디어공학과학과장(좌측), 김명현 올림플래닛 CTO, 김진필 실감미디어공학과 산학협력교수 (우측) 지난 3월 19일(수), 올림플래닛이 실감미디어공학과의 IAB(기업자문위원: Industrial Advisory Board)에 합류하였습니다. IAB는 기업 친화적인 교육과 연구를 위해, 기술과 콘텐츠 트랙을 대표하는 기업 담당 부서의 임원급 전문가들로 구성된 단체입니다. IAB는 학과 및 연구 전반에 대한 조언을 제공하며, 실감미디어공학과의 연말 연구 성과 발표회(Year-end Research Review)에 초청되어 심사위원으로 참여하고, 연구 및 개발 성과에 대해 피드백을 제공합니다. 실감미디어공학과는 2024년 LG전자 CTO그룹 i-LAB 이석수 연구소장(상무)을 1호 IAB 위원으로 위촉했으며, 삼성전자, SK텔레콤, 한국전자통신연구원(ETRI), 한국전자기술연구원(KETI), LG유플러스, NAVER 클라우드센터, LG헬로비전, KBS 미디어연구소, (주)상화, SOS LAB 등의 임원 및 소장들과 함께 11명의 IAB 기구를 운영해왔습니다. 그에 이어, 2025년에는 올림플래닛이 새롭게 합류하게 되었습니다. 올림플래닛은 메타버스 기반의 3D 공간 데이터 플랫폼을 제공하는 기업으로, 부동산, 전시, 리테일, 교육 등 다양한 분야에서 혁신적인 실감형 가상공간 솔루션을 선도하는 스타트업입니다. 이날 올림플래닛은 2025년부터 시작하는 실감미디어공학과 가족기업(Sister 기업)에 참여를 신청하였으며, 홍성은 학과장과 함께 IAB 위촉장 수여식 및 가족기업을 통한 상호 기술/교육 협력 및 공유 프로세스에 대해 환담하는 시간을 가졌습니다. https://www.instagram.com/share/p/BAGA1OKLAp
AIM LAB(지도교수 : 홍성은 교수) , CVPR 2025 논문 1편 게재 승인
2025-03-12인공지능 및 미디어 (AI & Media, AIM LAB) 연구실의 논문 1편이 컴퓨터 비전 및 패턴 인식 분야에서 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 논문은 6월 미국 내슈빌에서 발표될 예정입니다. 저자: 김홍엽*, 정인영*, 서다윤, Youjia Zhang, 이상민, 홍성은 (*공동 1저자) 논문에서는 Audio-Visual Question Answering(AVQA) 문제를 다루며, 기존 방식의 한계를 극복하기 위해 새로운 프레임워크인 QA-TIGER를 제안했습니다. 기존 연구들은 모든 프레임을 동일하게 취급하거나 Top-K 프레임 선택 방식을 사용했으나, 이는 연속적인 시간 정보를 충분히 반영하지 못하는 한계가 있었습니다. QA-TIGER는 두 가지 핵심 모듈로 구성되었습니다. 1. 질문 인식 융합(Question-Aware Fusion) 모듈은 질문 정보를 초기 단계부터 오디오 및 비주얼 피처에 명시적으로 주입하여 효과적인 정보 융합을 수행했습니다. 이를 위해 사전 학습된 인코더를 활용하고, 셀프 어텐션 및 크로스 어텐션을 적용하여 질문과 모달리티 간의 상호작용을 강화했습니다. 2. 가우시안 전문가 시간적 통합(Temporal Integration of Gaussian Experts) 모듈은 기존의 이산적인 프레임 선택 방식 대신 Mixture of Experts(MoE) 기법을 활용하여 연속적인 시간 정보를 정밀하게 반영했습니다. 각 가우시안 전문가는 특정 시간 구간에 초점을 맞춰 동적 가중치를 부여하며, 이를 통해 모델이 질문에 맞는 시간적 단서를 효과적으로 학습하도록 설계했습니다. 결과적으로 QA-TIGER는 질문 특화 정보와 정밀한 시간적 모델링을 결합하여 AVQA 분야에서 새로운 기준을 제시하는 모델임을 입증했습니다.
Pixel Lab (지도교수: 이상민 교수), CVPR 2025 논문 5편 게재 승인
2025-03-12성균관대 Pixel Lab의 논문 5편이 인공지능 및 컴퓨터비전 분야 세계 최고 수준의 학술대회인 CVPR 2025 (“The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2025”)에 게재 승인되었습니다. 해당 연구들은 UIUC, Georgia Tech, UW-Madison, Meta, KHU 등 국제적으로 다양한 기관과의 협업을 통해 이루어졌으며, 6월 미국 내슈빌에서 발표될 예정입니다. 논문1. SocialGesture: Delving into Multi-person Gesture Understanding 저자: Xu Cao, Pranav Virupaksha, Wenqi Jia, Bolin Lai, Fiona Ryan, Sangmin Lee✝, James M. Rehg✝ (✝ Corresponding Author) 인간의 제스처 인식에 관한 기존의 연구는 대부분 다인 간 상호작용을 충분히 고려하지 않았습니다. 하지만 다인 간 상호작용은 자연스러운 제스처가 지닌 사회적 맥락을 이해하는 데 매우 중요한 요소입니다. 이러한 기존 데이터셋의 한계로 인해 인간의 제스처를 언어나 음성 등 다른 모달리티와 효과적으로 연계하는 데 어려움이 있었습니다. 이 문제를 해결하고자 본 연구에서는 다인 간 제스처 분석을 위해 특별히 설계된 최초의 대규모 데이터셋인 SocialGesture를 소개합니다. SocialGesture는 다양한 자연스러운 상황을 포함하고 있으며, 영상 기반의 제스처 인식과 시간적 위치를 비롯한 여러 제스처 분석 작업을 지원합니다. 따라서 복잡한 사회적 상호작용 상황에서 제스처 연구를 발전시키는 데 있어 중요한 자료를 제공합니다. 또한 본 논문은 사회적 제스처 이해를 위한 비주얼 질의응답(Visual Question Answering, VQA)이라는 새로운 태스크를 제안하여 비전-언어 모델(Vision-Language Models, VLM)의 성능 평가를 위한 벤치마크를 제공합니다. 실험 결과는 현재의 제스처 인식 모델이 가지는 여러 한계를 보여주며, 앞으로 이 분야에서 개선할 방향성에 대한 통찰력을 제시합니다. 논문2. Object-aware Sound Source Localization via Audio-Visual Scene Understanding 저자: Sung Jin Um, Dongjin Kim, Sangmin Lee✝, Jung Uk Kim✝ (✝ Corresponding Author) 음원 위치 추정(Sound Source Localization) 태스크는 시각적 장면 내에서 소리를 발생시키는 각 객체의 영역을 정확하게 찾아내는 것을 목표로 합니다. 기존의 방법들은 단순한 오디오-시각적 외관 대응 관계에만 의존하여, 시각적으로 유사한 무음 객체가 여럿 존재하는 등의 도전적인 환경에서는 실제 음원에 해당하는 개별 객체의 정확한 위치를 찾는 데 어려움을 겪었습니다. 이러한 문제를 해결하고자 본 논문에서는 세부적인 맥락 정보를 활용하여 정밀한 음원 위치 추정을 수행하는 새로운 프레임워크를 제안합니다. 구체적으로, 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용하여 시청각 특징을 바탕으로 세부적인 장면 설명 정보를 생성합니다. 또한 생성된 세부 정보를 효과적으로 활용하기 위해 객체 인식 대비 정렬 손실과 객체 영역 분리 손실이라는 두 가지 손실 함수를 새롭게 제안합니다. 본 방법은 이 두 가지 손실 함수를 통해 세밀한 시청각 대응관계를 바탕으로 정밀한 음원 위치 추정을 효과적으로 수행할 수 있습니다. MUSIC 및 VGGSound 데이터셋을 이용한 광범위한 실험 결과, 본 연구가 단일 음원과 다중 음원이 포함된 상황 모두에서 기존 방법 대비 성능을 크게 향상시킴을 입증했습니다. 논문3. Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation 저자: Bolin Lai, Felix Juefei-Xu, Miao Liu, Xiaoliang Dai, Nikhil Mehta, Chenguang Zhu, Zeyi Huang, James M. Rehg, Sangmin Lee, Ning Zhang, Tong Xiao 텍스트 기반 이미지 편집(Text-guided image manipulation)은 최근 수년간 눈부신 발전을 이루었습니다. 하지만 언어의 모호성을 줄이기 위해, 훈련 데이터에서 잘 나타나지 않거나 순수하게 언어로 설명하기 어려운 명령어에 대해 시각적 예시를 활용한 소수 샷 학습(few-shot learning)이 사용되기도 합니다. 그러나 시각적 프롬프트로부터 학습하는 것은 매우 뛰어난 추론 능력을 요구하기 때문에, 최근 널리 사용되는 확산 모델(diffusion models)들이 이 문제를 효과적으로 다루지 못하고 있습니다. 이러한 한계를 극복하기 위해 본 연구에서는 InstaManip이라는 새로운 멀티모달 자기회귀 모델을 제안합니다. InstaManip은 문장과 이미지로 구성된 가이던스를 통해, 인-컨텍스트 러닝 방식으로 이미지 편집 작업을 빠르게 습득하고, 이를 새로운 이미지에 즉시 적용할 수 있습니다. 구체적으로, 본 논문에서는 혁신적인 그룹 자기 어텐션 메커니즘을 통해 인-컨텍스트 학습을 학습(learning)과 적용(applying)이라는 두 개의 독립된 단계로 명확히 구분함으로써 복잡한 문제를 보다 단순한 두 개의 하위 태스크로 분할합니다. 또한, 예시 이미지 내에서 이미지 변환과 직접 관련되지 않은 콘텐츠를 분리하기 위한 관계 정규화 방법도 함께 제안합니다. 광범위한 실험을 통해 본 논문의 방법이 기존의 소수 샷 이미지 편집 모델들에 비해 인간 평가 기준으로 최소 19% 이상의 큰 성능 향상을 보임을 확인하였습니다. 나아가, 제안한 모델이 예시 이미지의 개수나 다양성을 높일수록 성능이 더욱 향상될 수 있음을 발견했습니다. 논문4. Question-Aware Gaussian Experts for Audio-Visual Question Answering 저자: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong 오디오-비주얼 질의응답(Audio-Visual Question Answering, AVQA)은 질문 기반의 멀티모달 추론은 물론이고, 미세한 동적 변화를 포착할 수 있도록 정확한 시간적 근거를 요구하는 태스크입니다. 그러나 기존 연구들은 주로 질문 정보를 암묵적으로만 활용하기 때문에, 질문과 관련된 세부적인 부분에 명확히 집중하지 못한다는 한계가 있었습니다. 또한 대부분의 방법이 일정 간격으로 균등하게 프레임을 샘플링하기 때문에, 질문과 관련된 핵심 프레임들을 놓칠 수 있습니다. 최근 이를 해결하기 위해 Top-K 프레임 선택 방식이 제안되었으나, 이 방법들 또한 이산적이어서 보다 세밀한 연속적 시간 정보는 제대로 반영하지 못하고 있습니다. 이러한 문제점을 해결하기 위해 본 논문에서는 질문 정보를 명시적으로 활용하며 연속적인 시간 역학을 모델링하는 새로운 프레임워크 QA-TIGER를 제안합니다. QA-TIGER는 가우시안 기반 모델링을 통해 질문 내용을 바탕으로 연속적 및 비연속적 프레임들에 적응적으로 집중하고, 질문 정보를 명시적으로 주입함과 동시에 점진적으로 세부 사항을 정교화하는 방식을 핵심 아이디어로 사용합니다. 구체적으로, 본 연구는 전문가 혼합 모델(Mixture of Experts, MoE) 방식을 활용해 다양한 가우시안 모델들을 유연하게 구현하고, 질문별로 특화된 시간 전문가를 활성화합니다. 여러 AVQA 벤치마크 데이터셋에서 수행한 폭넓은 실험을 통해 QA-TIGER가 기존 방법들에 비해 state-of-the-art 성능을 달성했음을 확인했습니다. 논문5. Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders 저자: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg 본 논문에서는 장면 내에서 사람이 어디를 바라보고 있는지를 예측하는 시선 대상 추정(gaze target estimation) 문제를 다룹니다. 사람의 시선 대상을 정확히 예측하기 위해서는 인물의 외형적 특성과 해당 장면의 콘텐츠에 대한 종합적인 추론이 필요합니다. 기존 연구들은 이 문제를 해결하기 위해 장면 인코더, 헤드 인코더, 깊이 및 포즈와 같은 보조 모델 등에서 얻은 특징들을 정교하게 결합하는, 점점 더 복잡한 hand-crafted 파이프라인을 개발해 왔습니다. 본 연구에서는 최근 다양한 시각적 작업에서 우수한 성능을 입증한 범용적(general-purpose) 특징 추출기의 성공에서 영감을 받아, 사전학습된 DINOv2 인코더로부터 추출한 특징을 활용해 시선 대상 추정을 단순화하는 새로운 트랜스포머 기반 프레임워크 Gaze-LLE를 제안합니다. 구체적으로, 장면에 대해 단일한 특징 표현을 추출한 후, 인물에 특화된 위치 프롬프트를 적용하여 간단한 디코딩 모듈로 시선 방향을 예측합니다. 여러 벤치마크 실험을 통해 본 논문의 방법이 기존 연구들을 뛰어넘는 state-of-the-art을 달성했으며, 본 연구에서 설계한 구성 요소들의 타당성을 입증하기 위한 폭넓은 분석도 함께 제시합니다.
2025-02-28메타버스 융합대학원 인력양성 사업(류은석 단장)의 일환으로 지난 2월 24일부터 25일까지 우리 대학 인사캠에서 열린 ‘2025 실감미디어 겨울학교’가 성황리에 마무리됐다.이번 행사는 ‘가상 세계를 만드는 멀티모달 AI와 3D 생성 및 재구성 기술’이라는 주제로 개최됐으며, 멀티모달 AI 및 3D 기술의 최신 연구 동향과 실습이 어우러진 유익한 프로그램으로 구성됐다. 행사의 첫날은 홍성은 교수의 ‘멀티모달 AI의 원리와 응용’ 강연으로 시작됐다. 홍성은 교수는 멀티모달 AI의 핵심 개념과 주요 트렌드를 설명하며, 서로 다른 모달리티를 융합하는 다양한 방법과 응용 사례를 소개했다. 이어서 이상민 교수의 ‘멀티모달 AI 응용: 시각, 언어, 오디오 연결’ 강연이 진행됐으며, 다양한 데이터 표현 방식과 이를 활용한 문제 해결 방법이 논의됐다. 이어서 진행된 이경호 교수의 3D 디지털 휴먼 관련 강연에서는 ‘현실을 재현하는 3D 디지털 휴먼 기술’이라는 주제로 3D 스캔 및 모델링, 애니메이션 기술을 활용한 디지털 휴먼 제작 과정과 활용 사례를 설명했다. 참가자들은 언리얼 엔진의 Metahuman을 활용한 실제 사례를 통해 기술적 이해도를 높일 수 있었다. 둘째 날에는 생성형 AI를 활용한 가상 캐릭터 동작 생성 및 3D 공간 재구성 기술이 집중적으로 다뤄졌다. 이경호 교수는 ‘생성형 AI 기반 가상 캐릭터 동작 생성’ 강연을 통해 텍스트 기반 음성 및 동작 생성 기술을 설명하며, 가상 캐릭터의 자연스러운 표현 방식에 대해 논의했다. 이후 정종범 연구원이 ‘이미지 기반 3차원 재구성’ 강연에서 Structure-from-Motion(SfM) 및 Neural Radiance Fields(NeRF) 기술을 기반으로 한 3D 공간 재구성 기법을 소개했다. 오후 세션에서는 최근 주목받고 있는 Gaussian Splatting(GS) 기술을 주제로 발표가 진행됐다. 최재열 연구원이 ‘Gaussian Splatting 핵심 개념’ 강연을 통해 GS의 기본 원리를 설명한 데 이어, 박준형 연구원이 ‘Gaussian Splatting 최신 연구 동향’을 발표하며 대형 동적 공간 표현 및 렌더링 성능 향상 기술을 소개했다. 마지막으로 진행된 ‘Gaussian Splatting 실험 환경 셋업 및 실습’ 세션에서는 참가자들이 직접 GS 학습 모듈을 빌드하고 실시간 3D 공간을 렌더링하는 실습을 진행하며 기술 적용 방법을 체험할 수 있었다. 소프트웨어융합대학 실감 미디어공학과 주최로 개최된 이번 겨울학교 프로그램은 지능형멀티미디어연구센터, 한국방송미디어공학회의 지원을 받아 성사됐다. 행사에 참여한 한 연구자는 “이론뿐만 아니라 실습까지 포함된 프로그램이 매우 유익했다”라며 “실감 미디어 기술의 발전 가능성을 실감할 수 있는 자리였다”라고 소감을 전했다. 실감 미디어 및 AI 기술의 혁신을 이끌어 갈 연구자들의 적극적인 교류와 참여 속에 막을 내린 ‘2025 실감 미디어 겨울학교’는 앞으로도 매년 겨울방학 기간 동안 정기적으로 진행될 예정이다.