-
DXLab (박은일 교수 연구실), AAAI 2026 1편, WACV 2026 1편 게재 승인
2025-11-17DXLab (지도교수: 박은일, https://dsl.skku.edu)의 논문이 인공지능 분야 우수학회인 AAAI 2026에 1편, WACV 2026에 1편 게재 승인(Accept)되었습니다. 해당 논문은 26년 1월(싱가포르)와 3월(애리조나)에서 발표될 예정입니다. 1) (AAAI 2026) “MASP: Multi-Aspect Guided Emotion Reasoning with Soft Prompt Tuning in Vision-Language Models” 논문은 이상은 졸업생(인공지능융합학과, 現 ETRI 연구원), 이유빈 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Vision-Language Model (VLM) 기반 감정 인식이 이미지의 단일 표현이나 제한된 단서에 의존해 세밀한 감정 판단에 어려움을 겪는 문제를 해결하기 위해, 인간의 감정 판단 과정에서 활용되는 여러 시각 단서를 구조적으로 통합하는 MASP를 제안합니다. MASP는 얼굴 표정, 장면, 객체, 색채, 밝기, 행동의 여섯 가지 감정 단서를 독립적으로 인코딩하는 Multi-Aspect Module을 학습하고, 이를 전체 이미지 특징과 결합하여 보다 풍부한 시각 표현을 구성합니다. 기존 연구가 제한된 관점만 활용한 것과 달리, MASP는 여섯 가지 단서를 모두 분리×통합해 더 정교한 감정 해석을 지원합니다. 이후 Soft Prompt Tuning을 통해 언어 모델에 감정 인식에 특화된 추론 구조를 유도함으로써, 기존 대비 높은 정확도와 안정적인 성능을 달성합니다. Soft Prompt는 프롬프트 표현 변화에 대한 강건성을 높여 실제 환경에서도 안정적인 추론을 가능하게 합니다. MASP는 유사 감정 구분이나 소수 클래스 분류와 같은 까다로운 상황에서도 강인한 성능을 보이며, 멀티모달 감정 이해가 필요한 인간-에이전트 상호작용 등 실제 응용 분야에서 높은 활용 가능성을 보여줍니다. 2) (WACV 2026) “Alignment and Distillation: A Robust Framework for Multimodal Domain Generalizable Human Action Recognition” 논문은 지현빈 석사과정생(실감미디어공학과), 이주엽 박사과정생(인공지능융합학과)이 저자로 참여하였고, 박은일 교수가 교신저자로 참여하였습니다. 이 논문은 기존 Human Action Recognition(HAR) 모델이 단일 모달리티나 정적인 융합 방식에 머물러 실제 환경의 도메인 변화에 취약하다는 문제를 해결하기 위해, 멀티모달 단서를 시간적으로 정렬 및 통합하는 Multimodal Alignment and Distillation for Domain Generalization(MAD-DG) 프레임워크를 제안합니다. 이를 위해 MAD-DG는 두 가지 핵심 요소를 중심으로 보다 안정적인 행동 표현을 학습합니다. 먼저, Segment-Label Aligned Contrastive Learning(SLA-CL)은 RGB, Optical Flow, Audio 간의 비동기적 기록 문제를 Temporal Binding Window 기반으로 보정해 모달리티 간 의미적 대응을 정밀하게 맞춥니다. 이를 통해 센서 지연이나 녹화 불일치로 발생하는 잡음을 줄이고 행동의 핵심 패턴을 강조합니다. 이어서 Online Self-Distillation Temporal Module(OSDTM)은 행동이 시간적으로 여러 단계로 전개된다는 점에 착안해 다양한 길이의 segment tuple을 구성하고, soft attention으로 중요한 조합을 선택합니다. Teacher–student 방식의 self-distillation을 통해 도메인 변화에도 흔들리지 않는 시간적 표현을 형성합니다. MAD-DG는 이러한 모달리티 정렬과 다중 스케일 temporal reasoning을 결합해, 기존 모델이 어려워하던 멀티소스 도메인 일반화나 콘텍스트 제거 환경(Mimetics)에서도 높은 성능을 달성합니다. 특히 Optical Flow 정보를 적극적으로 활용해 실제 행동 중심의 표현을 구성하며, 복잡한 행동 이해나 인간–에이전트 협력 시스템 등 다양한 실사용 환경에서 높은 활용 가능성을 보여줍니다.
인공지능융합학과/실감미디어공학과 학생 12명, AI 서울테크 대학원 장학생 선정
2025-11-10우리 학교 인공지능융합학과/실감미디어공학과 학생 12명이 AI 서울테크 대학원 장학생에 선정되었다. 선정된 장학생은 다음과 같다. 석사과정: 류보곤(지도교수 홍성은), 주세진, 양시현, 김지은, 박지안(지도교수 한진영), 최린, 전희정, 김기원, 박채원, 지현빈(지도교수 박은일) 박사과정: 최소윤(지도교수 홍성은), 김동재(지도교수 박은일) 서울장학재단은 위 학생들에게 각 500만원(석사과정)과 1천만원(박사과정)의 연구 장려금을 지원할 계획이다. 해당 장학금은 서울 소재의 AI 인재양성을 위해 서울특별시에서 신설한 사업으로 AI 기반의 전문 인재 양성을 위하여 조성되었다. *각 연구실 링크 홍성은 교수 - AIM LAB (https://aim.skku.edu/) 한진영 교수 - DSAIL (http://dsail.skku.edu/) 박은일 교수 - dxlab (https://dsl.skku.edu/)
인공지능융합학과 박은일 교수 연구팀, ICCV 2025 - ABAW VA Estimation Challenge 우승
2025-11-03▲(왼쪽부터) 성균관대 이유빈 박사과정생, 이상은 졸업생(現 ETRI 연구원), 박채원 석사과정생, 차준엽 박사과정생, 박은일 교수 우리 대학 인공지능융합학과 박은일 교수 연구팀이 세계 최고 권위의 인공지능(컴퓨터 비전) 학술대회인 ICCV 2025 (International Conference on Computer Vision)에서 개최된 ABAW (Affective Behavior Analysis in the Wild) / Valence-Arousal Estimation Challenge에서 1위를 차지했다고 밝혔다. 이번 대회는 2025년 10월 미국 하와이에서 열렸으며, 전 세계 유수 대학과 연구기관이 참가해 영상과 음성 등 비정형 멀티모달 데이터를 활용한 감정 상태 예측 기술을 경쟁했다. ▲ ICCV 2025 - ABAW Valence-Arousal Estimation Challenge에서 1위를 차지하며 수상한 인증서 ▲ ICCV 2025에서 1위 수상 연구를 발표하는 이유빈 박사과정(2025년 10월 20일, 미국 하와이 호놀룰루 컨벤션센터) ABAW 챌린지는 실제 환경에서 수집된 복잡한 멀티모달 데이터를 바탕으로 인간의 감정을 Valence-Arousal(긍정-부정, 활성화-비활성화) 축에서 정밀하게 추정하는 기술력을 평가한다. 특히 올해 대회는 시간적 변화에 대한 이해와 멀티모달 융합의 정교함을 요구해, 실시간 감정 추정 및 인간-인공지능 상호작용 분야의 핵심 벤치마크로 자리잡았다. 박은일 교수 연구팀은 Time-aware Gated Fusion(TAGF) 기반의 정서 인식 프레임워크를 제안해 우수한 성과를 거두었다. 제안된 모델은 BiLSTM 게이팅 메커니즘을 활용하여 시간에 따른 감정 변화를 동적으로 반영하고, 불필요한 잡음을 억제하면서 핵심 정서 단서를 강조함으로써 기존 모델 대비 높은 예측 성능을 달성했다. 이 결과는 실제 환경에서도 안정적이고 해석 가능한 감정 인식이 가능함을 보여주며, 향후 인간-AI 상호작용, 감정 기반 콘텐츠 분석, 정서 지능형 에이전트 개발 등 다양한 응용 분야로 확장될 수 있을 것으로 기대된다. ▲ 시각 및 음성 정보를 융합한 Time-aware Gated Fusion(TAGF) 기반 정서 예측 프레임워크 개략도 이번 성과는 박은일 교수 연구팀이 꾸준히 축적해 온 사용자 이해 기반의 범용 인공지능 기술 연구 역량을 다시 한번 세계적으로 인정받은 사례로 평가된다. 연구팀은 향후 감정 이해를 넘어, 인간의 인지적 맥락과 의도를 정밀하게 해석하는 차세대 정서 지능형 인공지능 기술 개발에 주력할 계획이다. 또한 이번 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 인간지향적 차세대 도전형 AI 기술 개발과 딥페이크 연구센터 사업의 일환으로 수행되었으며, ICCV 2025에서 공식 발표되었다. ※ 논문명: Dynamic Temporal Gating Networks for Cross-Modal Valence-Arousal Estimation ※ 저자명: 이유빈(제1저자), 이상은, 박채원, 차준엽(공동저자), 박은일(교신저자) ※ 학술대회: ICCV 2025 (International Conference on Computer Vision)
LAMDA (지도교수: 오하영 교수) WSDM 2025 논문 1편 게재 승인
2025-10-24LAMDA연구실(지도교수: 오하영)의 논문이 데이터 마이닝 분야의Top-tier 학술대회인 WSDM 2026 (The 19th ACM International Conference on Web Search and Data Mining) Main Conference에 게재 승인(Accept) 되었습니다. 왼쪽부터 LAMDA Lab 이진권, 김기성, 양혜지 ‘인공지능융합학과’ 학생(지도교수 : 오하영), ‘인터렉션사이언스학과’ 차동영 본 연구는 사회적으로 복잡하고 갈등을 유발하는 인터넷 밈을 정확히 해석하기 위해, 이미지·캡션·외부 문서를 통합하는 프레임워크 MerFT(Meme Exploration via Multimodal Retrieval-Augmented Fine-tuning)를 제안합니다. 함께 공개한 RoMQD데이터셋은KnowYourMeme 오라클 문서와 의미는 비슷하지만 맥락은 어긋나는‘디스트랙터’ 문서를 체계적으로 포함해, 현실적인 노이즈 환경에서의 해석 능력을 평가합니다. MerFT는 인용-인식Chain-of-Thought와 문서 정렬 기반 답변 손실을 결합하고, 오해를 부르는 외부 정보 의존을 명시적으로 패널티하여RAG의 취약점을 보완했습니다. 8개 사회갈등 영역, 6가지 인지 역량(문화 맥락, 풍자/아이러니, 이미지-텍스트 통합 등)에서 평가한 결과, Qwen2.5-VL 기준선 대비F1 +8.1을 달성했으며, 특히 풍자/아이러니와 이미지-텍스트 통합 과제에서 큰 개선을 보였습니다. 입력을 이미지+캡션+문서로 모두 활용할 때 가장 안정적이었고, 클러스터링 기반의 강한 디스트랙터 설계가 견고성을 한층 높였습니다. 또한 최신 재순위 기법과 결합한 하이브리드 접근이 계산 비용은 늘지만 최고 성능을 기록했습니다. 본 연구는 밈 기반 사회문화 갈등 분석을 위한 검색 강건성 다중모달 추론의 실현 가능성을 입증하고, 신뢰 가능한 콘텐츠 분석 시스템 구축에 실질적 지침을 제시합니다.
발전기금


