[연구] AIM LAB(지도교수: 홍성은 교수) ICCV 2025 논문 2편 게재 승인
- 인공지능융합학과(일반대학원)
- 조회수164
- 2025-07-04
인공지능 및 미디어 연구실(AI & Media, AIM LAB)의 논문 2편이 컴퓨터 비전 분야 세계 최고 권위의 학술대회인 ICCV (IEEE/CVF International Conference on Computer Vision) 2025에 게재 승인되었습니다. 이번 ICCV는 2025년 10월, 미국 하와이에서 개최될 예정이며, 두 논문 모두 현지에서 발표됩니다.
논문1. Task Vector Quantization for Memory-Efficient Model Merging
(이승환 석사과정, 정애천 박사과정 공동 제1저자)
이 논문에서는 특정 작업에 특화된 모델들을 하나의 범용 모델로 만드는 '모델 병합(Model Merging)' 기술을 다룹니다.
모델 병합을 위해서는 각 작업별로 파인튜닝된 다수의 모델 체크포인트를 저장해야 하는데, 이는 상당한 메모리를 차지하여 확장성을 저해하는 주요 원인이었습니다. 이를 해결하기 위해 논문은 두 가지 핵심적인 양자화(Quantization) 기법을 제안합니다.
Task Vector Quantization (TVQ)는 파인튜닝된 모델 전체가 아닌, 사전 학습된 원본 모델과 파인튜닝된 모델의 가중치 차이만을 나타내는 '태스크 벡터'를 양자화하는 방식입니다. 태스크 벡터는 전체 모델의 가중치보다 분포 범위가 훨씬 좁아, 양자화 시 발생하는 오차가 더 작다는 특성을 활용합니다.
Residual Task Vector Quantization (RTVQ)는 2비트와 같은 극단적인 저정밀도 환경에서 발생하는 성능 저하를 완화하기 위해 설계되었습니다. 이 방식은 태스크 벡터를 모든 태스크가 공유하는 하나의 'base vector'와 각 태스크의 고유한 차이를 나타내는 여러 개의 'offset vector'로 분해합니다. 중요 정보가 담긴 기반 벡터는 상대적으로 높은 정밀도(예: 4비트)로, 오프셋 벡터는 낮은 정밀도(예: 2비트)로 양자화하여 메모리 예산 내에서 오차를 최소화합니다.
결과적으로 제안된 방식들은 기존 모델 병합 성능을 유지하면서도, 전체 정밀도(FP32) 체크포인트 대비 약 8%의 저장 공간만을 사용합니다. 특히, 이 기법들은 기존 모델 병합 프레임워크를 수정할 필요 없이 저장된 체크포인트만 교체하면 되므로, 메모리가 제한된 실제 환경에서의 확장성과 실용성을 크게 높였습니다.
논문2. DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
이 논문에서는 텍스트, 음성 등 다양한 신호로부터 인간의 움직임을 생성하는 문제를 다루며, 기존 방식들의 한계를 극복하기 위한 새로운 프레임워크인 DisCoRD를 제안합니다. 기존의 연속적(Continuous) 생성 방식은 움직임은 자연스럽지만 주어진 조건을 정확히 따르지 못하는 경향이 있었고, 반대로 이산적(Discrete) 생성 방식은 조건은 잘 따르지만 움직임의 표현력이 제한되고 부자연스러운 문제가 있었습니다.
DisCoRD는 이러한 '불일치(discord)'를 해결하기 위해 제안된 프레임워크로, 두 가지 핵심 요소로 구성됩니다.
Condition Projection: 이산적인 모션 토큰에서 프레임별 특징을 추출하여 토큰과 실제 모션 프레임 간의 시간적 대응 관계를 명확히 유지합니다.
Rectified Flow Decoder: 추출된 특징을 이용해 가우시안 노이즈로부터 점진적으로 모션을 복원합니다. 연속 공간에서 이루어지는 이 반복적 디코딩은 미세한 노이즈와 어색함을 줄여 훨씬 부드럽고 역동적인 움직임을 생성합니다.
DisCoRD는 이산 방식의 높은 '충실도(faithfulness)'와 연속 방식의 '자연스러움(naturalness)'을 성공적으로 결합했으며, 다양한 기존 이산 모델에 적용해 성능을 높이는 범용 솔루션의 가능성을 입증했습니다.
- 다음글
- 다음글이 없습니다.