우홍욱 교수 연구실(CSI연구실), ICML 2026 논문 3편 게재 승인
2026-05-15
우홍욱 교수 연구실(CSI연구실), ICML 2026 논문 3편 게재 승인 CSI연구실(지도교수: 우홍욱, https://csiagentgroup.com)의 논문이 인공지능 분야 우수학회인 ICML 2026 (The Forty-Third International Conference on Machine Learning)에 3편 논문이 게재 승인(Accept) 되었습니다. 논문은 26년 7월 서울 코엑스 컨벤션 센터에서 발표될 예정입니다. 1. 논문 “Functional Cache Grafting: Robust and Rapid Code-Policy Synthesis for Embodied Agents”은 소프트웨어학과 천세헌(석박통합과정), 최원제(박사과정), 최세라(석박통합과정), 안상현(석사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 체화 에이전트(embodied agents)가 자연어 지시와 환경 관찰을 바탕으로 실행 가능한 코드 정책(code policy)을 생성할 때 발생하는 지연 시간과 낮은 안정성 문제를 다루었습니다. 이를 해결하기 위해 본 논문은 함수 단위로 검증된 코드 구조와 Transformer의 KV cache를 재사용하는 Functional Cache Grafting(FCGRAFT) 프레임워크를 제안합니다. FCGRAFT는 기존에 성공적으로 실행된 코드 정책을 함수 단위로 분해하여 Function-Interface tier와 Function-Code tier로 구성된 two-tier code cache에 저장합니다. 이후 새로운 작업이 주어지면, cache-stitching을 통해 검증된 함수 구조를 조합하고, 실행 중 오류가 발생하면 cache-patching을 통해 문제가 되는 코드 구간만 국소적으로 수정합니다. ALFRED, TEACh, RLBench 및 실제 Franka 로봇 조작 환경에서의 실험 결과, FCGRAFT는 기존 RAGCache 대비 평균 18.31% 높은 작업 성공률과 2.3배 빠른 정책 합성 속도를 달성했습니다. 이러한 결과는 FCGRAFT가 지속적으로 변화하는 개방형 환경에서 코드 기반 정책을 효율적으로 재사용·수정함으로써, 체화 에이전트의 실시간성과 강건성을 동시에 향상시킬 수 있음을 보여줍니다. 2. 논문 “Efficient Skill Grounding via Code Refactoring with Small Language Models”은 소프트웨어학과 최세라(석박통합과정), 최원제(박사과정), 천세헌(석박통합과정), 이대희(석박통합과정), 김주영(석사과정), 시스템경영공학과 이채은(학사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 소형 언어모델(sLM)이 배포 환경의 제약 속에서도 효율적인 스킬 그라운딩(skill grounding)을 수행할 수 있도록 하는 리팩토링 중심(refactoring-centric) 에이전트 프레임워크 RECENT를 제안합니다. 기존 Code-as-Policies(CaP) 방식이 로봇 형태나 환경이 바뀔 때마다 스킬 코드를 처음부터 재생성해야 하는 문제를 해결하여, 소형 언어모델만으로도 안정적인 장기(long-horizon) 로봇 제어를 가능하게 하는 것을 목표로 합니다. RECENT는 스킬 코드를 변하지 않는 의미적 의도(semantic intent)와 배포 환경에 종속적인 실행 바인딩(execution bindings)을 분리하고, 사전에 결정 가능한 임바디먼트(embodiment) 충돌은 온톨로지 기반 추론을 통한 Fill-in-the-Middle 기반의 국소적 코드 편집으로 해결합니다. 실행 시점에 확인 가능한 환경적 요인은 단위 테스트(unit-test)로 문제 발생 가능성을 감지하고, 아직 실행되지 않은 코드 조각만을 FIM 방식으로 패치하여 로봇 실행을 중단시키지 않으면서 실행 중 적응(in-situ adaptation)을 수행합니다. CoppeliaSim과 Genesis에서 로봇 종류와 그리퍼 종류가 달라지는 시나리오를 세팅하여 평가한 결과, RECENT는 동일 크기의 증류(distilled) sLM 기반 CaP-CodeV-R1 대비 과제 성공률을 62.78% 향상시키고 코드 수정에 소요되는 시간을 평균 43.83초에서 2.60초 수준으로 단축했습니다. 이를 통해 RECENT는 소형 언어모델로도 배포 환경의 제약 속에서 안정적이고 효율적인 스킬 재사용이 가능함을 입증했습니다. 3. 논문 “Knothe-Rosenblatt Quantile Regression for Risk-sensitive Multi-objective Reinforcement Learning” 은 소프트웨어학과 유광표(박사과정), 김우경(박사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 다목적 강화학습에도 위험 민감 강화학습을 할 수 있도록 Knothe-Rosenblatt (KR) map을 통한 위험 민감 강화학습 프레임워크를 제시하였습니다. 기존 위험 민감 강화학습은 다목적 환경에서 학습할 수 없는 문제를 가지고 있는데, 본 연구에서는 p은 분위수 함수를 Autoregressive한 map으로 표현하고, 이를 통해 Multivariate Distributional Bellman Equation의 수렴 및 벡터 위험 측도의 적절성을 증명하였습니다. 구현적 측면에서는 1. 인위적 순서 편향성 완화: KR 맵이 태생적으로 유발하는 목적 함수 간의 인위적인 순서 의존성 문제를 해결하기 위해, 위치 인코딩(Positional Encoding)이 생략된 트랜스포머(Transformer) 아키텍처를 임베딩 계층에 활용했습니다. 2. MO-TQC를 통한 학습 안정성 확보: 다목적 환경 특유의 과대적합(Overestimation bias)을 방지하고 분포 정밀도를 제어하기 위해, 차원별(dimension-wise) 및 합산(summation) 원자 제거 메커니즘을 포함하는 MO-TQC를 새롭게 고안했습니다. 본 연구는 다목적 강화학습의 표준 벤치마크인 MO-Gymnasium (Cheetah, Hopper 등) 및 실제 데이터 기반의 금융 포트폴리오 관리 환경(FinRL)에서 기장 뛰어난 비교군 대비 평균 29.77%의 전반적인 성능 (EU, HV) 향상을 기록했습니다. 특히 하위 10%의 최악의 상황을 고려하는 위험 민감 지표에서는 (EU_risk, HV_risk) 41.18%의 성능 향상을 달성하였습니다. 금융 환경에서 (unseen 데이터) 결과 수익률(Earnings) 25.40%, Sortino 지수 4.50, Sharpe 지수 2.01이라는 성과를 달성했습니다. (동일 기간 나스닥 100(Nasdaq 100) 벤치마크의 수익률 7.70%). CSI 연구실은 Embodied Agent, Reinforcement Learning, Self-Learning 기술을 활용하여 범용 인공지능 에이전트 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://csiagentgroup.com