-
- [연구] 우홍욱 교수 연구실 (CSI연구실), ICLR 2025 논문 게재 승인 NEW
- [우홍욱 교수 연구실 (CSI연구실), ICLR 2025 논문 게재 승인] CSI연구실 (지도교수: 우홍욱)의 논문이 인공지능 분야 우수학회인 ICLR2025 (The 13th International Conference on Learning Representations)에 2편 논문이 게재 승인(Accept) 되었습니다. 논문은 25년 4월 싱가포르 싱가포르 엑스포에서 발표될 예정입니다. 1. 논문 “Model Risk-sensitive Offline Reinforcement Learning” 은 소프트웨어학과 유광표 (박사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 로봇, 금융 등 실사간 의사결정이 중요한 미션 크리티컬 분야에 활용되는 위험 민감 강화학습(Model Risk-sensitive RL) 프레임워크를 제안하며, 특히 모델 위험에 민감한 오프라인 강화학습 기법(MR-IQN)을 기술합니다. MR-IQN은 모델이 학습한 데이터와 실제 환경과 달라 정확도가 떨어지더라도, 이에 대한 최악의 경우, 즉 “모델 위험”의 손실을 최소화하는 것을 목적합니다. 이를 위해, 데이터 포인트에 대한 모델의 신뢰도를 계산하고, 각 데이터 포인트당 모델 위험을 계산하는 비평가 앙상블 척도(Critic-Ensemble Criterion)와 오프라인 상황으로 인해 실제 정책의 가치함수와 추론된 정책 가치의 평균 및 분산의 괴리를 제한하는 푸리에 특성 네트워크(Fourier Feature Network) 을 결합합니다. MR-IQN은 MT-Sim(금융 거래 환경)와 AirSim(자율주행 시뮬레이터) 실험에서 다른 최신 위험 민감 강화학습 기법보다 낮은 위험과 높은 평균의 성능을 달성하였습니다. 2. 논문 “NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks In Open Domains” 은 소프트웨어학과 최원제 (박사과정), 인공지능학과 박진우 (석사과정), 소프트웨어학과 안상현 (석사과정), 이대희 (석박통합과정) 연구원이 저자로 참여했습니다. 본 연구는 오픈도메인 물리환경과 상호작용 시 요구되는 지식 (Actionable Knowledge)을 체득된 경험을 통해 다양한 태스크에 적용할 수 있도록 지속적으로 일반화하는 뉴럴-심볼릭 지속 학습자, Neuro-symbolic Continual Learner (NeSyC) 프레임워크를 제안합니다. NeSyC는 인간의 사고 체계인 가설-연역 (hypothetico-deductive) 구조를 모방하여 오픈 도메인에서의 지속적으로 일반화 성능을 향상하는데, 이를 위해, (1) LLM과 심볼릭 도구를 활용해 체득된 경험에서 가설을 반복적으로 생성하고 검증하는 대조적 일반성 향상(Contrastive generality improvement) 기법을 수행합니다. 또한, (2) 메모리 기반 모니터링(Memory-based monitoring)으로 체화형 에이전트(Embodied agent)의 행동 오류를 실시간 감지하고, 지식 보완(Knowledge refinement)을 실행하여, 최종적인 에이전트의 오픈도메인에서의 다양한 태스크 수행 성능, 즉 일반화 성능을 향상합니다. NeSyC는 ALFWorld, VirtualHome, Minecraft, RLBench, 그리고 실세계 로봇 테이블탑 시나리오 등 다양한 벤치마크 환경에서 평가되었습니다. 그 결과, NeSyC는 동적 변화가 있는 오픈도메인 환경 전반에서 강건한 성능을 보였으며, AutoGen, ReAct, CLMASP 등 최신 SOTA를 능가하는 태스크 성공율을 확인하였습니다. CSI 연구실은 Embodied Agent, Reinforcement Learning, Self-Learning 기술을 활용하여 네트워크, 클라우드 시스템 최적화 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://sites.google.com/view/csi-agent-group
-
- 작성일 2025-02-10
- 조회수 53
-
- [연구] 이지형 교수 연구실(IIS Lab), NAACL 2025 논문 4편 게재 승인
- 정보 및 지능 시스템 연구실(IIS Lab, 지도교수: 이지형)의 논문 4편이 자연어처리 분야의 최우수 국제학술대회인 NAACL 2025 (“2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 4월 미국 뉴 멕시코에서 발표될 예정입니다. 1. DeCAP: Context-Aware Prompt Generation for Debiased Zero-shot Question Answering in Large Language Models, NAACL 2025 저자: 배수영 (인공지능학과 박사과정), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 대규모 언어 모델(LLMs)은 제로샷 질문 응답(QA) 과제에서 뛰어난 성능을 보이지만, 기존 방법들은 모호한 질문과 명확한 질문 유형 간의 성능 격차가 크며, 주어진 지침이나 내부 지식에 강하게 의존하여 편향 제거 성능(debiasing performance)이 낮다는 한계를 가지고 있습니다. 이를 해결하기 위해, 우리는 DeCAP (Context-Aware Prompt Generation)을 제안합니다. DeCAP은 질문 유형의 차이로 인한 성능 격차를 줄이기 위해 질문 모호성 탐지기(Question Ambiguity Detector)를 활용하고, 중립적인 문맥을 제공하기 위해 중립적 다음 문장 생성기(Neutral Next Sentence Generator)를 사용하여 내부 편향 지식에 대한 의존도를 감소시킵니다. BBQ와 UNQOVER 데이터셋을 사용해 여섯 개의 LLM에 대한 실험 결과, DeCAP이 state-of-the-arts 편향 제거 QA 성능을 달성했으며, 다양한 QA 환경에서 LLM의 공정성과 정확성을 크게 향상시키는 데 효과적임을 입증했습니다. 2. SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data, NAACL 2025 저자: 배수영 (인공지능학과 박사과정), 김효준 (SKT/인공지능학과 석사졸업), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 이 논문에서는 SALAD (Structure-Aware and LLM-driven Augmented Data)라는 새로운 접근법을 제안합니다. SALAD는 대조 학습(Contrastive Learning)을 위해 구조를 인지하고 반사실적(counterfactual)으로 증강된 데이터를 생성함으로써 모델의 강건성(robustness)과 일반화(generalization)**를 향상시키는 것을 목표로 합니다. 태깅 기반 방식을 사용하여 구조를 인지한 긍정 샘플을 생성하고, 대규모 언어 모델(LLM)을 활용해 다양한 문장 패턴을 가진 반사실적 부정 샘플을 생성합니다. 이를 통해 모델이 주요 문장 구성 요소 간의 구조적 관계를 학습하도록 하며, 부적절한 상관관계(spurious correlations)에 대한 의존을 최소화합니다. 감정 분류(Sentiment Classification), 성차별 탐지(Sexism Detection), 자연어 추론(Natural Language Inference) 세 가지 과제에서 실험을 통해 SALAD의 효과를 검증했으며, 그 결과 SALAD가 다양한 환경에서 모델의 강건성과 성능을 향상시킬 뿐 아니라, 분포 외(out-of-distribution) 데이터셋과 교차 도메인 시나리오에서도 일반화 성능을 강화함을 보였습니다. 3. CoRAC: Integrating Selective API Document Retrieval with Question Semantic Intent for Code Question Answering, NAACL 2025 저자: 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업), 나철원 (인공지능학과 석박통합과정) 자동 코드 질문 응답(AQA)은 코드 스니펫을 분석하여 코드 관련 질문에 대해 정확한 답변을 생성하는 것을 목표로 합니다. 적절한 답변을 제공하려면 코드의 관련 부분을 정확히 이해하고, 질문의 의도를 올바르게 해석해야 합니다. 그러나 실제 환경에서는 질문자가 코드의 일부만 제공하는 경우가 많아 답변을 찾는 데 어려움이 발생합니다. 응답자는 이러한 제한된 정보를 기반으로 적절한 답변을 제공할 수 있어야 합니다. 이를 해결하기 위해 우리는 CoRAC이라는 지식 기반 프레임워크를 제안합니다. CoRAC은 선택적 API 문서 검색과 질문 의미 의도 클러스터링을 통해 이해력을 향상시켜 자동 코드 질문 응답을 지원합니다. 세 가지 실제 벤치마크 데이터셋에서 CoRAC의 성능을 평가했으며, 다양한 실험을 통해 그 효과를 입증했습니다. 또한, CoRAC이 ChatGPT와 같은 대규모 언어 모델에 비해 고품질의 답변을 생성할 수 있음을 보여주었습니다. 4. Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation, NAACL Findings 2025 저자: 나철원 (인공지능학과 석박통합과정), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) 언어 모델의 취약성을 검증하기 위해 많은 적대적 공격(adversarial attack) 방법들이 제안되었으나, 대부분 다수의 쿼리와 타겟 모델에 대한 정보를 필요로 합니다. 심지어 블랙박스 공격(black-box attack)조차도 타겟 모델의 출력 정보를 요구하며, 이는 타겟 모델이 닫혀있고 접근이 불가능한 하드 블랙박스(hard black-box) 환경에서는 현실적으로 적용이 어렵습니다. 최근 제안된 하드 블랙박스 공격 방법들도 여전히 많은 쿼리를 요구하며, 적대적 생성기를 훈련하는 데 매우 높은 비용이 소요됩니다. 이러한 문제를 해결하기 위해, 우리는 타겟 모델에 접근하지 않고 적대적 예제를 생성하는 효율적인 방법인 Q-faker(Query-free Hard Black-box Attacker)를 제안합니다. Q-faker는 타겟 모델에 접근하지 않기 위해 대리 모델(surrogate model)을 사용하며, 이 대리 모델은 타겟 모델을 속일 수 있는 적대적 문장을 생성합니다. 이 과정에서 제어된 생성 기법(controlled generation techniques)을 활용합니다. 우리는 8개의 데이터셋에서 Q-faker를 평가했으며, 실험 결과, Qf-aker가 높은 전이성(transferability)과 높은 품질의 적대적 예제를 생성할 수 있음을 보여주었고, 하드 블랙박스 환경에서의 실용성을 입증했습니다. 이지형 교수: john@skku.edu | 정보 및 지능 시스템 연구실: https://iislab.skku.edu/
-
- 작성일 2025-01-23
- 조회수 527
-
- [연구] [김형식 교수 연구실] ACM SIGCHI 2025 논문 2편 게재 승인
- 보안공학 연구실 (지도교수: 김형식)의 2편의 논문이 HCI 분야 최우수 학회인 CHI 2025 (ACM SIGCHI Conference on Human Factors in Computing Systems)에 게재 승인(Accept) 되었습니다. 논문은 25년 4월 일본 요코하마에서 발표될 예정입니다. 1. 논문 "Understanding and Improving User Adoption and Security Awareness in Password Checkup Services"은 전자전기컴퓨공학과 오상학(박사과정), 백희원(석사과정), 김태영(박사과정), 전우진(박사과정) 학생과 허준호 연구원님(Samsung Research), Ian Oakley 교수님(KAIST), 김형식 교수님(성균관대학교)이 저자로 참여하였습니다. 비밀번호 점검 서비스(Password Checkup Services, PCS)는 유출되거나 재사용된 비밀번호와 취약한 비밀번호를 식별하여 사용자가 위험에 노출된 계정을 보호할 수 있도록 돕습니다. 하지만 이러한 서비스의 이용률은 낮은 편입니다. 저희 연구팀은 온라인 설문조사(238명 참여)를 통해 PCS 사용 의도에 영향을 미치는 요인과 유출 비밀번호를 변경하는 데 느끼는 어려움에 대해 우선적으로 조사했습니다. 조사 결과, "서비스 유용성에 대한 인식", "서비스 사용의 용이성", "자기 효능감"이 주요 서비스 사용 요인으로 나타났습니다. 또한, "잦은 경고 노출로 인한 경고 피로", "유출 비밀번호에 대한 낮은 경각심", "다른 보안 조치에 대한 의존성"과 같은 요인들이 유출 비밀번호 변경을 방해하는 요인으로 확인되었습니다. 이를 기반으로, 유출 비밀번호에 대한 경고 메시지를 명확히 하고 비밀번호 변경 과정을 자동화(예: 여러 중복된 비밀번호를 동시에 변경하거나 비밀번호 변경 페이지에 직접 연결하는 기능)하는 인터페이스를 새롭게 설계했습니다. 해당 디자인은 Task 기반의 인터뷰 스터디(50명 참여)를 통해 유출 비밀번호 변경률을 검증한 결과 2가지 시나리오에 대해 비밀번호 변경률이 각각 40%와 74%로 유의미하게 향상된 것으로 나타났습니다(기존 Google사의 디자인에서는 각각 16%와 60% 변경). 2. 논문 "I Was Told to Install the Antivirus App, but I’m Not Sure I Need It: Understanding the Adoption, Discontinuation, and Non-Use of Smartphone Antivirus Software in South Korea"은 소프트웨어학과 진세영(석사과정), 백희원(석사과정) 학생과 이의진 교수님 (KAIST), 김형식 교수님 (성균관대학교)이 저자로 참여했습니다. 본 연구는 스마트폰용 안티바이러스 소프트웨어 설치를 보안 업체들이 권장하고 있음에도 불구하고, 사용자들의 오해, 규제 요구사항, 부적절한 사용으로 인해 소프트웨어의 효과가 제한되고 있음을 다룹니다. 심층 인터뷰(23명)와 설문조사(250명)를 포함한 혼합 연구 방법을 통해 스마트폰 안티바이러스 소프트웨어의 채택 현황을 조사했습니다. 특히 은행 및 기타 금융 앱에서 의무적으로 설치해야 하는 경우가 흔한 한국을 대상으로 했습니다. 모바일 악성코드 위협이 증가함에 따라 많은 사용자가 안티바이러스 소프트웨어를 일반 보안 도구와 혼동하며, 그 제한된 기능 범위에 대해 잘 알지 못하는 것으로 나타났습니다. 채택 여부는 인지된 취약성, 대응 효능, 자기 효능감, 사회적 규범, 인식에 크게 영향을 받는 반면, 시스템 성능에 대한 우려와 필요성에 대한 회의감은 중단 또는 비사용으로 이어졌습니다. 한국의 금융 앱 설치 의무화는 사용자 오해, 부정적 인식, 잘못된 안전감에 기여하고 있습니다. 이러한 연구 결과는 사용자 대상 교육, 모바일 특화 위협에 대한 명확한 소통, 안티바이러스 소프트웨어와 관련한 정보 제공 및 효과적인 사용을 촉진하기 위한 노력이 필요함을 강조합니다.
-
- 작성일 2025-01-21
- 조회수 584
-
- [연구] 우홍욱 교수 연구실 (CSI연구실), AAAI 2025 논문 게재 승인
- CSI연구실 (지도교수: 우홍욱)의 논문이 인공지능 분야 우수학회인 AAAI 2025 (The 39th Annual AAAI Conference on Artificial Intelligence)에 게재 승인(Accept) 되었습니다. 논문은 25년 2월 미국 필라델피아에서 발표될 예정입니다. 논문 “In-Context Policy Adaptation Via Cross-Domain Skill Diffusion” 은 소프트웨어학과 유민종 학생 (석박통합과정)이 제1저자로 참여했으며, 김우경 학생 (석박통합과정)이 공저자로 참여했습니다. 본 연구에서는 다양한 도메인에서의 장기(long-horizon) 멀티태스크 환경을 대상으로 하는 In-Context Policy Adaptation (ICPAD) 프레임워크를 제안하며, cross-domain 환경에서 확산(diffusion) 기반의 스킬 학습 기법을 기술합니다. ICPAD는 모델 업데이트 없이 제한된 타겟 도메인 데이터만으로 스킬 기반 강화학습(RL) 정책을 다양한 타겟 도메인으로 빠르게 적응시킬 수 있도록 설계되었습니다. 이를 위해 도메인 불변의 프로토타입 스킬(prototype skills)과 도메인 정합(domain-grounded) 스킬 어댑터를 학습하여, 도메인 간 일관성을 유지하며 정책을 타겟 도메인에 맞게 변환하는 cross-domain 스킬 확산(cross-domain skill diffusion)과 타겟 도메인의 데이터가 제한된 상황에서도, 도메인 정보를 프롬프트로 활용하여 확산 기반 스킬 번역 과정을 최적화하고, 정책을 효과적으로 조정하는 동적 도메인 프롬팅(dynamic domain prompting)을 결합합니다. 실험 결과, ICPAD는 Metaworld(로봇 조작 환경)와 CARLA(자율주행 시뮬레이터)에서 동적 환경 변화 및 다양한 도메인 설정에 대해 기존 최신 기법(SOTA)보다 높은 성능을 달성하였습니다. CSI 연구실은 머신러닝, 강화학습, 자기지도학습을 활용하여 네트워크, 클라우드 시스템 최적화 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 이번 AAAI 2025 논문의 연구는 사람중심인공지능 핵심원천기술사업 (IITP), 한국연구재단 개인기초사업 (NRF), 인공지능대학원, ICT명품인재양성사업, BK21 FOUR 사업(BK21), 정보통신기획평가원, 삼성전자 지원으로 진행 중 입니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://sites.google.com/view/csi-agent-group
-
- 작성일 2024-12-24
- 조회수 899
-
- [연구] 박호건 교수 연구실 (LearnData Lab)의 그래프 신경망 연구 WSDM 2025 논문 게재 승인 (석사졸업: 박종원, 박사과정: 정희수)
- 박호건 교수 연구실 (LearnData Lab)의 그래프 신경망 연구 WSDM 2025 논문 게재 승인 (석사졸업: 박종원, 박사과정: 정희수) LearnData연구실 (지도교수: 박호건)의 논문이 인공지능 분야 최우수학회인 The 18th ACM International Conference on Web Search and Data Mining에 게재 승인(Accept) 되었습니다. 1. 논문 “CIMAGE: Exploiting the Conditional Independence in Masked Graph Auto- encoders” 은 인공지능학과 박종원 (석사졸업생)이 제1저자로 게재하였으며, 소프트웨어학과 정희수 (박사과정)이 공동 1저자로 참여했습니다. 성균관대학교의 박호건 교수 연구진은 자기 지도 학습(Self-Supervised Learning)을 기반으로 하는 그래프 신경망(GNN) 학습 기술 연구에서 높은 수준의 성과를 달성했습니다. 이번 연구는 CIMAGE (Conditional Independence Aware Masked Graph Auto-Encoder) 라는 모델을 개발하여, 기존의 무작위 마스킹 방식이 가진 한계를 극복하고 그래프 신경망의 표현력을 한층 더 강화하였습니다. CIMAGE 모델은 조건부 독립성(Conditional Independence)을 활용해 마스킹 전략을 설계하며, 이를 통해 그래프 표현 학습의 효율성과 정확도를 크게 높였습니다. 특히, 이번 연구에서는 높은 신뢰도의 가짜 레이블을 사용하여 두 가지 독립된 맥락을 생성하고, 이를 통해 마스킹과 재구성 작업을 수행하는 새로운 사전 학습(pretext task) 방법을 제안하였습니다. CIMAGE의 성능은 다양한 그래프 벤치마크 데이터셋에서 우수함을 입증했으며, 노드 분류 및 링크 예측과 같은 다운스트림 작업에서 높은 정확도를 기록하며, 그래프 표현 학습 분야의 새로운 기준을 제시하고 있습니다. 이 연구는 성균관대학교의 혁신적이고 선도적인 연구 방향을 보여주는 중요한 성과로, 그래프 신경망 연구 및 자율 학습 분야에서 널리 활용될 가능성이 높습니다. LearnData 연구실은 그래프, 자연어, 센서, 이미지 등 다양한 모달리티를 활용한 기계학습 및 데이터마이닝 기술 개발, 설명 가능 AI 기술 연구 등을 수행하고 있습니다. 이번 WDSM 2025 논문의 연구는 인공지능대학원, 정보통신기획평가원, 한국콘텐츠진흥원 등의 지원으로 진행되었습니다. 박호건 | hogunpark@skku.edu | LearnData Lab | https://learndatalab.github.io/
-
- 작성일 2024-12-02
- 조회수 1032
-
- [연구] [엄영익 교수] 분산컴퓨팅연구실, (문성재 석박통합과정 2기) SIGMOD 2025 논문 게재 승인
- [엄영익 교수] 분산컴퓨팅연구실, (문성재 석박통합과정 2기) SIGMOD 2025 논문 게재 승인 분산컴퓨팅연구실 (지도교수: 엄영익)의 문성재 (공동 1 저자, 석박통합과정 2기)의 논문이 데이터베이스 분야의 Top-tier 국제학술대회인 SIGMOD 2025 (ACM SIGMOD/PODS International Conference on Management of Data)에 게재 승인(Accept)되었습니다. 해당 논문은 2025년 6월에 독일 Berlin에서 발표될 예정입니다. [논문 정보] 제목: Boosting OLTP Performance with Per-Page Logging on NVDIMM 저자: 문성재, 이보현, 박종혁, 이상원 학회: ACM SIGMOD/PODS International Conference on Management of Data (SIGMOD 2025) [연구 내용] 플래시 SSD 기반의 관계형 DBMS가 OLTP 워크로드를 수행하는 경우, 작은 크기의 빈번한 업데이트는 DRAM에서 SSD로의 페이지 쓰기를 발생시켜 트랜잭션 처리량을 크게 제한합니다. 이 문제를 해결하기 위해 본 논문에서는 비휘발성 메모리 종류 중 하나인 NVDIMM (Non-Volatile DIMM)을 내구성 로그 캐시로 활용하여 DRAM에서 SSD로의 페이지 쓰기를 흡수하는 NV-PPL이라는 새로운 데이터베이스 아키텍처를 제안합니다. NV-PPL은 페이지 업데이트로 생성된 redo log를 캡처하여 소량의 NVDIMM에 페이지 별 업데이트 로그 (Per-Page Log, PPL)만 저장하여 SSD로의 페이지 쓰기 없이 데이터 내구성을 보장하며, System Failure로 인한 복구 시 PPL로 내구성이 보장된 페이지들은 Redo 및 Undo 과정을 회피하여 복구과정에서 발생하는 SSD로의 페이지 읽기/쓰기를 크게 감소시킵니다. 또한 PPL을 활용한 redo-based multi-versioning과 기존의 undo-based 방식을 결합한 Hybrid version reconstruction 방식을 통해 HTAP 환경에서 발생하는 undo-chaining에 의한 buffer pollution 문제를 해결하여 페이지 읽기/쓰기를 줄이고 Buffer Hit ratio를 높입니다. NV-PPL을 MySQL/InnoDB 엔진에 구현하여 실제 NVDIMM 장치에서 실험해 본 결과, 동일한 가격의 Vanilla MySQL에 비해 페이지 쓰기를 79%를 줄여 트랜잭션 처리량이 8.7배 향상되었으며, 페이지 단위 NVDIMM 캐싱 방식인 NV-SQL 대비 페이지 쓰기를 59%를 줄여 트랜잭션 처리량이 1.5배 향상되었음을 확인했습니다. 그리고 Vanilla MySQL 대비 복구 시간을 1/3로 줄였으며 HTAP 워크로드에서 Long-Lived Transaction(LLT)의 지연 시간을 최소 3배에서 최대 18배까지 개선했습니다.
-
- 작성일 2024-11-06
- 조회수 1543
-
- [연구] [차수영 교수] 소프트웨어분석 연구실(SAL), ICSE 2025 논문 게재 승인
- [차수영 교수] 소프트웨어분석 연구실(SAL), ICSE 2025 논문 게재 승인 소프트웨어 분석 연구실 (지도교수: 차수영)의 이재혁 학생 (석사과정)의 논문이 소프트웨어공학 분야 최우수 학회인 ICSE 2024 (IEEE/ACM International Conference on Software Engineering)에 게재 승인(Accept) 되었습니다. 해당 논문은 2025년 4월에 캐나다 Ottawa에서 발표될 예정입니다. 본 논문 "TopSeed: Learning Seed Selection Strategies for Symbolic Execution from Scratch"은 대표적인 소프트웨어 테스팅 방법 “기호 실행(Symbolic Execution)”의 성능을 높이기 위해, 사전 지식 없이 좋은 “시드(Seed)”를 선택하는 전략을 제안한다. 기호 실행에서 “시드”는 비싼 SMT 풀이 비용 없이, 테스트할 프로그램의 코드를 효과적으로 탐험할 수 있도록 도움을 주는 역할을 한다. 그러나, 대부분의 최신 기호실행 기술들은 시드를 사용하지 않고 그 성능을 높이는데 초점을 맞추었다. 본 논문에서는 다양한 최신 기호 실행 기술들이 사전 지식 없이 좋은 시드를 선택할 수 있도록 도와주는 상호 보완적인 방법인 TopSeed를 제안한다. 실험적으로, TopSeed는 다수의 오픈소스-C 프로그램들에 대해 다양한 최신 기호 실행 기술들의 성능을 분기 커버리지(Branch Coverage)와 오류 검출 관점에서 크게 향상시키는데 성공하였다. [논문 정보] 제목: TopSeed: Learning Seed Selection Strategies for Symbolic Execution from Scratch 저자: 이재혁, 차수영 학회: IEEE/ACM International Conference on Software Engineering (ICSE 2025) Abstract: We present TopSeed, a new approach that automatically selects optimal seeds to enhance symbolic execution. Recently, the performance of symbolic execution has significantly improved through various state-of-the-art techniques, including search strategies and state-pruning heuristics. However, these techniques have typically demonstrated their effectiveness without considering “seeding”, which efficiently initializes program states for exploration. This paper aims to select valuable seeds from candidate inputs generated during interactions with any symbolic execution technique, without the need for a predefined seed corpus, thereby maximizing the technique's effectiveness. One major challenge is the vast number of candidates, making it difficult to identify promising seeds. To address this, we introduce a customized online learning algorithm that iteratively groups candidate inputs, ranks each group, and selects a seed from the top-ranked group based on data accumulated during symbolic execution. Experimental results on 17 open-source C programs show that TopSeed significantly enhances four distinct cutting-edge techniques, implemented on top of two symbolic executors, in terms of branch coverage and bug-finding abilities.
-
- 작성일 2024-11-05
- 조회수 1547
-
- [연구] [이호준 교수 연구실] ACM CCS 2024 학술대회 수상소식
- 시스템보안 연구실 (지도교수 이호준, https://sslab.skku.edu)의 임하정(박사과정), 김재윤(석박통합과정) 학생의 "uMMU: Securing Data Confidentiality with Unobservable Memory Subsystem" 논문이 보안 분야 4대 학회 중 하나인 ACM Conference on Computer and Comunnications Security (CCS) 2024 학회에서 Distinguished Paper Award를 수상하였다. Distinguished Paper Ward는 CCS'24에서 발표된 331편의 논문 중 28편에 수여되었다. 논문 요약: 현대 컴퓨팅 시스템의 메모리 계층 구조는 여러 종류의 보안 위협에 노출되어 있어 데이터 기밀성 보장이 계속해서 어려움을 겪고 있습니다. 공격자들은 다양한 강력한 공격 기법을 통해 중요 데이터를 직간접적으로 유출해왔으며, 새로운 공격들이 지속적으로 발견되고 있습니다. 안전하지 않은 언어로 작성된 프로그램에서의 메모리 안전 (Memory Safety)는 달성하기가 매우 어려워 공격으로 인한 비정상적인 메모리 접근이 직접적인 공격 경로로 사용되고 있습니다. HeartBleed와 같은 보안 사고가 이러한 공격의 대표적인 예시입니다. 최근에는 마이크로아키텍처 부채널 공격이 일반 프로그램뿐만 아니라 TEE(Trusted Execution Environment) 같은 기술로 보호된 프로그램의 데이터조차 유출 가능함을 증명하고 있습니다. 이 논문에서는 uMMU라는 새로운 프로세스 내 데이터 보호를 위한 메모리 서브시스템을 제시합니다. uMMU는 프로세서 레지스터를 관측할 수 없는 저장소로 사용하는 기법을 메모리 암호화 및 Oblivious RAM과 같은 데이터 기밀 보호 기술과 유기적으로 통합합니다. uMMU는 프로세서 아키텍처의 확장 레지스터(예: Intel x86의 AVX512)를 관측할 수 없고 주소 지정 가능한 물리 메모리로 추상화합니다. 가상 메모리 원칙을 완성하는 것은 암호화 또는 ORAM과 같은 메모리 기밀성 정책이 적용된 안전한 스왑 공간을 유지하는 메모리 관리입니다. uMMU는 민감한 데이터에 대한 데이터 기밀성 정책을 호스팅할 수 있는 범용적이고 강력한 데이터 보안 프레임워크입니다. 실험 결과에 따르면, uMMU는 민감한 데이터 보호를 위한 암호화 및 ORAM 스킴을 사용한 프로그램의 성능을 크게 향상시킵니다. MbedTLS의 민감 데이터 암호화 기반 보호에서 평균 69.93%의 성능 향상, 그리고 Memcached의 해시 테이블에서의 액세스 패턴을 숨기는 ORAM 기반 보호에서 497.84%의 성능 향상을 보였습니다.
-
- 작성일 2024-10-18
- 조회수 1925
-
- [연구] [우홍욱 교수] CSI 연구실, NeurIPS 2024 논문 게재 승인 (3편)
- [우홍욱 교수] CSI 연구실, NeurIPS 2024 논문 게재 승인 (3편) CSI연구실 (지도교수: 우홍욱)의 3편의 논문이 인공지능 분야 우수학회인 NeurIPS 2024 (Thirty-Eighth Annual Conference on Neural Information Processing Systems) 에 게재 승인(Accept) 되었습니다. 논문은 24년12월 캐나다 벤쿠버에서 발표될 예정입니다. 1. 논문 “LLM-based Skill Diffusion for Zero-shot Policy Adaptation” 은 소프트웨어학과 김우경 (박사과정), 이영석 (박사과정), 김주영 (학사과정) 연구원이 저자로 참여했습니다. 최근 계층적 스킬 기반 정책 학습 방법이 순차적 의사 결정 문제에 대응하는 데 인기를 얻은 반면, 해당 접근 방법은 다양한 자연어로 명시된 사용자의 요구사항에 제로샷(Zero-shot)으로 적응하는 데에는 한계가 있었습니다. 본 연구에서는 LLM의 코드 생성 능력과 손실함수로 제어 가능한 확산 모델(Diffusion Model)을 활용하여, 자연어로 명시된 컨텍스트에 제로샷 적응이 가능한 LDuS (LLM-based Skill Diffusion) 프레임워크를 제안합니다. LDuS는 도메인 변화가 심한 다중 모달리티 로봇 동작 환경에서, 기존의 모방 학습보다 우수한 적응성을 지닙니다. 2. 논문 “Exploratory Retrieval-Augmented Planning For Continual Embodied Instruction Following” 은 소프트웨어학과 유민종 (석박통합과정), 장진우 (석박통합과정) 연구원이 저자로 참여했습니다. 본 연구는 Non-stationary 물리 환경에서 하나가 아닌 여러 개의 지속적인 사용자 지시(Multiple Continuous Instruction Following)를 수행하는 임베디드 에이전트를 위한 탐색 기반 검색 증강 계획 (Exploratory Retrieval-Augmented Planning, ExRAP) 프레임워크를 제안합니다. 이 프레임워크는 최신 LLM의 추론 능력을 활용하여 에이전트가 동적이고 변화하는 환경에서 실시간으로 지시를 수행할 수 있도록 합니다. 이 과정에서 ExRAP은 환경 정보 메모리를 활용하여, 에이전트가 다중 지시의 조건을 이해하고, 이러한 조건에 맞추어 작업을 자원 효율적으로 계획하고, 물리 환경 특성에 맞추어 실행할 수 있습니다. 또한, 물리 환경과의 상호작용을 최소화하는 태스크 수행을 위하여, 정보 기반 환경 탐색을 통합적으로 수행합니다. 이를 통해, 환경 정보의 유효성을 보장하고 전체적인 에이전트의 작업 성능을 향상시킵니다. 3. 논문 “Incremental Learning of Retrievable Skills For Efficient Continual Task Adaptation” 은 소프트웨어학과 이대희 (석박통합과정), 유민종 (석박통합과정), 김우경 (박사과정), 최원제 (박사과정)연구원이 저자로 참여했습니다. 본 논문은 로봇 어플리케이션의 평생 모방학습 (Continual Imitation Learning, CiL)에서 발생하는 세 가지 주요 문제를 다룹니다: 1) long-horizon 환경에서의 전문가 데모 수집의 높은 비용과 비효율성, 2) 비정형적인 동적 환경에서의 적응력, 3) 개인정보 보호를 위한 Unlearning. 해당 연구는 프로토타입 기반 스킬 증분 학습을 통해 저수준 스킬을 이산적인 프로토타입으로 표현하고, 이를 통해 에피소드 재생 없이 행동 지식의 순방향 및 역방향 전이를 향상시키며, 비정형적인 CiL 환경에서 효율적인 작업 적응과 작업에 대한 즉각적인Unlearning을 가능하게 하는 IsCiL (Incremental skills for continual imitation learning) 프레임워크를 제안합니다. Franka-Kitchen과 Meta-World 실험을 통해 IsCiL프레임워크는 새로운 작업에 대한 적응력과 unlearning 시나리오에서의 기능적 특성을 입증하며, 기존 방법들보다 우수한 성능을 보였습니다. CSI 연구실은 머신러닝, 강화학습, 자기지도학습, LLM 활용을 통해, (1) 체화형 에이전트 (Embodied Agent) (2) 평생학습 성장향 에이전트 (Lifelong Learning Agent) (3) 드론, 클라우드, 자율주행 시스템 최적화 연구를 수행하고 있습니다. 이번 논문의 연구는 사람중심인공지능 핵심원천기술사업 (IITP), 한국연구재단 개인기초사업 (NRF), 인공지능대학원, ICT명품인재양성사업, BK21 FOUR 사업(BK21), 삼성전자 지원으로 진행 중 입니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://sites.google.com/view/csi-agent-group
-
- 작성일 2024-10-07
- 조회수 2484
-
- [연구] 고영중교수 연구실(자연어처리 연구실), EMNLP 2024 논문게재 승인
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 2편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 EMNLP 2024(The 2024 Conference on Empirical Methods in Natural Language Processing)의 Industry Track에 게재 승인되었습니다. 각 연구는 NAVER, NC Soft와 산학 협력을 통해 이루어졌습니다. 논문#1: Hyper-QKSG: Framework for Automating Query Generation and Knowledge-Snippet Extraction from Tables and Lists (인공지능학과 박사과정 김두영, 인공지능학과 석사과정 장윤진, NAVER 산학) 논문 요약: 본 연구에서는 지식스니펫의 커버리지를 자동으로 확장하는 프레임워크를 제안합니다. 지식스니펫이란 검색엔진에서 검색 결과 상단에 위치하는 짧은 단락으로, 사용자가 쿼리에 대한 정보를 검색된 문서를 읽을 필요 없이 얻을 수 있도록 편의성을 제공하는 역할을 합니다. 테이블이나 리스트와 같이 복잡한 웹 문서구조에서 지식스니펫을 추출하기 위해서, 기존의 자연어 텍스트 기반의 언어모델을 HTML 기반의 언어모델으로 재학습하였으며, 문서로부터 쿼리와 지식스니펫을 추출하는 파이프라인 시스템을 구축하였습니다. 또한 본 연구에서 자동으로 지식스니펫의 커버리지를 확장하는 과정에서 생성되는 다양한 노이즈 지식스니펫-쿼리 쌍에 대해서 필터링 및 개선 방법을 제안하였습니다. 실제 검색 환경에서 자동 확장된 지식스니펫 데이터베이스를 기반으로 정성평가를 진행한 결과 반환된 지식스니펫이 사용자 쿼리에 대해 유용한 정보를 제공할 수 있음을 보였으며, 기존에 테이블이나 리스트에서 지식스니펫을 뽑지 못하는 한계를 극복하고 다양한 HTML 구조에서 지식스니펫을 추출하여 정보를 제공할 수 있음을 보였습니다. Abstract: These days, there is an increasing necessity to provide a user with a short knowledge-snippet for a query in commercial information retrieval services such as the featured snippet of Google. In this paper, we focus on how to automatically extract the candidates of query-knowledge snippet pairs from structured HTML documents by using a new Language Model (HTML-PLM). In particular, the proposed system is powerful on extracting them from Tables and Lists, and provides a new framework for automate query generation and knowledge-snippet extraction based on a QA-pair filtering procedure including the snippet refinement and verification processes, which enhance the quality of generated query-knowledge snippet pairs. As a result, 53.8% of the generated knowledge-snippets includes complex HTML structures such as tables and lists in our experiments of a real-world environments, and 66.5% of the knowledge-snippets are evaluated as valid. 논문#2: RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings (인공지능학과 박사과정 최봉근, 인공지능학과 석박통합과정 박정재, NC Soft 산학) 논문 요약: “RAC: Retrieval-augmented Conversation Dataset for Open-domain Question Answering in Conversational Settings” 논문은 NC Soft와 산학 협력을 통해 구축한 데이터셋을 소개합니다. 해당 데이터셋은 검색 기반의 대화형 질의응답 문제를 다루고 있으며, 구체적으로 대화 문맥 내에서 사용자의 질문에 대한 사실 기반의 응답을 하기 위해 문맥 기반의 질의 재작성, 문서 검색, 문서 재순위화, 응답 생성의 과정을 포함하고 있습니다. 특히, 기존의 대화형 질의응답 데이터들이 검색된 문서 내의 일부 단어 혹은 문장을 추출하여 응답으로 사용하는 반면, 검색된 문서를 반영하여 사람과 같은 자연스러운 응답을 생성할 수 있는 것을 목표로 하고 있습니다. 본 논문에서는 데이터셋과 함께 BM25와 한국어 Dense Retriever을 기반으로 한 문서 검색 성능 및 Ko-BART와 LLM(GPT-4o-mini)을 기반으로 한 응답 생성 성능을 Baseline으로 제공하고 있습니다. Abstract: In recent years, significant advancements in conversational question and answering (CQA) have been driven by the exponential growth of large language models and the integration of retrieval mechanisms that leverage external knowledge to generate accurate and contextually relevant responses. Consequently, the fields of conversational search and retrieval-augmented generation (RAG) have obtained substantial attention for their capacity to address two key challenges: query rewriting within conversational histories for better retrieval performance and generating responses by employing retrieved knowledge. However, both fields are often independently studied, and comprehensive study on entire systems remains underexplored. In this work, we present a novel retrieval-augmented conversation (RAC) dataset and develop a baseline system comprising query rewriting, retrieval, reranking, and response generation stages. Experimental results demonstrate the competitiveness of the system and extensive analyses are conducted to apprehend the impact of retrieval results to response generation. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2024-10-04
- 조회수 1989