-
- [연구] 보안공학연구실(지도교수: 김형식), ACL 2025에 논문 Oral 세션 채택
- 보안공학연구실(지도교수: 김형식)은 국가보안기술연구소와 KAIST와 공동으로 수행한 연구 결과가 인공지능 자연어처리 분야 최우수 국제학술대회인 ACL 2025 메인 컨퍼런스에 채택되었으며, 특히 전체 3,000여 편 이상의 채택 논문 중 상위 243편에만 주어지는 Oral 발표 세션에 선정되었습니다. 해당 논문은 국보연 소속이자 KAIST 박사과정인 고우영 연구원이 제1저자로 참여하였고, 김형식 교수는 공동연구자로 참여하였습니다. XDAC: XAI-Driven Detection and Attribution of LLM-Generated News Comments in Korean 본 논문은 거대언어모델(LLM)이 생성한 한국어 뉴스 댓글을 탐지하고, 작성한 AI 모델까지 식별할 수 있는 설명가능 인공지능(XAI) 기반 탐지 프레임워크 ‘XDAC’을 세계 최초로 제안한 연구입니다. 특히 평균 50자 내외의 짧고 구어체인 한국어 댓글이라는 현실적 조건 속에서도 AI 생성 여부를 98.5%의 정밀도로 탐지하고, 어떤 LLM이 생성했는지도 84.3%의 정확도로 식별할 수 있다는 점에서 기존 SOTA 기술을 뛰어넘는 성과를 입증했습니다. 이번 연구는 AI를 활용한 여론 조작 가능성이 현실적인 위협으로 떠오르고 있는 상황에서, 짧고 비정형 적인 한국어 댓글 환경에서도 실효성 있는 방어 기술을 제시하였다는 점에서 높은 평가를 받았으며, 향후 포털 플랫폼 및 정부 차원의 기술 도입 가능성까지 고려할 수 있는 핵심 기술로 주목받고 있습니다. 프로젝트 소스 코드: https://github.com/airobotlab/XDAC/tree/main 뉴스 기사: https://www.ddaily.co.kr/page/view/2025062717211207639
-
- 작성일 2025-06-30
- 조회수 795
-
- [연구] 김광수 교수 연구실(AAI Lab) ICML 2025 논문 2편 게재 승인(Oral 1편 포함)
- AAI 연구실의 (지도교수: 김광수) 논문이 인공지능 분야 우수학회인 ICML (International Conference on Machine Learning) 2025에 게재 승인되었습니다. 첫번째 논문 " One-Step Generalization Ratio Guided Optimization for Domain Generalization"은 조수민(석사과정), 김동원(석사과정)이 저자로 참여했습니다. 본 논문은 Spotlight Poster로 선정되었으며, 전체 게재 논문 중 1% 이내인 Oral 발표 논문으로도 선정되었습니다. 본 논문은 도메인 일반화(Domain Generalization, DG) 문제를 해결하기 위한 새로운 최적화 기법인 GENIE(Generalization-ENhancing Iterative Equalizer)를 제안한다. 기존 DG 방법들은 특정 도메인에 과적합되는 spurious correlation(허위 상관관계)을 강화할 위험이 있으며, 특히 파라미터 간 불균형한 업데이트가 일반화 성능을 저해하는 문제를 간과해왔다. 이에 본 연구는 각 파라미터가 일반화에 기여하는 정도를 수치화하는 지표인 OSGR (One-Step Generalization Ratio)를 기반으로, 파라미터별 업데이트 균형을 유도하는 새로운 사전조건(preconditioning) 기반 최적화를 도입했다. GENIE는 OSGR을 실시간으로 측정하고, 이에 따라 각 파라미터에 동적으로 사전조건 계수를 할당 하여, 소수의 파라미터가 과도하게 학습을 주도하지 않도록 한다. 추가적으로, 노이즈 주입과 랜덤 마스킹을 통해 학습의 안정성과 탐색성을 보장하고 과적합을 방지한다. 기여 내용 요약 1. GENIE Optimizer 제안 - OSGR 기반 프리컨디셔닝(preconditioning)을 도입하여, 소수의 파라미터가 과도하게 업데이트를 주도하는 현상을 방지하고, 모든 파라미터가 균형 있게 일반화에 기여하도록 유도함. 2. 이론적 정당성 확보 - OSGR 기반 분석을 통해, GENIE가 파라미터 간 일반화 기여도를 균형 있게 조정함을 이론적으로 증명. - PAC-Bayes 분석을 통해 GENIE의 프리컨디셔닝이 일반화 경계(generalization bound)를 더 타이트하게 만들 수 있음을 이론적으로 증명. - 기존 최적화 알고리즘들과 비교하여, GENIE가 더 높은 OSGR을 달성하며 일반화 성능을 수학적으로 우위에 둠을 증명. - 비볼록(non-convex) 환경에서도 SGD와 동일한 수렴률을 유지함을 증명. 3. 우수한 실험 결과 - 5개 DG 데이터셋(PACS, VLCS, OfficeHome, TerraIncognita, DomainNet)에서 기존 최적화 기법 대비 평균 2~6% 정확도 향상. - 기존 DG 알고리즘에 최적화기로 사용하였을 시 성능 향상 확인. - Single-Domain Generalization(SDG) 환경에서도 우수한 성능 발휘. - 다양한 분석 실험을 통해 효과성 입증. Abstract Domain Generalization (DG) aims to train models that generalize to unseen target domains but often overfit to domain-specific features, known as undesired correlations. Gradient-based DG methods typically guide gradients in a dominant direction but often inadvertently reinforce spurious correlations. Recent work has employed dropout to regularize overconfident parameters but has not explicitly adjusted gradient alignment or ensured balanced parameter updates. We propose GENIE (Generalization-ENhancing Iterative Equalizer), a novel optimizer that leverages the One-Step Generalization Ratio (OSGR) to quantify each parameter’s contribution to loss reduction and assess gradient alignment. By dynamically equalizing OSGR via a preconditioning factor, GENIE prevents a small subset of parameters from dominating optimization, thereby promoting domain- invariant feature learning. Theoretically, GENIE balances convergence contribution and gradient alignment among parameters, achieving higher OSGR while retaining SGD’s convergence rate. Empirically, it outperforms existing optimizers and enhances performance when integrated with various DG and single-DG methods. 두번째 논문 " Federated Learning for Feature Generalization with Convex Constraints"는 김동원(석사과정), 김동희(박사과정) 신성국(박사과정)이 저자로 참여했습니다. 본 논문은 Poster 발표 논문으로 선정되었습니다. 연합학습에서 클라이언트 간 데이터 이질성으로 인한 일반화 성능 저하는 자주 발생하는 문제다. 로컬 모델은 각자의 데이터 분포에 과적합되기 쉽고, 로컬 모델이 이미 획득한 일반화 가능한 특징조차 집계 과정에서 왜곡될 수 있다. 이러한 문제를 해결하기 위해 우리는 FedCONT를 제안한다. 이 방법은 글로벌 모델의 파라미터 강도에 따라 업데이트 크기를 적응적으로 조절하므로써, 충분히 학습된 파라미터를 지나치게 강조하는 것을 방지하고, 학습이 부족한 파라미터를 강화한다. 구체적으로, FedCONST는 선형 볼록 제약(linear convex constraints)를 활용하여 학습 안정성을 확보하고, 집계과정에서 로컬 모델이 획득한 일반화 능력을 유지하도록 한다. 또한 Gradient Signal-to-Noise Ratio(GSNR) 분석을 통해 FedCONST가 특징값의 전이력과 강건성을 효과적으로 향상시키는 방법임을 입증한다. 그 결과, FedCONST는 로컬과 글로벌 모델의 최적값을 효과적으로 정렬하여 과적합을 완화하고, 다양한 FL 환경 전반에서 더 강한 일반화 성능을 달성하여 SOTA(state-of-the-art) 수준의 성능을 기록한다. 기여 내용 요약 1. FedCONST 방법 제안 연합 학습에서 클라이언트와 서버 모델의 일반화 성능을 동시에 향상시키기 위해, 글로벌 파라미터의 크기(magnitude)에 기반한 convex constraint를 도입함. 이를 통해 과도하게 학습된 파라미터는 억제하고, 덜 학습된 파라미터는 강화함으로써 균형 잡힌 학습을 유도함. 2. 이론적 정당성 확보 Gradient Signal-to-Noise Ratio (GSNR) 분석을 통해 각 파라미터의 일반화 기여도를 정량화하고, 제안한 convex constraint가 이러한 기여를 균형 있게 향상시킴을 수학적으로 증명함. 3. 우수한 실험 성능 다양한 연합 학습 환경에서 FedAvg, FedProx, FedDyn 등 기존 방법 대비 전반적인 정확도 및 일반화 성능에서 우수한 결과를 보임. 4. 높은 확장성 및 호환성 제안된 방법은 모델 구조나 기존 알고리즘에 종속되지 않으며, 다양한 연합 학습 최적화 기법과 쉽게 결합되어 성능을 향상시킬 수 있음. Abstract Federated learning (FL) often struggles with generalization due to heterogeneous client data. Local models are prone to overfitting their local data distributions, and even transferable features can be distorted during aggregation. To address these challenges, we propose FedCONST, an approach that adaptively modulates update magnitudes based on the global model’s parameter strength. This prevents over-emphasizing well-learned parameters while reinforcing underdeveloped ones. Specifically, FedCONST employs linear convex constraints to ensure training stability and preserve locally learned generalization capabilities during aggregation. A Gradient Signal-to-Noise Ratio (GSNR) analysis further validates FedCONST's effectiveness in enhancing feature transferability and robustness. As a result, FedCONST effectively aligns local and global objectives, mitigating overfitting and promoting stronger generalization across diverse FL environments, achieving state-of-the-art performance.
-
- 작성일 2025-06-26
- 조회수 907
-
- [연구] [이지형 교수] 정보 및 시스템 연구실, ACL 2025 논문 1편 게재 승인
- 정보 및 지능 시스템 연구실(지도교수:이지형)의 논문 1편이 자연어처리 분야의 최우수 국제학술대회인 ACL 2025 (“The 63rd Annual Meeting of the Association for Computational Linguistics”)에 게재 승인되었습니다. 논문은 7월 오스트리아 빈에서 발표될 예정입니다. 제목 : “DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph” 저자: 이지형*(인공지능학과 석사과정), 이진섭*(인공지능학과 석박통합과정), 이재훈(인공지능학과 석사과정), 최윤석 (성균관대 컴퓨터교육학과 조교수/소프트웨어학과 박사졸업) (*공동 1저자) “DCG-SQL: Enhancing In-Context Learning for Text-to-SQL with Deep Contextual Schema Link Graph” 논문에서는 자연어 문장을 SQL 쿼리로 변환하는 Text-to-SQL 태스크에서 효과적인 In-context Learning을 위한 예제 선택 기법을 제안합니다. In-context Learning은 소수의 예제를 활용하여 모델이 문제를 해결하도록 유도하는 방식이지만, 기존의 예제 선택 방법은 무작위 선택과 비교해 성능 차이가 크지 않으며, 특히 Llama 3.1-8B와 같은 소형 언어 모델에서는 성능이 크게 저하되는 한계를 보입니다. 이는 기존 방식들이 In-context Learning을 효과적으로 활용했다기보다는, 모델 자체의 내재적 능력에 의존해 성능을 얻었음을 시사합니다. 이러한 문제를 해결하기 위해, 본 연구는 질문과 데이터베이스 스키마 간의 핵심 정보와 문맥적 관계를 반영한 문맥 기반 스키마 연결 그래프를 활용하여, In-context Learning에 보다 적합한 예제를 선별하는 방법을 제안합니다. 다양한 Text-to-SQL 벤치마크 데이터셋에 대한 실험을 통해 초거대 언어 모델뿐만 아니라 소형 모델에서도 SQL 생성 성능을 향상시켜, 모델 규모에 관계없이 일관된 성능 개선과 실용적인 효과를 확인할 수 있었습니다. Abstract: Text-to-SQL, which translates a natural language question into an SQL query, has advanced with in-context learning of Large Language Models (LLMs). However, existing methods show little improvement in performance compared to randomly chosen demonstrations, and significant performance drops when smaller LLMs (e.g., Llama 3.1-8B) are used. This indicates that these methods heavily rely on the intrinsic capabilities of hyper-scaled LLMs, rather than effectively retrieving useful demonstrations. In this paper, we propose a novel approach for effectively retrieving demonstrations and generating SQL queries. We construct a Deep Contextual Schema Link Graph, which contains key information and semantic relationship between a question and its database schema items. This graph-based structure enables effective representation of Text-to-SQL samples and retrieval of useful demonstrations for in-context learning. Experimental results on the Spider benchmark demonstrate the effectiveness of our approach, showing consistent improvements in SQL generation performance and efficiency across both hyper-scaled LLMs and small LLMs.
-
- 작성일 2025-05-21
- 조회수 1469
-
- [연구] [구형준 교수] SecAI 연구실, USENIX WOOT Conference on Offensive Technologies, 2025 (WOOT ’25) 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu)과 국방부 소속 정진호 박사 그리고 차세대 보안리더 양성 프로그램인 BoB (Best of the Best) 학생 5명 (이준호; 목포대, 권지훈; 고려대, 서현아; 성신여대, 이명열; 조선대, 서형규;계명대)이 함께 작성한 "BOOTKITTY: A Stealthy Bootkit-Rootkit Against Modern Operating Systems" 논문이 보안분야 우수학회인 USENIX WOOT Conference on Offensive Technologies (WOOT '25) 에 게재 승인되어 2025년 8월에 발표될 예정입니다. WOOT은 USENIX와 함께 열리며, 공격 부문 관련 논문을 게재하는 대표적인 학술 컨퍼런스입니다. 부트킷(Bootkit)과 루트킷(Rootkit)은 시스템 아키텍처의 가장 하위 계층에서 작동하며, 시스템 방어를 교묘히 피해가는 가장 은밀하고 지속적인 형태의 악성코드입니다. 부트킷은 펌웨어나 부트로더를 감염시켜 보안 기능이 작동하기 전에 부팅 과정을 조작하고 시스템을 장악할 수 있게 합니다. 반면 루트킷은 운영체제의 커널 깊숙이 숨어 악성 행위를 감추고 장기간에 걸쳐 은밀히 활동을 이어갑니다. 하지만 이처럼 보안에 중대한 위협임에도 불구하고, 부트킷과 루트킷에 대한 연구는 기술적 복잡성, 실제 사례의 부족, 그리고 현대 운영체제의 다층 보안 구조로 인해 아직 충분히 이루어지지 않고 있습니다. 본 논문에서 BOOTKITTY라는 하이브리드 부트킷-루트킷을 소개합니다. BOOTKITTY는 Windows, Linux, Android 등 여러 현대의 운영체제에서 최신 보안 기능을 우회할 수 있는 능력을 갖추고 있습니다. 특히 펌웨어와 부트로더에서 발생할 수 있는 주요 취약점을 분석하고, 신뢰 메커니즘을 깨뜨림으로써 고급 보안 기능을 무력화하는 기술을 공개합니다. UEFI 드라이버를 악용하거나 커널 메모리를 조작하고, 부팅 과정에서의 최신 보안 기법을 우회하는 등의 기술적 난제를 해결하면서 실질적인 통찰을 제공합니다. BOOTKITTY를 통해 현대 보안 메커니즘에서 남아 있는 문제점을 톺아보며, 저수준 영역까지 포괄하는 보다 통합적인 보안 설계의 필요성을 강조합니다.
-
- 작성일 2025-05-08
- 조회수 1594
-
- [연구] 김유성 교수 연구실 (CSI Lab.) ICML 2025 논문 게재 승인
- CSI 연구실의 (지도교수: 김유성) 논문이 인공지능 분야 우수학회인 ICML (International Conference on Machine Learning) 2025 게재 승인되었습니다. 논문 " Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning" 은 백승호 (석사과정), 박태건 (석사과정), 박종찬 (박사과정), 오승준 (박사과정) 군이 저자로 참여했습니다. 본 논문은 수집된 데이터셋으로부터 최적의 행동 정책을 효율적으로 학습할 수 있는 새로운 오프라인 계층적 강화학습 기법을 제안합니다. 특히, 품질이 낮거나 단편적인 궤적(trajectory)들로 구성된 데이터에서도 주요 상태를 선별하고 효과적으로 연결 (stitching) 하는 Graph-Assisted Stitching (GAS) 기법을 소개합니다. GAS는 상태를 시간 거리 (Temporal Distance) 표현 공간에 임베딩하고, 의미적으로 유사한 상태들을 클러스터링하여 그래프 노드를 구성하고 연결합니다. 이 그래프를 활용한 작업 계획 및 하위 정책 학습을 통해 Navigation, Locomotion, Manipulation 등 다양한 벤치마크에서 기존 방법들을 능가하며, 최대 83.6%p의 성능 향상을 달성했습니다. 김유성 | yskim525@skku.edu | CSI Lab. | https://csi-skku.github.io
-
- 작성일 2025-05-02
- 조회수 1610
-
- [연구] 데이터 지능 및 학습 연구실(지도교수: 이종욱) SIGIR 2025 논문 3편 게재
- 데이터 지능 및 학습(Data Intelligence and Learning, DIAL, 지도교수: 이종욱) 연구실은 세계 최고 권위의 정보검색 학회인 SIGIR 2025에 3편의 논문이 최종 게재 승인되었으며, 7월에 이탈리아 파도바에서 논문을 발표할 예정입니다. [논문 목록] 1. Why is Normalization Necessary for Linear Recommenders? (SIGIR'25) 2. Linear Item-Item Models with Neural Knowledge for Session-based Recommendation (SIGIR'25) 3. DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation (SIGIR'25) 연구 1 : Seongmin Park, Mincheol Yoon, Hye-young Kim, Jongwuk Lee, “Why is Normalization Necessary for Linear Recommenders?”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 선형 오토인코더 (linear autoencoder, LAE) 기반 추천 시스템이 간단한 구조에도 불구하고 신경망 기반 모델과 비교할 만한 추천 성능과 빠른 추론 속도를 보인다는 점에 착안하였습니다. 그러나 LAE는 인기 있는 아이템을 과도하게 추천하는 인기도 편향 (popularity bias)와 지역적인 아이템 간 상관관계에 지나치게 의존하는 이웃 편향 (neighborhood bias)라는 두 가지 구조적 한계에 직면해 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 LAE 모델에 적용할 수 있는 새로운 정규화 방법인 Data-Adaptive Normalization (DAN)을 제안합니다. DAN은 데이터의 특성에 따라 두 가지 bias를 유연하게 제어할 수 있도록 설계된 정규화 기법으로, (i) item-adaptive normalization과 (ii) user-adaptive normalization이라는 두 가지 핵심 컴포넌트로 구성됩니다. 첫 번째로, item-adaptive normalization은 정규화 파라미터 α를 통해 인기 아이템의 영향력을 조절하고 LAE에 denoising 효과를 부여합니다. 이를 통해 기존 LAE가 주로 추천하던 인기 아이템 (head items) 중심의 성능에서 벗어나 (즉, 인기도 편향), 비인기 아이템 (tail items)에 대한 추천 성능을 크게 향상시킬 수 있습니다. 두 번째로, user-adaptive normalization은 파라미터 β를 사용하여 이웃 편향을 제어합니다. 이 기법은 고주파수 성분 (high-frequency components)을 억제하고 중요한 저주파수 성분을 보존함으로써, 지역적인 상관관계보다 전체적인 글로벌 패턴을 더 잘 반영하도록 도와줍니다. DAN의 효과는 여섯 개의 대표적인 추천 데이터셋 (ML-20M, Netflix, MSD, Gowalla, Yelp2018, Amazon-book)에서 실험적으로 검증되었습니다. DAN을 적용한 LAE 모델들 (LAE_DAN, EASE_DAN, RLAE_DAN)은 모든 데이터셋에서 기존 LAE 모델 대비 일관된 성능 향상을 보였으며, tail 아이템과 unbiased 평가에서 최대 각각 128.57%와 12.36%의 성능 향상을 기록하였습니다. 또한 DAN은 최신 협업 필터링 모델들과 비교했을 때도 우수한 성능을 나타냈습니다. 또한, 그림 1 (Case study)은 정규화 방법에 따른 특정 사용자의 추천 결과를 보여주며, 다음과 같은 관찰을 했습니다. (1) 정규화 없는 LAE (W/O)는 사용자가 로맨틱 영화 3편을 시청했음에도 5개 모두 높은 인기도의 액션 영화만 추천합니다. 반면, 세 가지 정규화 방법 (RW, Sym, DAN)은 사용자가 본 "Step Up 1"과 관련된 "Step Up 2"를 최상위로 추천하여 사용자 선호도를 효과적으로 반영합니다. (2) DAN은 인기도 편향을 적절히 완화하면서도 사용자 선호도를 유지하는 가장 균형 잡힌 추천을 제공합니다. RW 정규화는 5개 중 4개가 인기 아이템으로, 여전히 인기도 편향이 강합니다. Sym 정규화는 5개 중 4개가 인기 없는 아이템으로, 인기도 편향을 과도하게 완화합니다. DAN은 인기 및 비인기 아이템의 균형을 맞추면서 사용자 선호도에 가장 관련성 높은 아이템을 추천합니다. 그림 1: ML-20M 데이터셋에서 사용자 #91935의 상호작용 이력과 네 가지 정규화 방법의 Top-5 추천 목록. 빨간 테두리는 head (상위 20%) 항목이고, 파란 테두리는 tail (하위 80%) 항목 나아가 본 연구는 데이터셋의 Gini index와 homophily 특성에 따라 정규화 파라미터 (α, β)의 효과가 어떻게 달라지는지 분석하고, 각 데이터셋에 적합한 파라미터 설정 가이드라인도 함께 제시합니다. 이를 통해 제안된 DAN 기법은 데이터 특성에 따라 정교하게 bias를 제어할 수 있는 일반적이고 실용적인 솔루션으로 자리매김할 수 있음을 보여줍니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_dan 연구 2 : Minjin Choi, Sunkyung Lee, Seongmin Park, Jongwuk Lee, “Linear Item-Item Models with Neural Knowledge for Session-based Recommendation”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 사용자의 현재 세션 내 상호작용을 기반으로 다음 행동을 예측하는 세션 기반 추천(Session-based Recommendation, SBR) 문제에 주목합니다. SBR 분야는 크게 두 가지 패러다임으로 나뉩니다. 하나는 복잡한 순차적 전이 패턴을 포착하는 데 강점을 보이는 신경망 기반 모델이며, 다른 하나는 아이템 간의 동시 등장 패턴을 효과적으로 학습하고 빠른 추론 속도를 제공하는 선형 아이템-아이템 모델입니다. 그러나 각 패러다임은 서로 다른 종류의 아이템 관계를 포착하는 데 특화되어 있으며, 신경망 모델의 높은 정확성과 선형 모델의 효율성을 동시에 달성하기 위한 효과적인 통합 방안은 아직 부족한 실정입니다. 이러한 배경 하에, 본 논문에서는 선형 모델과 신경망 모델의 지식을 효과적으로 통합하는 새로운 SBR 모델인 LINK (Linear Item-Item model with Neural Knowledge)를 제안합니다. LINK는 두 가지 유형의 지식을 하나의 통합된 선형 프레임워크 내에서 결합하여, 높은 정확도와 빠른 추론 속도라는 두 마리 토끼를 잡는 것을 목표로 합니다. 이를 위해 LINK는 두 가지 핵심 구성 요소를 포함합니다. (i) LIS (Linear knowledge-enhanced Item-item Similarity model)는 자기 증류(self-distillation) 기법을 통해 선형 모델 자체의 아이템 유사성(동시 등장) 포착 능력을 강화하고 세션 간의 고차원적 관계까지 학습합니다. (ii) NIT (Neural knowledge-enhanced Item-item Transition model)는 사전 학습된 임의의 신경망 모델로부터 복잡한 순차적 전이 지식을 증류하여, 이를 선형 모델 학습 시 정규화 항으로 활용하는 독창적인 방식을 통해 신경망의 지식을 선형 모델에 효과적으로 주입합니다. 그림 2에서 보이는 바와 같이, LINK 모델의 효과는 Diginetica, Retailrocket, Yoochoose 등 여섯 개의 실제 SBR 데이터셋을 사용한 광범위한 실험을 통해 검증되었습니다. 실험 결과, LINK는 모든 데이터셋에서 기존의 최첨단 선형 SBR 모델들(SLIST, SWalk 등) 대비 일관되고 큰 폭의 성능 향상(Recall@20 기준 최대 14.78%, MRR@20 기준 최대 11.04%)을 달성했습니다. 이는 선형 모델의 한계를 신경망 지식 통합을 통해 성공적으로 극복했음을 보여줍니다. 더불어 LINK는 복잡한 최신 신경망 모델들과 비교했을 때도 경쟁력 있는, 혹은 더 우수한 예측 정확도를 보이면서도, 선형 모델의 핵심 장점인 높은 추론 효율성(최대 813배 적은 FLOPs)을 그대로 유지하였습니다. 추가 분석을 통해 선형 모델이 비인기 아이템 간의 관계에 강점을 보이고 신경망 모델이 인기 아이템의 복잡한 패턴에 강점을 보이는데, LINK가 이 두 가지 강점을 효과적으로 결합하여 균형 잡힌 성능을 달성함을 확인했습니다. 그림 2: 정확도(Recall@20)와 추론 연산량(FLOPs) 비교 결론적으로, LINK는 SBR 분야에서 정확성과 효율성 사이의 실질적인 균형점을 제공하는 새로운 하이브리드 접근 방식을 제시합니다. 특히 NIT 컴포넌트는 특정 신경망 아키텍처에 구애받지 않고 다양한 모델의 지식을 활용할 수 있는 유연성을 제공하여, 향후 신경망 모델의 발전에 따라 지속적으로 성능 개선이 가능한 실용적인 솔루션입니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_link 연구 3 : Hye-young Kim, Minjin Choi, Sunkyung Lee, Ilwoong Baek, Jongwuk Lee, “DIFF: Dual Side-Information Filtering and Fusion for Sequential Recommendation”, The 48th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025 본 연구는 사용자의 과거 소비 이력을 바탕으로 다음에 선호할만한 항목을 예측하는 순차적 추천(Sequential Recommendation)에서 카테고리, 브랜드 등 아이템 부가 정보를 함께 활용하는 부가 정보 통합 순차적 추천(Side-information Integrated Sequential Recommendation, SISR)모델을 제안합니다. 제안 모델인 Dual Side-Information Filtering and Fusion (DIFF)는 사용자 시퀀스 내 노이즈를 제거하고, 다양한 속성 정보를 효과적으로 융합함으로써 더욱 정밀하고 표현력 있는 사용자 선호 모델링을 달성합니다. DIFF는 다음과 같은 세 가지 핵심 기법을 포함합니다: 그림 3: 부가 정보 통합 순차적 추천 시스템의 주파수 신호와 융합 기법 (1) 주파수 기반 노이즈 필터링 (Frequency-based Noise Filtering): DIFF는 우발적 클릭 또는 단기적 관심과 같이 실제 사용자 선호와 관련없는 신호를 제거하기 위해 주파수 영역으로의 변환을 수행합니다. 아이템 ID와 각 속성 시퀀스를 각각 주파수 영역으로 변환한 뒤, 불규칙적이거나 중요도가 낮은 주파수 성분을 제거합니다. 이를 통해 실제 사용자 선호를 반영하는 핵심 신호만을 강화할 수 있으며, 다중 시퀀스에 대해 필터링을 적용함으로써 보다 정교한 노이즈 제거를 가능하게 합니다. (2) 이중 멀티시퀀스 융합 (Dual Multi-sequence Fusion): 노이즈가 제거된 시퀀스들을 효과적으로 통합하기 위해, DIFF는 서로 다른 장점을 지니는 중간 융합과 초기 융합 방식을 함께 활용합니다. 저희는 기존 연구들이 정보 침식(information invasion) 문제를 우려하여 초기 융합 방식의 활용은 제한하거나 배제하는 경향이 있었으며, 이로 인해 다양한 속성 간 상관관계 모델링 능력을 간과하고 있다는 점에 주목하였습니다. DIFF는 초기 융합을 통해 다차원 속성 정보를 통합하고, 중간 융합을 통해 ID 중심의 선호 학습을 보완함으로써, ID와 속성 모두를 아우르는 정교한 사용자 표현을 학습합니다. 두 융합 방식의 상호보완적 조합을 통해 DIFF는 사용자 취향의 전반적인 구조뿐만 아니라 세부적인 속성 선호까지도 효과적으로 포착할 수 있습니다. (3) 정보 침식(information invasion) 방지를 위한 표현 정렬(representation alignment): 아이템 ID와 각 속성 임베딩은 서로 다른 표현 공간에 위치합니다. 따라서 이를 단순한 융합 함수(e.g. summation, concatenation, gating)로 합치는 초기 융합에서는 특정 정보가 과도하게 강조되거나 왜곡되는 정보 침식(information invasion) 문제가 발생할 수 있습니다. 이를 방지하기 위해 DIFF에서는 정렬 손실(Alignment Loss)을 설계하여, 아이템 ID와 속성 임베딩의 벡터 공간을 가깝게 만들어, 의미를 공유하면서도 적절한 차이를 유지할 수 있도록 유도합니다. DIFF는 네 개의 대표적인 공개 벤치마크 데이터셋(Yelp, Beauty, Toys, Sports)에서 검증되었으며, 기존 최신 순차 추천 모델들과 비교해 모든 지표에서 우수한 성능을 달성하였습니다. 특히, Recall@20과 NDCG@20 기준으로 각각 최대 14.1%, 12.5%의 성능 향상을 기록하며 새로운 state-of-the-art 성능을 입증하였습니다. 또한, DIFF의 노이즈에 대한 강건성(robustness)은 매우 두드러졌습니다. 사용자 시퀀스에 우발적인 클릭, 일시적인 관심 변화 등 현실적인 사용 환경에서의 노이즈를 고려해 테스트 시퀀스에 무작위로 아이템을 교체하는 방식으로 노이즈 시뮬레이션 실험을 진행하였습니다. 그 결과, DIFF는 5%의 낮은 노이즈 조건에서도 타 모델 대비 가장 적은 성능 저하를 보였으며, 25%의 높은 노이즈 조건에서도 안정적으로 높은 성능을 유지했습니다. 본 논문에 관한 자세한 내용은 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2025_diff
-
- 작성일 2025-04-22
- 조회수 1554
-
- [연구] 김형식 교수 연구실(보안공학연구실, SecLab), IEEE Symposium on Security and Privacy (S&P) 2025 논문 게재 승인
- 보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 김은수(박사과정) 학생과 김형식 교수가 진행한 "Open Sesame! On the Security and Memorability of Verbal Passwords"논문이 컴퓨터 보안 분야에서 최우수 학술대회인 IEEE Symposium on Security and Privacy (S&P) 2025에 게재 승인되었습니다. 이번 연구는 미국 테네시 대학교(University of Tennessee)의 김두원 교수와 보안공학 연구실 졸업생인 이기호 연구원(ETRI)이 참여하여 연구를 진행하였습니다. 연구진은 두 차례의 대규모 사용자 실험을 통해 음성으로 전달하는 패스워드 (verbal password)의 보안성과 기억 용이성을 정량적으로 분석하여, 기존 텍스트 비밀번호의 한계를 극복할 수 있는 실질적이고 안전한 대안임을 입증하였습니다. 첫 번째 사용자 실험에서는 2,085명의 사용자가 자유롭게 생성한 음성 패스워드를 대상으로 장/단기 기억력 및 보안성을 분석하였습니다. 보안성 테스트에서 2천만개 이상의 Common English 문구들로 학습된 PassphraseGPT 모델을 통해 사용자가 생성한 음성 패스워드의 약 39.76%가 10억 번의 추측 시도 이내에 예측될 정도로 취약하다는 것을 밝혔습니다. 하지만 두 번째 사용자 실험(600명 대상)에서는 단어 최소 개수 제한과 금지어 목록(blocklist)을 활용한 비밀번호 생성 정책을 적용하여 음성 패스워드의 기억 용이성을 보장하면서 보안성을 현저히 개선했습니다. 사용자들의 장기 기억 실험에서 비밀번호 생성 정책을 적용한 음성 패스워드 사용자 그룹의 65.6%가 성공적으로 비밀번호를 기억하여, 기존 텍스트 비밀번호(54.11%) 대비 높은 기억 성능을 보였습니다. 또한, 비밀번호 추측공격에 의해 예측 가능한 verbal password의 비율이 텍스트 비밀번호 보다 낮아, 공격에 더 효과적으로 저항할 수 있음을 입증했습니다. 이번 연구는 키보드 입력이 불가능하거나 불편한 상황(스마트 어시스턴트, 웨어러블 기기, 차량 환경, VR/AR 환경)에서 언어 비밀번호가 텍스트 비밀번호를 효과적으로 대체할 수 있는 실용적이며 보안성 높은 대안임을 제시했다는 점에서 높은 평가를 받았습니다. 연구 발표는 2025년 5월, 미국 캘리포니아 주 샌프란시스코에서 진행될 예정입니다. Abstract Despite extensive research on text passwords, the security and memorability of verbal passwords—spoken rather than typed—remain underexplored. Verbal passwords hold significant potential for scenarios where keyboard input is impractical (e.g., smart speakers, wearables, vehicles) or users have motor impairments that make typing difficult. Through two large-scale user studies, we assessed the viability of verbal passwords. In our first study (N = 2,085), freely chosen verbal passwords were found to have a limited guessing space, with 39.76% cracked within 10^9 guesses. However, in our second study (n = 600), applying word count and blocklist policies for verbal password creation significantly enhanced verbal password performance, achieving better memorability and security than traditional text passwords. Specifically, 65.6% of verbal password users (under the password creation policy using minimum word counts and a blocklist) successfully recalled their passwords in long-term tests, compared to 54.11% for text passwords. Additionally, verbal passwords with enforced policies exhibited a lower crack rate (6.5%) than text passwords (10.3%). These findings highlight verbal passwords as a practical and secure alternative for contexts where text passwords are infeasible, offering strong memorability with robust resistance to guessing attacks.
-
- 작성일 2025-03-28
- 조회수 1778
-
- [연구] 보안공학연구실(지도교수: 김형식), The Web Conference (WWW) 2025에 논문 2편 Oral 세션 채택
- 보안공학연구실(지도교수: 김형식)은 미국 테네시 대학교(University of Tennessee)의 김두원 교수와 공동으로 수행한 연구 결과 2편이 웹 분야 최우수 국제학술대회인 The Web Conference (WWW) 2025에 Oral 세션으로 채택되었습니다. 이번 연구에는 보안공학연구실 졸업생 이기호 연구원(현 ETRI)이 테네시 대학교 방문 연구원으로 참여하여 김형식 교수와 함께 연구를 공동 수행하였습니다. 두 논문 모두 대규모 실증 데이터를 기반으로 피싱 공격의 특성과 구조를 정량적으로 분석하였으며, 피싱 공격에 대한 근본적인 이해와 새로운 대응 전략을 제시했다는 점에서 높은 평가를 받았습니다. 논문 발표는 2025년 5월, 호주 시드니에서 진행될 예정입니다. 논문1. 7 Days Later: Analyzing Phishing-Site Lifespan After Detected 본 논문은 피싱 사이트의 탐지 이후 생존 기간 및 변화 양상을 분석한 실증 연구입니다. 5개월간 286,237개의 피싱 URL을 30분 간격으로 추적하여 피싱 사이트의 공격 패턴을 분석하여, 왜 기존 피싱 탐지 전략의 효과가 떨어지는지를 분석하였습니다. 피싱 사이트의 경우, 평균 생존 시간 54시간, 중앙값은 5.46시간으로 짧기 때문에, 피싱 사이트를 훈련하고, 탐지하는 접근 방법의 한계성을 분석하였습니다. 예를 들어, Google Safe Browsing은 평균 4.5일 후 탐지를 수행하는데, 피싱 사이트의 84%는 탐지 전에 이미 종료하여, 실질적인 탐지는 한계를 갖는다는 것을 보여줬습니다. 논문2. What's in Phishers: A Longitudinal Study of Security Configurations in Phishing Websites and Kits 본 논문은 2년 7개월간 수집한 906,731개의 피싱 웹사이트와 13,344개의 피싱 키트 데이터를 종합 분석하여, 피싱 인프라의 보안 설정과 구조적 취약점을 시스템적으로 분석한 연구입니다. 피싱 사이트의 구조적 취약점을 활용해 공격 인프라를 능동적으로 무력화할 수 있는 전략을 제안하여 기존의 수동적 탐지·차단 방식에서 벗어나, 피싱 사이트를 조기 차단하는 새로운 대응 방향을 제시했다는 점에서 주목받았습니다.
-
- 작성일 2025-03-26
- 조회수 1704
-
- [연구] 이호준 교수 연구실 (SSLab) IEEE S&P 2025 논문 게재 승인
- [이호준 교수 연구실 (SSLab) IEEE S&P 2025 논문 게재 승인] 시스템보안 연구실 (SSLab, 지도교수: 이호준)의 논문이 보안 분야 4대 최우수 국제학회 중 하나인 IEEE S&P (IEEE Symposium on Security and Privacy) 2025에 게재승인되었습니다. 논문은 5월 미국 캘리포니아 주 샌프란시스코에서 발표될 예정입니다. 아래는 논문의 주요 내용입니다. 논문명: IncognitOS: A Practical Unikernel Design for Full-System Obfuscation in Confidential Virtual Machines 저자: Kha Dinh Duy, Jaeyoon Kim, Hajeong Lim, Hojoon Lee 논문 요약: 최근 연구들은 사이드 채널 공격이 Intel SGX와 같은 신뢰 실행 환경(TEE)의 기밀성을 무력화할 수 있음을 반복적으로 입증해왔다. 한편, 클라우드 환경에서는 기밀 가상머신(CVM) 기술로의 전환이 진행 중이지만, 기존의 사이드 채널 공격 중 일부는 여전히 유효하며, CVM을 대상으로 한 새로운 공격 기법도 등장하고 있다. 기존 연구들은 SGX 인클레이브를 보호하는 방어 기법을 탐색해왔으나, CVM 기반 난독화 실행 엔진에 대한 연구는 해결해야할 난제가 많음에도 아직 미흡한 상황이다. 이에 본 논문에서는 CVM 기반 클라우드 워크로드의 전 시스템 난독화(full-system obfuscation)를 제공하는 유니커널(Unikernel) "IncognitOS"를 제안한다. IncognitOS는 유니커널의 장점을 극대화 하여 최소화된 신뢰 컴퓨팅 기반(TCB)과 하드웨어 직접 접근을 활용하여 난독화를 실현하며, 스케줄러 및 메모리 관리 시스템의 재구성을 통해 적응형 난독화(adaptive obfuscation) 기법을 구현한다. IncognitOS의 스케줄러는 하이퍼바이저의 타이머 인터럽트에 의존하지 않고 독립적으로 실행되어, 기존 연구에서 제시된 하이퍼바이저에 대한 안전하지 않은 의존성을 제거한다. 또한 하이퍼바이저가 실행 제어권을 확보하는 빈도(VMExit 발생률)를 정밀하게 측정하여 메모리 재난독화(memory rerandomization) 빈도를 동적으로 조정한다. 또한 페이징 서브시스템은 MMU에 직접 접근하여 난독화함으로써 보안을 강화하는 한편, 어플리케이션에 대해 영향을 주지 않는 투명한 (transparent) 난독화 기능을 구현한다. 평가 결과, IncognitOS는 CVM 대상 사이드 채널 공격에 강한 저항성을 제공하며, 적응형 난독화 기법을 통해 실사용 가능한 성능을 유지함을 입증한다. 이를 통해, CVM 환경에서의 안전한 배포 전략으로서 자체 난독화(self-obfuscating) 유니커널의 가능성을 제시한다. Recent works have repeatedly proven the practicality of side-channel attacks in undermining the confidentiality guarantees of Trusted Execution Environments such as Intel SGX. Meanwhile, the trusted execution in the cloud is witnessing a trend shift towards confidential virtual machines (CVMs). Unfortunately, several side-channel attacks have survived the shift and are feasible even for CVMs, along with the new attacks discovered on the CVM architectures. Previous works have explored defensive measures for securing userspace enclaves (i.e., Intel SGX) against side-channel attacks. However, the design space for a CVM-based obfuscation execution engine is largely unexplored. This paper proposes a unikernel design named IncognitOS to provide full-system obfuscation for CVM-based cloud workloads. IncognitOS fully embraces unikernel principles such as minimized TCB and direct hardware access to render full-system obfuscation feasible. IncognitOS retrofits two key OS components, the scheduler and memory management, to implement a novel adaptive obfuscation scheme. IncognitOS's scheduling is designed to be self-sovereign from the timer interrupts from the untrusted hypervisor with its synchronous tick delivery. This allows IncognitOS to reliably monitor the frequency of the hypervisor's possession of execution control (i.e., VMExits) and adjust the frequency of memory rerandomization performed by the paging subsystem, which transparently performs memory rerandomization through direct MMU access. The resulting IncognitOS design makes a case for self-obfuscating unikernel as a secure CVM deployment strategy while further advancing the obfuscation technique compared to previous works. Evaluation results demonstrate IncognitOS's resilience against CVM attacks and show that its adaptive obfuscation scheme enables practical performance for real-world programs.
-
- 작성일 2025-03-17
- 조회수 1864
-
- [연구] 우사이먼 교수 연구실(DASH Lab), TheWebConf (WWW) 2025 Short Paper 3편 게재 승인
- Data-driven AI & Security HCI Lab (DASH Lab, 지도교수: 우사이먼성일)의 Short paper 3편이 웹관련 BK Computer Science 최우수 국제 학술대회인 TheWebConf (WWW)에 게재 승인되었습니다. 논문은 4월 호주 시드니에서 발표될 예정입니다. 논문1. Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset, WWW 2025 저자: Muhammad Shahid Muneer (소프트웨어학과 박사과정), 우사이먼성일 (성균관대 소프트웨어학과 교수) 최근 Text-to-Image(T2I) 모델이 발전하면서 유해한 NSFW 콘텐츠 생성 및 악용 문제가 대두되고 있습니다. 이를 방지하기 위해 NSFW 필터 및 보안 장치가 도입되었지만, 최근 연구에 따르면 적대적 공격(adversarial attack)을 통해 쉽게 우회할 수 있습니다. 현재 대규모 멀티모달(NSFW) 데이터셋이 부족한 문제를 해결하기 위해, 본 연구에서는 오픈소스 확산 모델(diffusion model)을 활용해 대규모 프롬프트-이미지 데이터셋을 구축하고, 강건한 NSFW 탐지 모델을 개발했습니다. 실험 결과, 제안된 모델은 기존 최신(SOTA) 탐지 방법보다 정확도 및 재현율이 높고, 적대적 공격 성공률(ASR)을 크게 감소시키는 효과를 보였습니다. 논문2. Fairness and Robustness in Machine Unlearning, WWW 2025 저자: Khoa Tran (소프트웨어학과 석박통합과정), 우사이먼 성일 (성균관대학교 소프트웨어학과 교수) 머신 언러닝(Machine Unlearning)은 사전 학습된 모델에서 특정 데이터의 영향을 제거하는 문제로, 개인정보 보호와 관련된 중요한 과제입니다. 기존 근사적 언러닝(Approximated Unlearning) 기법은 정확성과 시간 효율성을 강조했지만, 완전한(Exact) 언러닝을 달성하지 못한다고 지적하며, 우리는 최초로 공정성과 강건성을 고려한 연구를 수행했습니다. 본 연구에서는 공정성 가설(Fairness Conjectures)을 바탕으로 강건성과의 관계를 분석하였으며, 실험 결과 공정성 격차(Fairness-Gap)가 클수록 모델이 더 취약해진다는 사실을 확인했습니다. 또한, 최신 근사적 언러닝 기법이 적대적 공격(Adversarial Attack)에 취약하며, 이로 인해 모델 성능이 크게 저하됨을 입증했습니다. 이에 따라, 공정성 격차 측정(Fairness-Gap Measurement)과 강건성 지표(Robustness Metric)가 언러닝 평가에 필수적으로 사용되어야 한다고 주장합니다. 마지막으로, 모델의 중간층과 최종층에서의 언러닝만으로도 충분한 효과를 내면서, 시간과 메모리 효율성을 확보할 수 있음을 확인했습니다. 논문3. SADRE: Saliency-Aware Diffusion Reconstruction for Effective Invisible Watermark Removal, WWW 2025 저자: Inzamamul Alam (소프트웨어학과 박사과정), 우사이먼 성일 (성균관대학교 소프트웨어학과 교수) 기존 워터마킹 기술의 강건성 부족 문제를 해결하기 위해, 본 연구에서는 SADRE(Saliency-Aware Diffusion Reconstruction)라는 새로운 워터마크 제거 프레임워크를 제안합니다. SADRE는 살리언시 마스크(saliency mask)를 활용한 노이즈 주입 및 확산 기반 복원 기술을 적용하여 이미지의 중요한 부분은 보존하면서 워터마크만 효과적으로 제거합니다. 또한, 적응형 노이즈 조정을 통해 다양한 워터마크 강도에 대응하며, 역확산(reverse diffusion) 과정을 거쳐 고품질의 이미지 복원을 보장합니다. 실험 결과, SADRE는 PSNR, SSIM, Wasserstein 거리, Bit Recovery Accuracy 등 주요 성능 지표에서 최신 워터마킹 기법보다 뛰어난 성능을 보였습니다. 이를 통해 이론적 강건성과 실용적 효과성을 모두 갖춘 새로운 워터마크 제거 솔루션을 제시하며, 실세계 웹 콘텐츠에서 신뢰할 수 있는 기술로 활용될 수 있음을 입증했습니다.
-
- 작성일 2025-03-04
- 조회수 2151