https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO202613372046599
[논문]어텐션 패턴 분석을 활용한 다층 프롬프트 인젝션 탐지 프레임워크
대규모 언어 모델(LLM)의 활용이 확대됨에 따라 사용자 입력을 악용하여 모델의 보안 정책을 우회하는 프롬프트 인젝션 공격이 급증하고 있다. 이를 방지하기 위해 제안된 기존의 방어 기법들은
scienceon.kisti.re.kr
논문 선정 이유
생성형 AI 도입이 늘면서 프롬프트 인젝션 공격이 급증하고 있다는 경향을 보게 되었다.
프롬프트 인젝션에 대해 좀더 알아보고 이를 탐지하고 방어하기 위한 방식에 대해 공부하기 위해 이 논문을 선정하게 되었다.
1. 서론
- 프롬프트 인젝션: 공격자가 악의적인 지시문을 사용자 입력이나 외부 데이터에 삽입하여 모델이 시스템 정책을 우회하도록 유도하는 공격 기법
- 최신 모델(ex. GPT-4o)도 외부 웹페이지에 삽입된 악성 지시로 내부 정보가 유출됨.
(단순한 명령어 우회를 넘어 역할 조작, 문맥 교란 등 공격 기법 정교해짐)
- 기존 소프트웨어 보안: 정형화된 입력 검증 기법으로 공격 탐지
<-> LLM: 자연어를 입력어로 처리 -> 기존 검증기법 적용 어렵(자연어의 비정형적 특성은 악의적 지시를 정상적인 문장 속제 은밀히 삽입하는 것을 가능하게 함: 프롬프트 인젝션의 핵심 취약점)
- 기존 방어 기법 한계: 정확도와 처리 속도 간의 trade-off 문제 해결 못함
- 규칙 기반 방식 ( ex) 금지어 기반 필터링 ) : 지연시간 낮음. 그러나 단어 변형이나 문맥 교란에 취약, 정교한 공격 탐지 불가
- 모델 기반 탐지 기법 ( ex) BERT ) : 문맥적 특징을 학습하여 높은 탐지율 보임. 그러나 연산비용이 크고 추론시간이 긺 -> 실시간 서비스 환경 적용 어렵
- Attention Tracker(어텐션 패턴 분석 기법) : 추가학습없이 공격탐지가능. 단일 모델로 다양한 공격유형 포괄적 탐지어렵
- 금지어 기반 필터링의 경량성과 Attention Tracker 기반 어텐션 패턴 분석의 정밀성을 결합한 다층 프롬프트 인젝션 탐지 프레임워크 제안.
1단계: 금지어 필터링으로 명시적인 공격 패턴을 신속하게 차단하여 시스템 부하 최소화
2단계: 1단계를 통과한 입력에 대해 LLM에 어텐션 가중치 변화를 분석하여 문맥 조작, 역할 변경, 감정 호소 등 정교한 공격 탐지
=> focus score를 통해 모델이 시슽메 명령에 할당하는 주의 집중도의 변화를 정량화하며 공격여부를 효과적으로 판별
2. 프롬프트 인젝션 공격 유형

- 명령어 우회 공격(Direct Instruction Override Attack)
: 시스템 프롬프트를 무시하도록 직접 지시. 기존 명령을 무력화하고 새로운 지시를 실행하도록 유도
(상대적으로 구조화된 패턴을 가지고 있어 키워드 기반 필터링을 통한 탐지 용이)
- 역할 조작 공격(Role Manipulation Attack)
: 모델에게 특정 역할이나 페르소나를 부여하여 보안 정책을 우회하는 공격. 모델의 정쳊성을 재정의하여 내부 방어 메커니즘을 비활성화
- 시스템 위장 공격(System Command Spoofing)
: 입력을 시스템 관리자 또는 개발자의 명령으로 위장. 시스템 메시지 형식을 모방하여 모델이 이를 신뢰할 수 있는 명령으로 인식하게 함
- 문맥 조작 공격(Context Manipulation Attack)
: 대화의 문맥을 조작하여 새로운 악성 지시 삽입. 이전 대화를 무효화하고 새로운 작업의 전환 유도
(모델의 순차적 처리 특성과 문맥 의존성을 악용하며, 다중 턴 대화에서 특히 효과적)
- 코드 삽입 공격(Code Injection Attack)
: 실행 가능한 코드나 위험한 시스템 명령을 프롬프트에 삽입. 코드 실행을 요청하거나, SQL 인젝션과 유사한 방식으로 데이터베이스 쿼리 조작
- 감정 호소형 공격(Social Engineering Attack)
:긴급성이나 감정적 표현을 사용하여 모델의 동정심 유발하고 정책을 간접적으로 우회하도록 유도. 감정에 호소하여 민감한 정보를 요청
(명시적 악성 키워드가 없어 키워드 기반 탐지 어렵)
=> 명시적 공격 패턴을 빠르게 차단하는 규칙 기반 방식과 간접적인 공격을 탐지하는 모델 기반 방식을 결합한 다층적 방어 체계 필요
3. 관련 연구
3.1 규칙 기반 탐지
: 사전 정의된 패턴을 기반으로 악성 입력 식별
- 우회 기법에 취약 ex)공격자읭 동의어 사용, 문장 구조 변형, 유니코드 문자 대체
- 명시적인 공격 키워드가 없는 간접적 공격 탐지 어려움 ex) 역할 조작, 감정 호소
대표 기법
- 금지어 기반 필터링(Blacklist Filtering)
: 공격에 자주 사용되는 키워드(ignore, override, disregard 등) 사전 정의, 입력에 해당 키워드가 포함되면 차단.
- 구현이 간단하고 처리 지연 거의 없어 실시간 서비스에 적합. 알려진 공격 패턴에 대해 높은 탐지율
- 정규 표현식 기반 패턴 매칭
: ignore, instruction, you are now 와 같이 공격 문장의 구조적 패턴을 정규식으로 정의하여 탐지하는 방식
- 단순 키워드 매칭보다 유연하게 변형된 표현을 탐지 가능
- 패턴 설계에 전문 지식이 필요하고 복잡한 패턴은 성능 저하를 유발할 수있음
- 안전 지시문 강화(Prompt Hardening)
3.2 모델 기반 탐지
: 머신러닝 또는 딥러닝 모델을 활용하여 입력의 문맥적 특징을 학습하고 규칙 기반으로 탐지하기 어려운 정교한 공격 식별
- Q. Lan
- 미세 조정된 BERT 기반 분류 모델을 활용한 탐지 시스템을 제안하여 높은 정확도 달성
- 모델 학습에 대량의 레이블링 된 데이터 필요
- 추론 시 상당한 연산 비용 발생
=> 실시간 서비스 환경 적용 어렵
- Attention Tracker
: LLM 내부의 어텐션 패턴을 추적해 공격 탐지
- 정상적인 입력에서는 모델의 마지막 토큰 어텐션이 기존 시스템 명령어에 집중하지만, 프롬프트 인젝션 공격이 발생하면 어텐션이 삽입된 악성 명령어로 이동한다는 점을 활용
- 추가적 학습, 외부 모델 없이 LLM 자체의 어텐션 가중치만으로 공격 탐지 가능
- 단일 모델만으로 다양한 공격유형 포괄적 탐지 어렵
- 임계값 설정에 따라 오답률 변동 가능
3.3 활성화 조작 기반 탐지
: 모델 내부의 표현 공간을 직접 모니터링하고 제어하여 공격 방어
(특정 레이어에서 고유한 활성화 패턴이 나타난다는 점을 이용)
3.4 기존 연구의 한계

4. 어텐션 패턴 분석 기반 프롬프트 인젝션 탐지 프레임워크
4.1 프레임워크
다층방어 프레임워크 전체구조

1. 사용자 입력 들어옴
2. 1단계 금지어 기반 필터링(Banned Termes Filtering)을 통해 명시적인 공격 패턴을 검사하여 공격으로 판별되면 즉시 차단하고, 통과한 입력에 대해서만 Focous Score 추출 수행
3. 추출된 Focus Score는 2단계 Attention Tracker로 전달되어 임곗값과 비교 후 최종 탐지 결정
(2단계 구조의 핵심 설계원칙
1. 1단계에서 계산 비용이 적은 규칙 기반 필터링으로 명시적인 공격 빠르게 차단 -> 전체 시스템 부하 최소화
2. 1단계를 통과한 입력에 대해 비교적 연산 비용이 큰 어텐션 분석을 수행해 정교한 간접 공격 탐지)
==> 정확도와 처리 속도 간의 trade-off 문제 해결
4.2 1단계: 금지어 기반 필터링
: 사용자 입력에 포함된 악성 키워드를 검사하여 직접적 공격 사전 차단
(문자열 검색만 수행하므로 계산 비용 거의 발생X)
=> 명시적 공격 패턴을 가진 입력을 빠르게 식별하여 차단, 전체 시스템의 처리 부하 최소화
검사 대상키워드(공격 특성에 따라 5가지로 분류)

- 악성 코드 패턴(Malicious Code Patterns)
: 시스템 명령 실행을 시도하는 코드 삽입 공격 탐지. 프로그래밍 언어나 운영체제의 위험한 명령어 패턴 포함
- 이스케이핑 문자(Escaping Characters)
: 특수문자나 인코딩을 이용한 우회시도 탐지
- 조작적 표현(Manipulative instruction)
: 명령어 우회 공격에서 자주 사용되는 표현 탐지. 기존 시스템 명령을 무시하도록 유도하는 문구 포함
- 스팸 유도 표현(Spam Triggers)
: 사용자를 속이거나 악성 행위를 유도하는 스팸성 문구 탐지
- 일반적인 주입 패턴(Common Injection Patterns)
: 시스템 메시지로 위장하는 공격 탐지. 권한을 사칭하는 형식 포함
4.3 Focus Score 추출
: LLM이 기존 시스템 명령어에 얼마나 집중하고 있는지를 정량적으로 측정하는 지표
(정상적 입력에서는 주로 기존 시스템 명령어에 집중됨
<-> 프롬프트 인젝션 공격 발생: 모델은 삽입된 악성 명령어를 더 중요 정보로 인식해 어텐션이 해당 위치로 이동)
어텐션 분포의 변화를 포착해 공격 여부 판별
다음의 세단계로 구성
1. 입력 처리(input Processing)
2. 중요 헤드 선택(Important Head Selection)
3. 점수 집계(Score Aggregation)
4.4 2단계: Attention Tracker 기반 탐지
: 추출된 Focus Score를 사전 정의된 임곗값 t와 비교해 최종 탐지 결정 내림
탐지규칙

임곗값t: 학습 데이터셋에서 정상과 공격 입력의 Focus Score 분포를 분석해 결정
- 너무 높은 임계값: 오탐(False Positive. 정상입력을 공격으로 오인)
- 너무 낮은 임계값: 미탐(False Negative. 탐지못함)
본 연구에서는 F1 Score를 최대화하는 임계값 선택
4.5 프레임워크 동작 흐름

1. 사용자 입력이 시스템에 들어옴
2. 1단계 금지어 기반 필터링에서 5개 카테고리의 악성 키워드 검사
3. 키워드가 탐지되면 즉시 차단 후 종료
4. 통과한 입력에 대해 어텐션 가중치 계산
5. 중요 헤드를 선택하고 Focus Score를 계산
6. 임곗값과 비교 후 최종 판정 내림
7. 공격 판정: 차단, 정상 판정: LLM응답 생성
- 전체 처리 시간 단축
- 시스템 부하 최소화
- 두가지의 상호 보완적인 탐지 방식을 결합해 직접적 공격과 간접적 공격 모두 높은 탐지 정확도 달성
5. 성능 평가 및 분석
5.1 실험 환경
- 경량 LLM모델 Qwen2-1.5B -> 실시간 서비스 환경에서의 적용 가능성 검증
- xTRaml 데이터셋 -> 중요 어텐션 헤드 선별을 위한 학습 데이터
5.2 데이터셋 구성
- 공격 유형별 변형을 포함한 23개의 악성 프롬프트 생성
- 공격유형별 프롬프트 구성

- 직접적 공격: 명시적인 악성 키워드를 포함하여 1단계 필터링의 성능을 평가
(Direct Instruction Override, System Command Spoofing, Code Injection)
- 간접적 공격: 명시적 키워드 없이 문맥을 조작해 2단계 Attention Tracker 성능을 평가하도록 구성
(Role Manipulation, Context Manipulation, Social Engineering)
5.3 평가지표
- 성능 평가 지표
탐지 정확도, 평균 지연 시간, 총 비용
5.4 비교 대상 방법
아래 세가지 비교
(1)금지어 기반 필터링을 단독으로 사용(Banned Terms) : 5개 카테고리의 금지어 목록 47개를 기반으로 탐지
(2)Attention Tracker : 1단계 필터링 없이 모든 입력에 대해 Focus Score 계산해 탐지
(3)제안 방법(Hybrid) : 위의 두가지를 결합한 2단계 다층 방어 프레임워크 적용해 평가
5.5 실험 결과

1) 탐지 정확도 분석
(1)
- 명시적 키워드가 있는 코드 삽입 및 일부 시스템 위장 공격: 탐지 가능
- 키워드가 없는 간접 공격: 대부분 탐지 불가
(2)
- 간접 공격: 일부 탐지
- 짧고 단순한 직접 공격: 탐지 실패 ( 일관성 없음 )
(3)
- 단일 방식들보다 약 2배높은 정확도

2) 지연 시간 및 비용 분석
(1)
속도가 매우 빠르고 비용이 가장 낮음.
그러나 정확도가 너무 낮아 단독 보안 솔루션으로 부적합
(2)
평균 지연 시간 매우 긺. 비용 가장 높음
(3)
(2)대비 시간 56%단축. 비용 중간. -> 효율성 가장 우수
3) 종합 분석
제안하는 다층방어 프레임 워크로 trade-off 해결

5.6 한계점 및 향후 연구
- 데이터셋 규모의 한계 -> 변형 공격에 대한 신뢰도 확보를 위한 추가적 검증 필요
- 적용 범위의 제한(API 형태로만 제공되는 모델에 직접 적용 어렵)
- 고도화된 감정 호소 공격 탐지 실패 -> 대화의 문맥적 의도를 파악하는 상위 레벨의 의미론적 분석 모듈 추가 필요
6. 결론
- 단순 키워드 매칭 방식만으로는 고도화된 의미론적 공격 탐지에 한계가 있음
- 제안된 프레임워크의 성능 평가 결과: 기존 단일 탐지 기법 대비 약 2배 향상된 83%의 탐지 정확도.
Attention Tracker 단독 운용 시와 비교해 지연 시간 50%이상 단축, 연산 비용 절감.
- 1단계: 명시적 공격 신속 차단
- 2단계: 잔여 입력의 문맥적 이상 징후를 정밀 분석하는 계층적 구조
=> 보안 성능과 시스템 효율성 간 균형 달성
배운점 및 느낀점
보안 연구에서는 정상입력을 공격으로 오인하는 오탐과 공격을 탐지 하지 못하는 미탐의 균형을 맞춰 정확도를 가장 끌어올릴 수 있는 지점을 찾는 것이 중요하다는 것을 알게되었다.
보안 시스템을 평가할 때 단순히 공격을 얼마나 잘 막는가만 보면 안되며, 위의 내용처럼 지연 시간과 운영 비용을 함깨 측정하여 고려해야만
실제 서비스 환경에 적용 가능한지 판단할 수 있다는 것을 알게 되었다.
금지어 필터링하는 규칙기반 방식과 어텐션을 분석하는 모델 기반 방식을 위 논문에서 제안된 프레임워크처럼 계층적으로 연결하면 각각 단일 방식의 한계를 상호보완 할 수 있다는 것을 알게 되었고,
실험과정과 결과를 보며 이렇게 설계하는 능력이 핵심이라는 것을 깨달았다.
'SWLUG(2026) > 논문분석' 카테고리의 다른 글
| [3] 논문분석 [스마트홈 보안을 위한 역할 기반 다중 인증 시스템 구현] (1) | 2026.05.12 |
|---|---|
| [2] 논문분석 [ 교육기관을 위한 클라우드 보안 관제 연동 체계 구축 방안 ] (0) | 2026.04.29 |
| [1] 논문분석 [클라우드 기반 랜섬웨어 복구 시스템 설계 및 구현] (0) | 2026.03.29 |