SEMINAR
Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs
Daeun Moon
2026.01.19
Large Vision-Language Model

Overview
- LVLM은 이미지와 텍스트를 함께 처리하지만 실제로는 이미지보다 텍스트에 더 의존하는 경향 존재
- 이로 인해 입력 이미지와 맞지 않는 hallucination이 발생
- 특히 image input이 제거되어도 동일한 응답이 생성되는 text inertia 문제가 핵심 원인
- PAI는 training 없이 attention과 logits를 조정하여 이미지 기반 응답을 강화하는 방법 제안
Key Takeaways
Problem Setting
- LVLM은 image encoder와 language model로 구성되며 image token이 text token보다 덜 활용됨
- text inertia로 인해 모델이 이미지보다 기존 텍스트 패턴에 의존
- image input이 없거나 바뀌어도 동일한 hallucinated output 생성 가능
- attention 분석 결과 image token에 대한 attention 비중이 낮음
Main Idea
- training 없이 inference 단계에서 image attention을 강화하는 방법 제안
- Text Inertia
- 모델이 이미지보다 텍스트 prior에 의존하는 현상
- image token이 충분히 활용되지 않아 hallucination 발생
- PAI (Pay Attention to Image)
- self-attention을 직접 수정하여 image token의 영향력 증가
- 이미지 기반 응답 방향으로 attention을 유도
- Step 1: Attention 추출
- 현재 token 생성 시 attention matrix를 계산
- image, instruction, history token을 분리하여 분석
- Step 2: Attention Intervention
- image token에 대한 attention weight를 증가
- trustful direction을 기반으로 이미지 정보 반영 강화
- Step 3: Attention Mode Prior
- BOS token 등 불필요한 attention 집중 현상 완화
- 적절한 layer에서 intervention 적용
- Logit Refinement
- 이미지 없이 생성된 분포를 기준으로 text prior를 억제
- image-conditioned prediction을 더 강조하도록 확률 조정
Result
- 다양한 decoding 방식에서 hallucination 감소 효과 확인
- QA, VQA, description 등 여러 설정에서 일관된 성능 개선
- GPT-4 기반 평가에서 accuracy와 detailedness 모두 향상
- 긴 응답에서도 이미지 기반 설명이 더 정확해짐
- 모델 크기와 관계없이 안정적으로 성능 개선
- attention visualization에서 실제로 image 영역에 더 집중하는 경향 확인