SEMINAR
Cross-modal Information Flow in Multimodal Large Language Models
Jiwon Kim
2026.04.10
Large Vision-Language Model

Overview
- Multimodal LLM은 image encoder와 LLM을 결합하여 이미지와 텍스트를 함께 처리
- 높은 성능에도 불구하고 내부에서 시각정보와 언어정보가 어떻게 결합되는지는 불명확
- 본 연구는 mechanistic interpretability 관점에서 cross-modal information flow를 직접 분석
- attention knockout을 활용해 실제 정보 전달 경로를 추적
Key Takeaways
Problem Setting
- 기존 interpretability 연구는 출력이나 특정 모듈 중심 분석에 집중
- multimodal에서는 modality 간 정보 흐름 자체가 핵심 문제
- 시각정보와 언어정보가 어디서 어떻게 결합되는지 명확하지 않음
- attention이 Transformer에서 유일한 정보 전달 경로이므로 이를 기반으로 분석
Main Idea
- attention을 선택적으로 차단하여 정보 흐름을 직접 분석하는 방법 사용
- Attention Knockout
- 특정 token 간 attention을 차단하여 정보 전달 경로 제거
- 성능 감소 정도로 해당 경로의 중요도 측정
- Information Flow 분석
- image → query → last position 흐름을 단계적으로 분석
- layer별 modality 기여도 측정
- Multi-stage Integration
- 초기 layer에서 global image context가 query로 전달되어 포괄적 representation 형성
- 중간 layer에서 query와 관련된 object-level 정보만 선택적으로 결합
- 통합된 정보는 이후 layer에서 최종 예측으로 전달
- Answer Generation 과정
- 중간 layer에서 semantic 수준의 정답이 먼저 형성
- 이후 layer에서 문법 및 형식 보정 수행
Result
- multimodal 결합은 단일 단계가 아니라 두 단계 구조로 진행
- query는 최종 예측에 가장 직접적인 핵심 경로
- image는 직접 영향보다 query를 통한 간접 영향이 중요
- 시각정보는 global → local 순서로 점진적으로 통합
- 최종 답변은 semantic 생성 이후 syntax refinement 과정을 거쳐 완성
- 다양한 모델에서 일관된 정보 흐름 패턴 확인