SEMINAR

Cross-modal Information Flow in Multimodal Large Language Models

Jiwon Kim

2026.04.10

LVLM

Cross-modal Information Flow in Multimodal Large Language Models

VENUE2025 CVPR

PAPER LINKCVF Open Access

PDFPDF 다운로드

Overview

Multimodal LLM은 image encoder와 LLM을 결합하여 이미지와 텍스트를 함께 처리
높은 성능에도 불구하고 내부에서 시각정보와 언어정보가 어떻게 결합되는지는 불명확
본 연구는 mechanistic interpretability 관점에서 cross-modal information flow를 직접 분석
attention knockout을 활용해 실제 정보 전달 경로를 추적

Key Takeaways

Problem Setting

기존 interpretability 연구는 출력이나 특정 모듈 중심 분석에 집중
multimodal에서는 modality 간 정보 흐름 자체가 핵심 문제
시각정보와 언어정보가 어디서 어떻게 결합되는지 명확하지 않음
attention이 Transformer에서 유일한 정보 전달 경로이므로 이를 기반으로 분석

Main Idea

attention을 선택적으로 차단하여 정보 흐름을 직접 분석하는 방법 사용
Attention Knockout
- 특정 token 간 attention을 차단하여 정보 전달 경로 제거
- 성능 감소 정도로 해당 경로의 중요도 측정
Information Flow 분석
- image → query → last position 흐름을 단계적으로 분석
- layer별 modality 기여도 측정
Multi-stage Integration
- 초기 layer에서 global image context가 query로 전달되어 포괄적 representation 형성
- 중간 layer에서 query와 관련된 object-level 정보만 선택적으로 결합
- 통합된 정보는 이후 layer에서 최종 예측으로 전달
Answer Generation 과정
- 중간 layer에서 semantic 수준의 정답이 먼저 형성
- 이후 layer에서 문법 및 형식 보정 수행

Result

multimodal 결합은 단일 단계가 아니라 두 단계 구조로 진행
query는 최종 예측에 가장 직접적인 핵심 경로
image는 직접 영향보다 query를 통한 간접 영향이 중요
시각정보는 global → local 순서로 점진적으로 통합
최종 답변은 semantic 생성 이후 syntax refinement 과정을 거쳐 완성
다양한 모델에서 일관된 정보 흐름 패턴 확인

이전 글SpatialRGPT: Grounded Spatial Reasoning in Vision-Language Models

다음 글Federated Robustness Propagation: Sharing Robustness in Heterogeneous Federated Learning