SEMINAR

Cross-modal Information Flow in Multimodal Large Language Models

Jiwon Kim
2026.04.10
Large Vision-Language Model
Cross-modal Information Flow in Multimodal Large Language Models
VENUE2025 CVPR
PAPER LINKCVF Open Access

Overview

  • Multimodal LLM은 image encoder와 LLM을 결합하여 이미지와 텍스트를 함께 처리
  • 높은 성능에도 불구하고 내부에서 시각정보와 언어정보가 어떻게 결합되는지는 불명확
  • 본 연구는 mechanistic interpretability 관점에서 cross-modal information flow를 직접 분석
  • attention knockout을 활용해 실제 정보 전달 경로를 추적

Key Takeaways

Problem Setting

  • 기존 interpretability 연구는 출력이나 특정 모듈 중심 분석에 집중
  • multimodal에서는 modality 간 정보 흐름 자체가 핵심 문제
  • 시각정보와 언어정보가 어디서 어떻게 결합되는지 명확하지 않음
  • attention이 Transformer에서 유일한 정보 전달 경로이므로 이를 기반으로 분석

Main Idea

  • attention을 선택적으로 차단하여 정보 흐름을 직접 분석하는 방법 사용
  • Attention Knockout
    • 특정 token 간 attention을 차단하여 정보 전달 경로 제거
    • 성능 감소 정도로 해당 경로의 중요도 측정
  • Information Flow 분석
    • image → query → last position 흐름을 단계적으로 분석
    • layer별 modality 기여도 측정
  • Multi-stage Integration
    • 초기 layer에서 global image context가 query로 전달되어 포괄적 representation 형성
    • 중간 layer에서 query와 관련된 object-level 정보만 선택적으로 결합
    • 통합된 정보는 이후 layer에서 최종 예측으로 전달
  • Answer Generation 과정
    • 중간 layer에서 semantic 수준의 정답이 먼저 형성
    • 이후 layer에서 문법 및 형식 보정 수행

Result

  • multimodal 결합은 단일 단계가 아니라 두 단계 구조로 진행
  • query는 최종 예측에 가장 직접적인 핵심 경로
  • image는 직접 영향보다 query를 통한 간접 영향이 중요
  • 시각정보는 global → local 순서로 점진적으로 통합
  • 최종 답변은 semantic 생성 이후 syntax refinement 과정을 거쳐 완성
  • 다양한 모델에서 일관된 정보 흐름 패턴 확인