SEMINAR

Learning to (Learn at Test Time) RNNs with Expressive Hidden States

Yoohwan Lee

2026.04.30

Natural Language Processing

VENUE2025 ICML

PAPER LINKICML

Overview

hidden state를 고정 벡터가 아닌 학습 가능한 파라미터(가중치)로 확장
TTT Layer
- 기존 sequence layer(RNN, attention)를 대체 가능
- 동일한 interface 유지하면서 구조 교체 가능
- test-time에 hidden state 역할을 하는 weight W를 업데이트
Self-supervised Update
- 입력 xt마다 loss 계산 후 Wt 업데이트
- Wt = Wt-1 - η∇l(Wt-1; xt)
- 과거 context가 weight에 누적 저장
Inner / Outer Loop 구조
- inner loop: TTT layer parameter W 업데이트 (test-time 포함)
- outer loop: 나머지 네트워크 파라미터 θ 학습
- W는 hidden state처럼 동작
Self-supervised Task
- input을 training view / label view / test view로 분리
- reconstruction 기반 loss로 self-supervised 학습
- θK, θV, θQ는 outer loop에서 학습
Mini-batch TTT
- sequential dependency 문제 해결을 위해 mini-batch 기반 업데이트
- 일부 gradient 병렬화 가능
- online GD → batch GD → mini-batch GD로 확장
Dual Formulation
- 연산을 matmul 형태로 변환하여 GPU 효율 극대화
- 기존 O(b·d²) 연산을 matmul 기반으로 최적화
- 실제 구현에서 속도 향상 확인
Theoretical View
- TTT layer는 다양한 sequence 모델을 포함하는 일반화된 형태
- self-attention, linear attention 등과 이론적으로 연결