Variational Inference

Motivation

VAE 기반 추천 시스템 (Variational Autoencoder for Collaborative Filtering) 에서

x: 유저의 시청 기록 = [1, 0, 0, 1, 1, 0, …] (영화 클릭 여부 벡터)
z: 유저의 잠재 성향/임베딩 (ex. 로맨스를 좋아함, 액션은 별로 안 좋아함)

유저가 어떤 잠재 변수를 가졌는 지 알면, 비슷한 분포의 유저에게 같은 영화를 추천해 줄 수 있다! 즉, \(p(z \mid x)\)를 구해야 한다. 하지만, \(p(z\mid x)\)를 직접 구하는 것은 매우 어렵다.

\(p(z \mid x) = \frac{p(x, z)}{p(x)}\)인데, \(p(x) = \int p(x, z) dz\) \(p(x)\)는 intractable

MCMC를 사용하면 해결되긴 하지만, 속도가 너무 느림

Idea

posterior 분포 \(p(z \mid x)\) 를 적당히 근사할 수 있는 분포 \(q(z)\)로 대체해서 복잡한 계산을 없애자.

여기서 \(q(z)\)는 우리가 다루기 쉬운 분포를 사용하자. ex. gaussian, GMM, beta 등
분포의 파라미터(ex. \(\mu, \sigma\))를 적당히 바꿔가면서 \(p(z \mid x)\)랑 가장 유사해지는 분포를 찾자.

\(q(z) \approx p(z\mid x)\)가 되게끔 KL divergence를 최소화하는 방법으로 구할 수 있다.

\[q^*(z) = \arg \min_q \, \text{KL}(q(z) \,\|\, p(z\mid x))\]

여기서, ELBO를 최대화 하는 방법으로 KL을 divergence를 최소화 할 수 있다.

KL divergecne의 정의에 의해,

\[\begin{aligned} D_{\text{KL}}(q(z) \parallel p(z \mid x)) &= \mathbb{E}_{q(z)} \left[ \log \frac{q(z)}{p(z \mid x)} \right] \\ &= \mathbb{E}_{q(z)} \left[ \log q(z) - \log p(x, z) + \log p(x) \right] \\ &= \mathbb{E}_{q(z)} \left[ \log q(z) - \log p(x, z) \right] + \log p(x) \\ \end{aligned}\]

따라서,

\[\log p(x) = \mathbb{E}{q(z)} \left[ \log p(x, z) - \log q(z) \right] + D{\text{KL}}(q(z) \parallel p(z|x))\] \[\log p(x) = \mathcal{L}(q) + D_{\text{KL}}(q(z) \parallel p(z|x))\]

ELBO는 다시, 다음과 같이 나타낼 수 있다.

\[\mathcal{L}(q) = \mathbb{E}_{q(z)}\left[ \log \frac{p(x, z)}{q(z)} \right]\] \[\log \frac{p(x, z)}{q(z)} = \log \frac{p(x \mid z)p(z)}{q(z)} = \log p(x \mid z) + \log \frac{p(z)}{q(z)}\] \[\begin{aligned} \mathcal{L}(q) &= \mathbb{E}_{q(z)} \left[ \log p(x \mid z) + \log \frac{p(z)}{q(z)} \right] \\ &= \mathbb{E}{q(z)}[\log p(x \mid z)] + \mathbb{E}{q(z)}\left[\log \frac{p(z)}{q(z)}\right] \end{aligned}\] \[\mathcal{L}(q) = \mathbb{E}{q(z)}[\log p(x \mid z)] - D{\text{KL}}(q(z) \parallel p(z))\]

첫 번째 항은 “잠재 변수 z가 분포 q(z)를 따른다고 가정할 때, z로부터 x를 설명하는 로그확률의 평균”을 의미한다.

두 번째 항은 잠재 변수 \(z\)가 인코더 \(q(z \mid x)\) 에서 너무 “마음대로” 분포를 갖지 않도록 사전 분포 p(z)에 가깝게 유도하는 정규화(regularization) 역할을 한다.

ELBO 최대화
\[argmax_q ELBO = argmax_q E[logp(x \mid z) + logp(z)] - E[logq(z)]\]
여기서 q는 다변량 함수이다. 변수들 간 correlation이 존재하고 서로 다른 분포의 joint를 구하는 것은 매우 어렵다.

MFVI (Mean Field Variational Inference)

분포간의 correlation을 모두 무시하고, 변수들을 독립적으로 근사하자.

\[q(z) = \prod_{j=1}^{J} q_j(z_j)\] \[ELBO = -KL[q_j \mid \exp(\mathbb{E}_{i \ne j}[\log p(x, z)])] + C\]

따라서, KL divergence를 최대화 하기 위해선,

\[q_j(z_j) \propto \exp \left( \mathbb{E}_{i \ne j}[\log p(x, z)] \right)\]

확률 분포로 만들기 위해 아래처럼 정규화(normalizing constant)를 붙여준다.

\[q_j(z_j) = \frac{\exp(\mathbb{E}{i \ne j}[\log p(x, z)])}{\int \exp(\mathbb{E}{i \ne j}[\log p(x, z)]) dz_j}\]

각 \(j\)에 대해:

다른 모든 \(q_i\)를 고정
\(q_j\)만 업데이트
1, 2의 과정을 ELBO가 수렴할 때까지 반복한다.

Monte Calro Approximation

기대값을 계산할 수 없을 때, 샘플링을 통해 근사하는 방법

Motivation

어떤 확률분포 \(p(\theta)\) 아래에서, 어떤 함수 \(f(\theta)\)의 평균을 알고 싶은 상황.

\(\mathbb{E}_{p}[\theta] = \int \theta \cdot p(\theta) \, d\theta\) 이런 형태의 계산은 머신러닝, 베이지안 추론, 강화학습 등에서 자주 등장한다.

Idea

적분 대신 샘플 몇 개 뽑아서 평균을 내자.

\(\mathbb{E}{q(z)}[\log p(x|z)] \approx \frac{1}{L} \sum_{l=1}^{L} \log p(x \mid z^{(l)}), \quad z^{(l)} \sim q(z)\)

\(z\)를 \(q(z \mid x)\)에서 샘플링한다.
디코더 \(p(x \mid z)\)에 넣는다.
log likelihood 계산한다.
- 보통 \(L = 1 \sim 5\) 정도만 해도 잘 작동한다.

Sampling

Inverse CDF

특정 분포를 샘플링 하기 위해서, \(z \sim Uniform(0,1)\) 의 z를 transformation을 통해 우리가 원하는 분포로 옮겨주자. 원하는 분포 T는 어떻게 찾을 수 있을까?

\(T(z) = X\) 가 되도록 하는 \(T\)를 찾아보자.

\[F_X(x) = p(X\geq x) = p(T(z)\geq x) = p(z \geq T^{-1}(x)) = T^{-1}(x)\] \[F_X(x) = T^{-1}(x)\] \[T(x) = F_X^{-1}(x)\]

분포가 복잡할 때, Inverse CDF를 구하기 어렵다는 단점이 있다.

Rejection Sampling

우리가 샘플링하고 싶은 분포:

\[p(z) = \frac{1}{Z_p} \tilde{p}(z)\]

\(\tilde{p}(z)\): unnormalized density (비정규화 상태)
\(Z_p\): 정규화 상수 (보통 모름)
이런 상황에서는 Rejection Sampling을 사용한다.

Proposal 분포 \(q(z)\)와 scaling factor \(k\)를 사용해 \(kq(z) \geq \tilde{p}(z)\) 가 되는 범위를 덮도록 한다.

\(z_0 \sim q(z)\) 에서 샘플링
\(u_0 \sim \text{Uniform}(0, kq(z_0))\).
\(u_0 \leq \tilde{p}(z_0)\)이면 accept, 아니면 reject

accept될 확률: \(p(\text{accept}) = \int \frac{\tilde{p}(z)}{kq(z)} q(z) dz = \frac{1}{k} \int \tilde{p}(z) dz\)

수식 유도

\[p(\text{accept} \mid z) = \int_0^{\tilde{p}(z)/kq(z)} \frac{1}{kq(z)} du = \frac{\tilde{p}(z)}{kq(z)}\] \[q(z) p(\text{accept} \mid z) = \frac{\tilde{p}(z)}{k}\] \[kp(\text{accept}) = \int \tilde{p}(z) dz = Z_p\] \[p(z) = \frac{\tilde{p}(z)}{Z_p} = \frac{q(z) \cdot p(\text{accept} \mid z)}{p(\text{accept})}\]

→ rejection sampling을 통해 \(p(z)\)에서 제대로 샘플링한 것과 같아진다!

단점
- 고차원에서는 \(k\)를 매우 크게 잡아야 함
- reject 비율이 커지고, 학습이 느려짐
- → 고차원에선 비효율적이다

Importance Sampling

기대값이 알고싶을 때 사용, 기대값 근사.

\[E[f] = \int f(z)p(z)dz \rightarrow E[f] \approx \sum^L_{l=1}p(z^{(l)})f(z^{(l)})\] \[E(f) = \int f(z)\frac{p(z)}{q(z)}q(z)dz \rightarrow E[f] \approx \frac{1}{L}\sum^{L}_{l=1}\frac{p(z^{(l)})}{q(z^{(l)})}f(z^{(l)})\]

proposal \(q(z)\) 가정. \(q(z)\)에서 sampling

\(\tilde{p}(z)\)와 \(\tilde{q}(z)\)를 통해 구할 수 있다. 상수배 한 비율만 구할 수 있음. \(\tilde{r_l} = \tilde{p}(z^{(l)})/\tilde{q}(z^{(l)})\)

MCMC (Markov Chain Monte Carlo)

Motivation

Variational Inference는 정확한 posterior 샘플링이 불가능함.

rejection sampling, importance sampling은 high-dimensional 문제에서 잘 작동하지 않음.

Idea

proposal distribution \(q(z)\)을 설정한다.
이전 샘플 \(z^{(m)}\)에 기반해 새로운 \(z^{(m+1)}\)를 생성한다.
이 과정을 반복하면, 생성된 샘플 분포가 posterior \(p(z \mid x)\)로 수렴한다.

기존 Monte Carlo는 \(q(z)\)를 고정하고 샘플링하지만,
MCMC는 \(q(z)\)를 매 스텝마다 이동시키며 적응적으로 \(p(z)\)를 근사한다.

Markov Chain

다음 상태 \(z^{(m+1)}\)는 오직 현재 상태 \(z^{(m)}\)에만 의존한다.

\[p(z^{(m+1)} \mid z^{(m)}, z^{(m-1)}, \dots, z^{(0)}) = p(z^{(m+1)} \mid z^{(m)})\]

따라서 초기 확률과, 전이 확률만 있으면 모든 샘플을 만들어 낼 수 있다.

즉, \(p(z)\)를 stationary distribution으로 갖는 마르코프 체인을 만드는 것이 목표이다.

Stationary Distribution

목표: 마르코프 체인의 분포가 수렴하여 posterior 분포 \(p(z \mid x)\)가 되는 것
\[p^*(z) = \sum_{z'} T(z', z) p^*(z')\]
Detailed Balance Equation: \(p^*(z) T(z, z') = p^*(z') T(z', z)\)

이 조건을 만족하면 \(p^*(z)\)는 stationary 함.

수렴 조건 모든 Markov Chain이 수렴하는 것은 아니다.
수렴하려면 다음 두 조건이 필요함:
- Irreducible: 모든 상태 쌍 간 전이 가능
  \(p(z^{(m)} = b \mid z^{(1)} = a) > 0\)
- Aperiodic: 특정 주기 없이 상태를 다시 방문 가능
  \(\gcd(m : p(z^{(m)} = a \mid z^{(1)} = a) > 0) = 1\)

Metropolis-Hastings Algorithm

기본 Metropolis Proposal: 대칭 분포 \(q(z^*|z) = q(z|z^*)\)
\[A(z^*, z^{(\tau)}) = \min\left(1, \frac{\tilde{p}(z^*)}{\tilde{p}(z^{(\tau)})}\right)\]
Metropolis-Hastings (일반화된 MH)
\[A_k(z^*, z^{(\tau)}) = \min\left(1, \frac{\tilde{p}(z^*) q_k(z^{(\tau)} \mid z^*)}{\tilde{p}(z^{(\tau)}) q_k(z^* \mid z^{(\tau)})}\right)\]
- \(q_k(z^* \mid z^{(\tau)})\): asymmetric proposal 분포
- MH는 detailed balance를 만족하므로 \(p(z)\)로 수렴함
- 단점
  - proposal 분포의 variance가 너무 크면 → 거의 다 reject됨
  - variance가 작으면 → 샘플 이동이 느림 (convergence 느림)
  - 고차원에서는 변수마다 적절한 variance 조절이 어려움

Gibbs Sampling

각 변수에 대해 조건부 분포를 순차적으로 샘플링
특히 high-dimensional 문제에서 효과적
기본 아이디어
\[p(x, y) \Rightarrow \text{직접 샘플링 어려움} \Rightarrow p(x \mid y),\; p(y \mid x) \text{ 로 분할 샘플링}\]
- 항상 accept됨 (reject 없음)
- Markov blanket 기반으로 조건부 독립 구조를 활용
Markov blanket:
해당 변수의 부모 + 자식 + 자식의 부모로 구성됨

HMC (Hamiltonian Monte Carlo)

단순한 랜덤 걷기 대신, 물리 기반 운동량 정보를 이용해서 더 효율적으로 샘플링

구성 요소
- \(x\): 위치(position), \(w\): 운동량(momentum)
- 총 에너지 함수 (Hamiltonian):
\[H(x, w) = U(x) + K(w)\]
Hamiltonian Dynamics:

\[\frac{dx}{dt} = \frac{\partial H}{\partial p}, \quad \frac{dp}{dt} = -\frac{\partial H}{\partial x}\]

작동 방식
1. 무작위 운동량 \(w_0\) 샘플링
  \(p(w) \propto \exp(-V(w))\)
2. Leapfrog 통합법으로 \(x, w\)를 시간 단위 \(\epsilon\)만큼 업데이트
3. MH-style accept/reject
\[a(x_0, w_0, x_T, w_T) = \min\left(1, \frac{\exp(-H(x_T, w_T))}{\exp(-H(x_0, w_0))} \right)\]
- 에너지가 보존되므로 accept 비율이 높음
- detailed balance 만족 → posterior 수렴 보장