<๋ค์ด๊ฐ๊ธฐ์ ์์>
๋ณธ ๊ธ์ ๋ ผ๋ฌธ์ ์์ธ ๋ด์ฉ์ ๋ค๋ฃจ๋ ํฌ์คํ ์ ์๋์์.
๋ค๋ง, ๋ ๊ฐ์ ๋ ผ๋ฌธ์ด ํ๋์ ์ด๋ฆ์ผ๋ก ๋ถ๋ฆฌ๊ณ ์๊ธธ๋, '์ด์ ๋ํ ํผ์ ์ ์ ๋ฆฌํ๋ ๊ธ์ ์จ๋ณด์'ํ๋ ๋ง์์ผ๋ก ๊ธ์ ์ผ์ต๋๋ค.
๋ฌผ๋ก ๊ฐ๋ตํ๊ฒ ๊ฐ๊ฐ์ ๋ ผ๋ฌธ ๋ด์ฉ์ ๋ค๋ฃจ๊ณ ์๊ธฐ๋ ํฉ๋๋ค๋ง, ์์ธํ ๋ด์ฉ์ ๊ฐ ๋ ผ๋ฌธ ๋ด์ฉ์ ์ค๋ช ํ๋ ๊ธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์.
๊ฐ์ฌํฉ๋๋ค.
์๋ ํ์ธ์. ์ค๋์ ๊ฐ์ธ์ ์ผ๋ก ํฅ๋ฏธ๋ก์ ๋ ํ์์ ๋ํด ์ ์ด๋ณผ๊น ํฉ๋๋ค.
์ด ๋ณธ๋ฌธ์ ์ฝ๊ณ ๊ณ์ 99.9 % ์ ๋ถ๋ค์ "CVAE"๋ผ๋ ํค์๋๋ฅผ ๊ฒ์ํ์ จ์ ๊ฒ ๊ฐ์์. ์ฌ๋ฌ๋ถ์ด ์ด ๊ธ์ ํด๋ฆญํ์ค ๋ ์๊ฐํ์ CVAE๋ ์ด๋ค ๋ ์์ธ๊ฐ์? ์ง๋ฌธ์ด ์ด์ํ์ฃ ? ์ ๊ฐ ์ค๋ ์ด ๊ธ์ ์ฐ๊ธฐ๋ก ๋ง์๋จน์ ๋ฐ๋ ์ด์ ๊ฐ ์์ต๋๋ค. ์ ๊ฐ ๊ฒ์์ ํ๋ค๊ฐ ๋ฐ๊ฒฌํ ํ์์ด ์๋๋ฐ, ๋ฐ๋ก ๋ ๊ฐ์ (์ ๊ดํ์ง๋ง ์๋ก ๋ค๋ฅธ) ๋ ผ๋ฌธ์ด Conditional Variational Auto-Encoder (CVAE)๋ผ๋ ํ๋์ ์ด๋ฆ์ผ๋ก ๋ช ๋ช ๋๊ณ ์๋๋ผ๊ณ ์. ๊ทธ๋์ ๋ค์ ์ฃผ์ ๋ก ๊ธ์ ์จ๋ณด๋ ค๊ณ ํฉ๋๋ค.
๋๊ฐ ์ง์ง CVAE์ธ๊ฐ?
(๋๋ฅ)
CVAE๋ผ๋ ์ด๋ฆ์ ๋ ๋ ผ๋ฌธ
๋ณธ ๊ธ์ ๊ธฐํ์ ์ ๊ฐ CVAE ์คํ ์์ค ์ฝ๋๋ฅผ ๊ฒ์ํ๋ฉด ์๋ถํฐ์ ๋๋ค. ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ ๊ฐ ์ดํดํ ๋ด์ฉ์ ๊ฒ์ฆํ๊ธฐ ์ํด์ CVAE ์ฝ๋๋ฅผ ๊ฒ์ํ๊ธฐ ์์ํ๋๋ฐ, ๊ฒ์ํ๋ฉด ํ ์๋ก ๋ญ๊ฐ ์ด์ํ๋ค๋ ์๊ฐ์ด ๋ค์์ด์. ์ ๊ฐ ์ฝ์ ๋ ผ๋ฌธ ๋ด์ฉ๊ณผ ๋ง์ง ์์ github ์ฝ๋๊ฐ ์๊ฑฐ๋, ํน์ ์ ๊ฐ ์ฝ์ ๋ ผ๋ฌธ๊ณผ ๋ค๋ฅธ ๋ด์ฉ์ ์ค๋ช ๋ค์ด ์๋๋ผ๊ณ ์. ๊ทธ๋์ ์๊ฒ ๋ ๊ฒ, ์ฌ๋๋ค์ด CVAE๋ก ๋ถ๋ฅด๋ ๊ธฐ๋ฒ์ด ์์ ํ ๋ค๋ฅธ ๋ ๋ ผ๋ฌธ์ ๋ด์ฉ์ด๋ผ๋ ์ฌ์ค์ด์์.
ํ๋๋, DP Kingma ์์ ์จ (?)์ (Kingma et al. "Semi-supervised Learning with Deep Generative Models", NIPS 2014)์ด๊ณ , ๋ค๋ฅธ ํ๋๋ ์ดํ๋ฝ ๊ต์๋ ๋ฉ์์ ๋์จ (Sohn et al. "Learning Structured Output Representation using Deep Conditional Generative Models" NIPS 2015)์ ๋๋ค. ์ ๊ฐ ๊ฒ์ํ๋ฉด์ ํฅ๋ฏธ๋ก์ ๋ ์ ์ด, Kingma ์์ ์จ ๋ ผ๋ฌธ ๋ด์ฉ์ ๊ตฌํํ github ์ฝ๋์ธ๋ฐ ๋ ํผ๋ฐ์ค๋ก Sohn et al. ์ด ๋ฌ๋ ค์๋ค๊ฑฐ๋ (Readme ์์ ํ PR ๋ ๋ ธ์ด์), (Sohn et al.) ๋ ผ๋ฌธ ์ค๋ช ์ (Kingma et al.)์ ๋ ผ๋ฌธ ์ฝ๋๊ฐ ์ฒจ๋ถ๋์ด ์๋ ๊ฒฝ์ฐ๋ค์ด ์๋๋ผ๊ณ ์. ์ฌ์ง์ด, ๋ช๋ช ๋ ผ๋ฌธ์์๋ ๋ ํผ๋ฐ์ค๋ฅผ ์๋ชป ๋ค๋ ๊ฒฝ์ฐ๋ ์์์ด์.
๊ทธ๋ฐ๋ฐ, ๊ทธ๊ฑฐ ์์๋์? ๋๋๊ฒ๋ Kingma et al. ๋ ผ๋ฌธ์ ๋ณธ๋ฌธ์๋ ํ ๋ฒ๋ Conditional Variational Auto-Encoder ํน์ CVAE๋ผ๋ ๋ง์ด ๋ฑ์ฅํ์ง ์์ต๋๋ค. ์ ํํ ๋ ผ๋ฌธ์์๋ Conditional generative model (M2)๋ผ๊ณ ๋ถ๋ฅด๊ณ ์์ต๋๋ค. ํ์ง๋ง ๊ทธ ๊ธฐ๋ฒ์ ์๊น์๋ฅผ ๋ณด์๋ฉด CVAE๋ผ๊ณ ๋ถ๋ฅด๋ ๊ฒ ๋๋ฌด ์์ฐ์ค๋ฌ์์. (์์ธํ ์ด์ ์ค๋ช ์ ๋ค์์ ํ ๊ฒ์.) ๋ฐ๋๋ก Sohn et al. ๋ ผ๋ฌธ์์๋ ๋ช ํํ๊ฒ CVAE ๊ธฐ๋ฒ์ ์ ์ํ๋ค๊ณ ์ด์ผ๊ธฐํ๊ณ ์์ด์. ์๋์ ๊ทธ๋ฆผ์ Sohn et al. ๋ ผ๋ฌธ์ ๋ณธ๋ฌธ์ธ๋ฐ์, ์ฌ๊ธฐ์ [15]์ ํด๋นํ๋ ๋ ํผ๋ฐ์ค๊ฐ ๋ฐ๋ก (Kingma et al. NIPS 2014) ๋ ผ๋ฌธ์ด์์.
ํฅ๋ฏธ๋กญ์ง ์๋์? ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋๊ฐ ์ง์ง CVAE์ธ๊ฐ์ ๋ํด ์ ๋ณด๊ณ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๋ผ๊ณ ํ์ ๋ค๋ฉด, ๋ ๋ค CVAE๋ผ๋ ์ด๋ฆ์ผ๋ก ๋ถ๋ฆด ์ ์๋ค๋ ๊ฒ๋๋ค. (Sohn et al., 2015) ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ ์ ์๋ค์ด ์ ์ ๊ธฐ๋ฒ ์ด๋ฆ์ CVAE๋ผ๊ณ ํ์๊ธฐ ๋๋ฌธ์ ๋ ผ๋์ ์ฌ์ง๊ฐ ์๊ณ , (Kingma et al., 2014)์ ๊ฒฝ์ฐ ์ด๋ฏธ ๋ค์ํ ํ์ ๋ ผ๋ฌธ๋ค์์ CVAE๋ผ๋ ์ด๋ฆ์ผ๋ก ํด๋น ๋ ผ๋ฌธ์ ์ธ์ฉํ๊ณ ์์ด์. (๋์ฑ์ด DP Kingma ์์ ์จ๊ฐ VAE ๋ ผ๋ฌธ์ ์ด ์ฅ๋ณธ์ธ์ธ ๋ฐ๋ค, VAE์ ๋ณํ + conditional generative model์ด๋ผ๊ณ ํ๋ conditional vae๋ผ๋ ์ด๋ฆ์ด ๊ฝค ์์ฐ์ค๋ฌ์ฐ๋๊น์)
์ด๋ฏธ ๋ง์ ์ฌ๋๋ค์ด (Kingma et al. 2014)์ Conditional generative model์ CVAE๋ผ๊ณ ๋ถ๋ฅด๊ณ ์๊ธฐ ๋๋ฌธ์ ๋๊ฐ ์ง์ง CVAE๋ค๋ฅผ ๋ ผํ๋ ๊ฒ์ ๋ฌด์๋ฏธํ ๊ฒ ๊ฐ์์. ๋ค๋ง, ์ด ๊ธ์ ์ฝ์ผ์๋ ๋ถ๋ค์ ๊ฒฝ์ฐ, CVAE์ ๋ํด์ ์ค๋ช ํ๋ ์๋ฃ๋ฅผ ๋ง๋์๊ฑฐ๋ ๋ ผ๋ฌธ์์ ์ธ์ฉํ์ค ๋ ๋ ํผ๋ฐ์ค ๊ด๋ฆฌ์ ์ ์ํ์ ์ผ ํ๋ค๋ ์ฌ์ค์ ์ ๋ฌํ๊ณ ์ถ์์ด์. ์๋ํ๋ฉด, ์๊ฐ๋ณด๋ค ๋ง์ ๋ฌธ์๋ค์์ ์ด๋ค์ ๋ ํผ๋ฐ์ค๋ฅผ ์๋ชป ๋ฌ๊ฑฐ๋, ๋ ๊ฐ์ ๋ด์ฉ์ ์์ด์ ์ค๋ช ํ๋ ๊ฒฝ์ฐ๋ค์ ๋ดค๊ฑฐ๋ ์. ์ด๋ฐ ์ฌ์ํ ๋ถ๋ถ์์ ๊ธ์ ์ ๋ขฐ๋๊ฐ ๊ฒฐ์ ๋๊ธฐ๋ ํ๊ณ , ๋๋ถ๋ถ ๊ทธ๋ฐ ๋ชฉ์ ์ผ๋ก ๊ธ์ ์์ฑํ์ ๋ค๋ฉด ์ฝ๋ ๋ ์๋ค์ด ๊ทธ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฐฐ์ธ ํ๋ฅ ์ด ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ช ํํ ํด๋ณด๋ ๊ฒ ์ข์ง ์์๊น ์ถ์์ต๋๋ค.
๊ธ์ ์์ํ๊ธฐ์ ์์ ๋งํ๋ ์ฃผ์ ์ ๊ฒฐ๋ก ์ด ๋ฒ์จ ๋๋ฒ๋ ธ๋ค์. ํ์ง๋ง, ์ฌ๊ธฐ์์ ๋ง๋ฌด๋ฆฌํ๊ธฐ๋ ์กฐ๊ธ ์์ฌ์ฐ๋, ๊ฐ ๋ ผ๋ฌธ์ ๊ธฐ๋ฒ์ด ์ด๋ป๊ฒ ์๊ฒผ๊ธธ๋ CVAE๋ผ๊ณ ์ด๋ฆ์ด ๋ถ์๋์ง ๊ฐ๋ตํ ์ค๋ช ํด ๋ณผ๊ฒ์. ์๋์ ์ค๋ช ์ VAE๋ ์๊ณ ์๋ค๊ณ ๊ฐ์ ํ๊ณ ์์ฑํ๊ฒ ์ต๋๋ค.
CVAE๋ผ๊ณ ๋ถ๋ฆฌ๋ ๊ฐ๊ฐ์ ๋ ผ๋ฌธ์ ๋ํ์ฌ
๐ (DP Kingma et al. 2014)์ CVAE โฏ Conditional generative model (M2)
(Kingma et al. 2014)์์ ์ ์ํ๊ณ ์๋ Conditional generative model์ VAE์ ๋ณํ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค. VAE์ ๋์ผํ๊ฒ ์ ๋ ฅ $\boldsymbol{x}$์ log-likelihood๋ฅผ maximizationํ๋๊ฒ์ด ๋ชฉํ์ด์ง๋ง, ๊ธฐ์กด์ VAE๊ฐ ์ ๋ ฅ$\boldsymbol{x}$ ๊ณผ latent embedding $\boldsymbol{z}$๋ก๋ง ํํ๋์๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, Conditional generative model์์๋ label ์ ๋ณด์ธ $y$๊ฐ latent embedding $\boldsymbol{z}$๋ฅผ ์ถ๋ก ํ ๋ ์ฌ์ฉ๋ ๋ฟ ์๋๋ผ, $\boldsymbol{x}$๋ฅผ ์์ฑํ ๋๋ ์ฌ์ฉ๋๋ค๊ณ ๊ฐ์ ํ๊ณ ์์ต๋๋ค. ์ด๋ฅผ ์์ฝํ์ฌ VAE์ ๋น๊ตํ๋ฉด ์๋์ ํ์ ๊ฐ์ต๋๋ค.
VAE | (DP Kingma et al. 2014) Conditional generative model | |
Inference model | $q_{\phi}(\boldsymbol{z}\vert\boldsymbol{x})$ | $q_{\phi}(\boldsymbol{z}\vert\boldsymbol{x},y)$ $q_{\phi}(y\vert \boldsymbol{x})$ |
Generative model | $p_{\theta}(\boldsymbol{x}\vert \boldsymbol{z})$ | $p_{\theta}(\boldsymbol{x}\vert \boldsymbol{z}, y)$ |
์กฐ๊ธ ์ด๋ ต๊ฒ ๋๊ปด์ง์ ๋ค๋ฉด ์์ ํ๋ฅผ ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๊ฐ๋ตํ๊ฒ ํํํ ์ ์์ ๊ฒ ๊ฐ์์:
VAE์์ ์ธ์ฝ๋๊ฐ ์ถ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌ์ฑํ๊ณ , ๋์ฝ๋๊ฐ ์์ฑ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ตฌ์ฑํ๊ธฐ ๋๋ฌธ์, CVAE๋ ๊ฐ๊ฐ ์ธ์ฝ๋์ ๋์ฝ๋์ ์ถ๋ ฅ์ผ๋ก ๋ผ๋ฒจ ์ ๋ณด์ธ $y$๊ฐ ์ถ๊ฐ๋๋ ํํ๋ผ๊ณ ๋ณด์๋ฉด ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ฉด ์ค์ ์์ฑ๋ชจ๋ธ $p(\boldsymbol{x}\vert\boldsymbol{z}, y)$์ ํตํด ์ฃผ์ด์ง ๋ผ๋ฒจ ๊ฐ์ ๋ฐ๋ฅธ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ป์ ์ ์์ต๋๋ค. ๋ณธ ๋ชจ๋ธ์ ๋์์ ์ข ๋ ์์ธํ ์ค๋ช ํด ์ฃผ๋ ๊ทธ๋ฆผ์ ์๋์ ๊ทธ๋ฆผ์ ๋๋ค. ์ด ๊ทธ๋ฆผ์ ์ ๊ฐ ๊ทธ๋ฆฐ ๊ทธ๋ฆผ์ ์๋๊ณ ์. ์ดํ์๋์ slide share ์ฅํ์์ ๋ฐ์ทํ์์ต๋๋ค.
์ด ๊ทธ๋ฆผ์ probabilistic graphical model์ ์๋๊ณ , ๋คํธ์ํฌ์ ๋์์ ๊ฐ๋ตํํด ๋์ ๊ฑฐ์์. ($h$๋ ๋ ์ด์ด๋ผ๊ณ ์๊ฐํ์๋ฉด ๋ ๊ฒ ๊ฐ์์) ์์ ๊ทธ๋ฆผ์์ $y$์ ํด๋นํ๋ ๋ถ๋ถ์ ์์ ๋ฉด VAE์ ๋์๊ณผ ๊ฐ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ด์ ์์ ๋ณธ ๊ธฐ๋ฒ์ label ์ ๋ณด์ธ $y$๋ฅผ condition์ผ๋ก ํ๋ VAE๋ก ๋ณผ ์ ์์ด์. ๋ฐ๋ผ์, ๋ง์ ์ฌ๋๋ค์ด ๋ณธ ๊ธฐ๋ฒ์ conditional variational autoencodere, ์ฆ CVAE๋ก ๋ถ๋ฅด๊ณ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.
๐ (Sohn et al. 2015)์ CVAE
Sohn et al. ์ CVAE๋ ์ ์ด์ observation์ธ evidence $\boldsymbol{x}$์ log-likelihood $\log p(\boldsymbol{x})$๋ฅผ maximizeํ๋ ๊ฒ๊ณผ ํ์ต ๋ชฉํ ์์ฒด๊ฐ ๋ค๋ฆ ๋๋ค. ์ฃผ์ด์ง ์ ๋ ฅ $\boldsymbol{x}$๋ก๋ถํฐ high-dimensional output $\boldsymbol{y}$๋ฅผ ์ถ๋ก ํ๋ conditional distribution $p(\boldsymbol{y}\vert\boldsymbol{x})$์ ์ฐพ๋ ๊ฒ์ด CVAE์ ๋ชฉํ์ ๋๋ค. ์ฐธ๊ณ ๋ก ์ฌ๊ธฐ์ $\boldsymbol{y}$๋ label์ด ์๋๋๋ค. ๋ฌดํผ ๋ญ์ง๋ ๋ชจ๋ฅด๊ฒ ์ง๋ง ๊ณ ์ฐจ์์ ๋ฌด์ธ๊ฐ์์.
We model the distribution of high-dimensional output space as a generative model conditioned on the input observation. (์ค๋ต) The CVAE is a conditional-directed graphical model whose input observations modulate the prior on Gaussian latent variables that generate the outputs.
๋ ์์ธํ ๋ด์ฉ์ ์ค๋ช ํ๊ธฐ์ ์์, CVAE์ ํ์ฉ ์์๋ฅผ ๋จผ์ ๋ณด์ฌ๋๋ฆด๊ฒ์. ์๋์ ๊ทธ๋ฆผ์ Sohn et al. ๋ ผ๋ฌธ์ ์๋ ์คํ ๊ฒฐ๊ณผ์ ๋๋ค. ๋งจ ์์ค์ ground-truth ๊ทธ๋ฆผ์ 1/4์ ํด๋นํ๋ ์งํ ์์ญ์ด ์ ๋ ฅ $\boldsymbol{x}$๊ฐ ๋๊ณ , ์ฐํ์ ๋ถ๋ถ์ด ์ถ๋ ฅ์ธ $\boldsymbol{y}$ ๊ฐ ๋ฉ๋๋ค.
CVAE ๊ธฐ๋ฒ์ ์ ๋ ฅ ๋ณ์ $\boldsymbol{x}$, ์ถ๋ ฅ ๋ณ์ $\boldsymbol{y}$ ๊ทธ๋ฆฌ๊ณ ์๋ ๋ณ์ (latent vadriable) $\boldsymbol{z}$๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. (๋ค์ ํ๋ฒ ๊ฐ์กฐ, ์ฌ๊ธฐ์ $\boldsymbol{y}๋ Kingma et al. ๋ ผ๋ฌธ๊ณผ ๋ฌ๋ฆฌ ๋ผ๋ฒจ์ด ์๋๋๋ค) ์ด ์ธ ๊ฐ์ ๋ณ์์ ๊ด๊ณ ์ ์๋ฅผ ๋ฐํ์ผ๋ก CVAE ๊ธฐ๋ฒ์ด ์ ์๋๋๋ฐ์, ๋ค์์ ๊ทธ๋ฆผ์ CVAE์์ ์ธ ๋ณ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
์์ ๊ทธ๋ฆผ์์ ๋ณด์๋ฉด ์ผ๋ฐ์ ์ธ CNN์ด $\boldsymbol{x}$๋ก๋ถํฐ $\boldsymbol{y}$๋ฅผ ๋ฐ๋ก ์ถ๋ก ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ ์๋๊ฒ๊ณผ ๋ฌ๋ฆฌ, CVAE์ conditional graphical model (CGM)์ latent variable์ธ $\boldsymbol{z}$๋ก $\boldsymbol{y}$๋ฅผ ์ค๋ช ํฉ๋๋ค ($p(\boldsymbol{y}\vert\boldsymbol{x}, \boldsymbol{z})$). ์์ ๊ทธ๋ฆผ์์ (b)๋ generative model์ ๋ณด์ฌ์ฃผ๊ณ , (c)๋ inference model์ ๋ณด์ฌ์ฃผ๊ณ , (d)๋ ์ด๋ค์ ํฉ์ณ๋์ ํ์์ ๋ณด์ฌ์ค๋๋ค. (b)์ ์์ฑ๋ชจ๋ธ์ ์ดํด๋ณด๋ฉด, $\boldsymbol{y}$์ ์์ฑ ๋ชจ๋ธ์ด ๋จ์ํ $\boldsymbol{x}$๋ง์ ๊ฐ์ง๊ณ ์๋ ๊ฒ์ด ์๋๋ผ, ์ค๊ฐ์ $\boldsymbol{z}$ ์ญ์ condition์ผ๋ก ์ฐจ์ฉํฉ๋๋ค. ๋ฐ๋ผ์, (a) ๊ทธ๋ฆผ๊ณผ ๋ค๋ฅด๊ฒ $\boldsymbol{z}$๋ฅผ ์ฃผ์ ํจ์ผ๋ก์ ํ๋์ ์ ๋ ฅ $\boldsymbol{x}$๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ๋ฅ์ฑ ์๋ ์ถ๋ ฅ ๊ฐ์ ๋ง๋ค์ด๋ด๋ multi-modality๋ฅผ ๋ค๋ฃฐ ์ ์์ต๋๋ค.
multi-modality๋ one-to-many๋ฅผ ๊ฐ๋ฅํ๊ฒ ํด์. ์ด ๋ง์ ํ๋์ ์ ๋ ฅ์ผ๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ์ ๊ฐ๋ฅ์ฑ์๋ ์ถ๋ ฅ๋ค์ ์์ฑํด๋ผ ์ ์๋ค๋ ๊ฒ๋๋ค. CVAE์ ์ด๋ฌํ ํน์ฑ๋๋ฌธ์ multi-modality๋ฅผ ๊ณ ๋ คํด์ผํ๋ ๋ถ์ผ์์ ๋ง์ด ์ฐจ์ฉ๋๊ณ ์์ด์. (์, trajectory prediction ์ง๊ธ๊น์ง ๊ฑธ์ด์จ ๋ณดํ์์ trajectory๊ฐ ์๋ค๊ณ ํ์๋, ํ๋์ ์์ธก๊ฐ๋ง์ ๋ฐํํ๋ ๊ฒ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ฌ๋ฌ๊ฐ์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ํ์๊ฐ ์์ฃ .)
์ด๋ฌํ ์์ฑ ๋ชจ๋ธ์ ๊ฐ๋ CVAE๋ ์ด๋ป๊ฒ ํ์ต๋ ๊น์? ๋ค์ ์ฒ์์ผ๋ก ๋์๊ฐ์, CVAE์ ๋ชฉ์ ์ conditional log-likelihood maximization์ ๋๋ค. ๋ค์ ๋งํด์ $\log p(\boldsymbol{y}\vert\boldsymbol{x})$๋ฅผ ์ต๋ํํ๋ ๊ฒ์ธ๋ฐ, VAE์์์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ฅผ ๋ฐ๋ก maximizationํ์ง ๋ชปํ๊ณ ํด๋น ๊ฐ์ lower bound๋ฅผ maximizationํ๋ ํํ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ง๋๋ค. ๊ทธ๋ฆฌ๊ณ conditional log-likelihood์ lower bound๋ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ํ ์ ์์ต๋๋ค. (๋ ผ๋ฌธ์ ๋ณธ๋ฌธ๊ณผ ์กฐ๊ธ ๋ค๋ฅธ ํํ๋ก ์ ๋ํ์์ต๋๋ค)
$$ \begin{align*}
&\log p_{\theta}(\boldsymbol{y}\vert\boldsymbol{x}) \\
& = \log \int_z p(\boldsymbol{y},\boldsymbol{z}\vert\boldsymbol{z})\\ & = \log \int_z \frac{p(\boldsymbol{y}, \boldsymbol{z}\vert\boldsymbol{x})}{q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})} q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{z}\\ & \geq \int_z q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})\log\frac{p(\boldsymbol{y}, \boldsymbol{z}\vert\boldsymbol{x})}{q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})} dz \\&=\int_z q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})\log\frac{p(\boldsymbol{y}\vert \boldsymbol{z},\boldsymbol{x})p(\boldsymbol{z}\vert\boldsymbol{x})}{q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})} dz \\ &=-\text{KL}(q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})\vert\vert p(\boldsymbol{z}\vert\boldsymbol{x}))+\mathbb{E}_{q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})}[\log p(\boldsymbol{y}\vert\boldsymbol{x},\boldsymbol{z})]\end{align*}$$
CVAE์ conditional log-likelihood์ lower bound ๋ VAE์ ์ ์ฌํ๊ฒ regularizer์ expected reconstruction term์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฌ๊ธฐ์ ๋ค์ ์๋ ํญ์ ์ฐ์ฐ์ ์ํด VAE์ Stochastic Gradient Variational Bayes (SGVB)๋ฅผ ์ฌ์ฉํด์ reparameterization trick์ผ๋ก ์ฐ์ฐ๋ฉ๋๋ค.
(+) SGVB ์ฐ์ฐ ์ Monte-Carlo (MC) Sampling์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ธ๋ฐ, ๋ณธ ๋ ผ๋ฌธ์์๋ Impotance Sampling๋ ์ฌ์ฉํ์์ต๋๋ค. ์์ธํ ๋ด์ฉ์ ๋ ผ๋ฌธ์ ์ฐธ์กฐํ์๊ฑฐ๋, ์ถ ํ Importance Sampling๊ณผ ๊ด๋ จํ ๊ธ์ ์ธ ๋ ์๊ฐ๋๋ ค๋ณผ๊ฒ์.
๊ทธ๋ฌ๋ฉด ๊ตฌ์ฒด์ ์ผ๋ก conditional log-likelihood์ maximization์ ์ด๋ค ๋คํธ์ํฌ์ ๋ํด์ ์ด๋ฃจ์ด์ง๊น์? graphical model์ ๋ํ๋ $q(\boldsymbol{z}\vert\boldsymbol{x},\boldsymbol{y})$, $p(\boldsymbol{z}\vert\boldsymbol{x})$, ๊ทธ๋ฆฌ๊ณ $p(\boldsymbol{y}\vert\boldsymbol{x},\boldsymbol{z})$ ๋ฅผ ํํํ๋ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋ ผ๋ฌธ์์ ์์ฑ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ค์ $\theta$๋ก, ์ถ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ $\phi$๋ก ๋ํ๋ด๊ณ ์์ง๋ง, ์๋ฐํ ์๋ฏธ์์ generative model์ ์ฌ์ฉ๋๋ ๋คํธ์ํฌ๋ ๋ ๊ฐ์ธ ์ ์ ๋๋ค.
์ด๋ ๊ฒ ๋ณด๋, (D.P. Kingma 2014)์ ๋ ผ๋ฌธ๊ณผ ๋ชฉ์ ๋ถํฐ ๊ทธ ํํ๊ฐ ๊ต์ฅํ ๋ค๋ฅด๋ค๋ ๊ฒ์ ์์๊ฒ ๋์? ์ข ๋ ์์ธํ ์ค๋ช ํ๋ ค๋ฉด ๋ณธ ๊ธ์ ์ทจ์ง์๋ ๋ฉ์ด์ง ๊ฒ ๊ฐ์ผ๋, ๋ ์์ธํ ๋ด์ฉ์ ํ์ํ๋ค๋ฉด ๋์ค์ ๋ค๋ค๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ์ด์ ๋ง๋ฌด๋ฆฌ, CVAE ๋ ผ๋ฌธ์ ์ CVAE๋ผ๊ณ ์ด๋ฆ์ ๋ถ์์๊น์? VAE์ ๋ณํ์ด๋ผ๊ณ ํ๊ธฐ์๋ ๋ชฉ์ ํจ์๋ถํฐ ๋ชจ์์ด ๋ฌ๋ผ์ ํท๊ฐ๋ฆฌ๋๋ฐ ๋ง์ด์ฃ . ์ ์๋ค๋ ์ด์ ๋ํด์ ๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ณ ์์ต๋๋ค.
conditional distribution์ ๋ถํฌ๋ฅผ variational inference ๋ฐฉ์์ผ๋ก ์ถ์ ํ๋ค๋ ์ ์์, ๊ทธ๋ฆฌ๊ณ ๊ทธ ์ถ์ ๊ณผ์ ์์ SGVB๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์์ VAE์ ๋ณํ์ผ๋ก ๋ณผ ์ ์๊ณ , conditional likelihood์ ๋ํ VAE ํํ๋ฅผ ์ ์ฉํ๊ณ ์์ผ๋ฏ๋ก CVAE๋ผ๊ณ ์ด๋ฆ ๋ถ์ธ ๊ฒ ๊ฐ์ต๋๋ค.
๋ง๋ฌด๋ฆฌ,
๊ธ์ ์์ฌ๊ฐ ์๊ฐ๋ฌ์ ๋, ๊ฝค ๋์์ด ๋ ๋งํ ์์ฌ๋ผ๊ณ ์๊ฐํ์ต๋๋ค. ์ ๊ฐ ์ฐพ์๋ณด๋ ์ ์ฅ์์๋ ํผ๋์ค๋ฌ์ด ์ฝํ ์ธ ๊ฐ ๋ง์๊ณ , ๋ ํผ๋ฐ์ค๊ฐ ์์ผ์๋ค๋ ๋๋์ ๋ง์ด ๋ฐ์๊ฑฐ๋ ์. ๊ทธ๋ฌ๋ฉด์๋ ํํธ์ผ๋ก๋ '๋ด๊ฐ ์ง๊ธ ์๋ชป ์๊ฐํ๊ณ ์๋ ๊ฑด ์๋๊น?'๋ผ๋ ์๊ฐ๋ ๋ค์์ด์. ๊ทธ๋์ ๋๊ตฐ๊ฐ๋ ์๋ชป๋ ์ค๊ฐ๋ ์ ๋ง๋ค๊ณ ์๊ฐํ ์๋ ์๊ฒ ๋ค๋ ์๊ฐ์ด ๋ค์ด ๊ธ์ ์ฐ๊ฒ ๋์์ต๋๋ค. ๋์์์ด ๊ธ์ ์ฐ๋ค ๋ณด๋, ์ค๋ฅ๊ฐ ์์ ์ ์์ด์. ๋ฐ๊ฒฌํ์ ๋ค๋ฉด ์ธ์ ๋ ์ง ์๋ ค์ฃผ์๋ฉด ํฐ ๋์์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ฌ๋ด.
์ ๋ ์์ฆ ์ ๋ฌธ์ ์ธ ๊ธ์ ์ฝ๊ฒ ์ค๋ช ํ ์ ์๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ์๋ ์๊ฐ์ ๊ฐ๊ณ ์์ด์. (๊ทธ๋์ ๋ธ๋ก๊ทธ๋ฅผ ์์ํ์ต๋๋ค) ์ง์ง ๊ณ ์๋ค์ ์์ฒญ ์ด๋ ค์ด ๋ด์ฉ๋ ์ง์ง ์ฝ๊ฒ ์ค๋ช ํ์์์. ์ ๋ ์์ง ์์ฒญ ์ด๋ ค์ด ๋ด์ฉ์ ์์ฒญ ์ด๋ ต๊ฒ ์ค๋ช ํ๋ ๊ฒ๋ ๋ฏธ์ํ์ง๋ง, ์ต๋ํ ์ง๊ด์ด๋ ์ดํด๋ฅผ ์ ๋ฌํ ์ ์๋ ๊ด์ ์์ ๊ธ์ ์ ์ด๋ณด๋ ์ฐ์ต์ ํ๊ณ ์์ด์. ๋ค์์๋ ์กฐ๊ธ ๋ ์ ์ตํ ๊ธ์ ๊ฐ์ง๊ณ ์๋ณผ๊ฒ์.
์ด ๊ธ์ ์์ฑํ๋ ์ค์ ๋๋ํํธ๋ฅผ ํ๋ฒ ๋ ๋ ธ์ด์. ์์์ ์ฅ์ ํด๊ฐ๋ฉด์ ์ฐ๊ณ ์์๋๋ฐ, ์์์ ์ฅํ ๋๋ํํธ๊ฐ ์ง์์ง ์ฑ๋ก ์๋์ ์ฅ์ด ๋ผ๋ฒ๋ ค์.... ๐จ ์์งํ ๋งํ๋ฉด ๋ค์ ์ฐ๊ธฐ ์ ๋ง ์ซ์์ด์. ํ์ง๋ง, ์ด ๊ธ์ด ๋๊ตฐ๊ฐ์๊ฒ๋ ๋์์ด ๋ ์๋ ์์ง ์์๊น๋ผ๋ ์๊ฐ์ด ๋ค์ด์ ๊พธ์ญ๊พธ์ญ ์ฒ์๋ถํฐ ๋ค์ ์ผ์ต๋๋ค. ์ฌ์ง์ด ๊ทธ๋ฆผ๋ ๋ค ๋ค์ ๊ทธ๋ ธ์ด์...๐ญ (์ ์ฅํ ํ์ ์์ ๊ฑฐ๋ผ ํ์ ํ๋ ๊ณผ๊ฑฐ์ ๋)
์๋ ๋ฒ์ ์์๋ ์ข ๋ ๋งํฌ๋ ์น์ ํ๊ณ , ์น๊ทผํ๋๋ฐ, ๋ ๋ฒ์งธ ์ฐ๋ค ๋ณด๋ ์ข ๋ฑ๋ฑํด์ก๋ค์. ํฐ์คํ ๋ฆฌ ๊ธ์ฐ๊ธฐ ํ๋ซํผ์ ์กฐ๊ธ ํ๊ฐ ๋ฌ๋ ๋ด ๋๋ค. ๊ทธ๋๋ ์กฐ๊ธ์ ๋์์ด ๋๋ ๊ธ์ด์๊ธธ ๋ฐ๋๋๋ค.
์ธ๋ค์ผ์ฉ ์ฌ์ง
๊ธ ์ฝ๋๋ผ ๋๋ฌด ๊ณ ์ํ์ จ์ผ๋,
๊ท์ฌ์ด ๊ฑฐ ๋ณด๊ณ ๊ฐ์ธ์
๋ โผ๏ธ