IN DEPTH CAKE/ML-WIKI (3) ์ธ๋ค์ผํ ๋ฆฌ์คํธํ Inductive Bias, ๊ทธ๋ฆฌ๊ณ Vision Transformer (ViT) ๋ค์ด๊ฐ๋ ๋ง Transformer๋ (CNN๋ณด๋ค) Inductive Bias๊ฐ ์ฝํ ๋คํธ์ํฌ๋ก, general-purpose ๋คํธ์ํฌ์ ์๋ก์ด ์งํ์ ์ฐ ๊ตฌ์กฐ๋ก ํ๊ฐ๋ฐ์ต๋๋ค. Inductive Bias๊ฐ ์ ๋ค๋ ๊ฒ์ ์๋ ์ ๊ฒ์ธ๋ฐ, ์ด๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ Inductive Bias๊ฐ ๋ฌด์์ธ์ง ๊ทธ๋ฆฌ๊ณ Inductive Bias๊ฐ ํ์ต์ ๋ผ์น๋ ์ํฅ์ ์ดํดํ ํ์๊ฐ ์์ต๋๋ค. ๋ณธ ๊ธ์์๋ ์ถ์ํ๋ ํํ๋ก Inductive Bias๋ฅผ ์ค๋ช ํด๋ณด๋ ค ํฉ๋๋ค. In computer vision, there has recently been a surge of interest in end-to-end Transformers, prompting efforts to replace hand-wired features or i.. <ML๋ ผ๋ฌธ> ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ Cui et al. "Class-Balanced Loss Based on Effective Number of Samples" (CVPR 2019) TL;DR Class imbalance ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๋ฐ์ดํฐ์ ๊ฐ ํด๋์ค์ ์ ํจ ๋ฐ์ดํฐ ์๋ฅผ ์ ์ํ๊ณ ์ด๋ฅผ ํ์ฉํ re-weighting๊ธฐ๋ฐ Class Balance Loss ๊ธฐ๋ฒ ์ ์. ๋ฌด์จ ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋? ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ (์๋ฅผ๋ค์ด CIFAR-10, 100, ImageNet ๋ฑ)์ด ํด๋์ค ๋ผ๋ฒจ ๋ถํฌ๊ฐ ๊ท ์ผํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ์ค์ ์ํฉ์์๋ ๋ชจ๋ ํด๋์ค์ ๋ฐ์ดํฐ ์๊ฐ ๊ท ์ผํ๊ฒ ์์ง๋์ง ์๋, Long Tail ํ์์ด ๋ฐ์ํ๋ค. ์ฌ๊ธฐ์ Long Tail์ด๋ผ๊ณ ํจ์, ๊ฐ ํ์ต ๋ฐ์ดํฐ ์ ํด๋์ค ๋ณ ์ํ ์์ ๋ํ ๋ถํฌ๋ฅผ ๊ทธ๋ ธ์ ๋ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด, ์์์ ํด๋์ค์ ๋ํด์ ๋ฐ์ดํฐ ์ํ ์๊ฐ ๋ง์ ๋ฐ ๋ฐํด (Head) ๋ค์์ ํด๋์ค์์ ๊ธฐ๋์น ์ดํ์ ์ํ ์๋ฅผ ๊ฐ๋ (.. <ML๋ ผ๋ฌธ> CVAE์ ๋ํ์ฌ (feat. ๋๊ฐ ์ง์ง CVAE์ธ๊ฐ? ํ๋์ ์ด๋ฆ, ๋ ๊ฐ์ ๊ธฐ๋ฒ) ๋ณธ ๊ธ์ ๋ ผ๋ฌธ์ ์์ธ ๋ด์ฉ์ ๋ค๋ฃจ๋ ํฌ์คํ ์ ์๋์์. ๋ค๋ง, ๋ ๊ฐ์ ๋ ผ๋ฌธ์ด ํ๋์ ์ด๋ฆ์ผ๋ก ๋ถ๋ฆฌ๊ณ ์๊ธธ๋, '์ด์ ๋ํ ํผ์ ์ ์ ๋ฆฌํ๋ ๊ธ์ ์จ๋ณด์'ํ๋ ๋ง์์ผ๋ก ๊ธ์ ์ผ์ต๋๋ค. ๋ฌผ๋ก ๊ฐ๋ตํ๊ฒ ๊ฐ๊ฐ์ ๋ ผ๋ฌธ ๋ด์ฉ์ ๋ค๋ฃจ๊ณ ์๊ธฐ๋ ํฉ๋๋ค๋ง, ์์ธํ ๋ด์ฉ์ ๊ฐ ๋ ผ๋ฌธ ๋ด์ฉ์ ์ค๋ช ํ๋ ๊ธ์ ์ฐธ๊ณ ํด์ฃผ์ธ์. ๊ฐ์ฌํฉ๋๋ค. ์๋ ํ์ธ์. ์ค๋์ ๊ฐ์ธ์ ์ผ๋ก ํฅ๋ฏธ๋ก์ ๋ ํ์์ ๋ํด ์ ์ด๋ณผ๊น ํฉ๋๋ค. ์ด ๋ณธ๋ฌธ์ ์ฝ๊ณ ๊ณ์ 99.9 % ์ ๋ถ๋ค์ "CVAE"๋ผ๋ ํค์๋๋ฅผ ๊ฒ์ํ์ จ์ ๊ฒ ๊ฐ์์. ์ฌ๋ฌ๋ถ์ด ์ด ๊ธ์ ํด๋ฆญํ์ค ๋ ์๊ฐํ์ CVAE๋ ์ด๋ค ๋ ์์ธ๊ฐ์? ์ง๋ฌธ์ด ์ด์ํ์ฃ ? ์ ๊ฐ ์ค๋ ์ด ๊ธ์ ์ฐ๊ธฐ๋ก ๋ง์๋จน์ ๋ฐ๋ ์ด์ ๊ฐ ์์ต๋๋ค. ์ ๊ฐ ๊ฒ์์ ํ๋ค๊ฐ ๋ฐ๊ฒฌํ ํ์์ด ์๋๋ฐ, ๋ฐ๋ก ๋ ๊ฐ์ (์ ๊ดํ์ง๋ง ์๋ก ๋ค๋ฅธ) ๋ ผ๋ฌธ์ด .. ์ด์ 1 ๋ค์