Inductive Bias, 그리고 Vision Transformer (ViT)

들어가는 말

Transformer는 (CNN보다) Inductive Bias가 약한 네트워크로, general-purpose 네트워크의 새로운 지평을 연 구조로 평가받습니다. Inductive Bias가 적다는 것은 양날의 검인데, 이를 이해하기 위해서는 Inductive Bias가 무엇인지 그리고 Inductive Bias가 학습에 끼치는 영향을 이해할 필요가 있습니다. 본 글에서는 추상화된 형태로 Inductive Bias를 설명해보려 합니다.

In computer vision, there has recently been a surge of interest in end-to-end Transformers, prompting efforts to replace hand-wired features or inductive biases with general-purpose neural architectures powered by data-driven training.
Chen et al. 2022 ICLR

_________________

🫥 일단 한마디로 설명해 보자면,

Inductive Bias란, ‘모델’이 자체적으로 (구조적으로) 가지고 있는 편견이다.

참고로, 여기서 말하는 “모델이 자체적으로”라는 말은 모델의 파라미터의 값에 대한 이야기라기보다는 모델의 구조를 말한다. 예를 들면 RNN이라고 한다면 ‘입력에서 출력으로까지 나오기까지 모델이 입력 데이터의 특징들을 재귀적으로 처리하는 구조’, CNN이라고 한다면 ‘입력 이미지에 대해서 지역적(local)인 픽셀 값들을 가지고 그다음 상위 정보를 산출하는 구조’ 말이다.

다르게 말하면,

모델이 입력데이터와 출력 데이터의 관계에 대해
내재적으로 가지고 있는 일종의 관점이라고 말할 수 있겠다.

🤔 조금 더 자세히 설명해 보자,

Inductive Bias에 대해서 조금 더 자세히 설명하려면, 기계 학습에서 말하는 ‘학습 (learning)이란 무엇인가’로 거슬러 올라가야 한다.

기계학습에서 학습은 결국 최적의 함수를 찾는 과정이라고 볼 수 있다. 문제는 세상의 모든 함수 (hypothesis)들 중에서 '최적'을 찾는 것이 어렵기 때문에 개발자들은 '이 중에서 찾아'라고 일종의 한정된 집단을 정해준다. 이를 Hypothesis Set이라고 한다. 그리고 기계 학습에서 Hypothesis Set은 모델의 구조에 의해서 결정된다.

참고로, 최적의 hypothesis를 찾는다는 것은 학습 데이터에 대해서만 잘 맞을 뿐 아니라 보지 못한 데이터에 대해서도 잘 맞춘다는 것을 의미한다 (즉, 일반화(generalization)가 잘 되는 것을 의미한다)

예를 들어, 문제가 주어지고 이를 Linear Regression 모델을 사용해서 풀고자 한다고 생각해 보자. 그러면 Hypothesis Set은 정의한 Linear Regression 모델이 표현할 수 있는 집합으로 한정될 것이고, Linear Regression 모델의 일반화 정확도를 최대로 할 수 있는 최적의 파라미터를 찾기 위해 학습을 수행할 것이다.

이때, Linear Reression 모델을 선택한다는 것은 종속 변수 y와 한 개 이상의 독립 변수 X 사이에 선형 관계가 있다는 가정이 내재되는 것이다. 다시 말해서, Linear Regression 모델은 종속 변수와 독립 변수 사이의 선형 관계라는 일종의 "귀납적인 편향"을 갖게 되는 것이다.

딥러닝 모델들과 Inductive Bias

이제 전형적인 딥러닝 모델들로 넘어와서 조금 더 이야기해 보자. 그러면 Fully Connected 모델이나 CNN, RNN 등이 갖는 Inductive Bias는 무엇일까? 아래 Table 1과 Figure 1은 (Battaglia et al. 18)에 정리된 내용이다. 대표적으로 CNN을 들여다보면, CNN의 convolution layer는 weight parameter를 지역적으로 공유함으로써 "인접한 값들 간에 유의미한 상관관계를 갖는다"는 편향을 갖게 된다.

Inductive Bias의 역할

Inductive Bias는 아까 말한 것처럼 Hypothesis Space를 결정하는 역할을 합니다. Hypothesis Space는 다른 표현으로 설명하자면 '최적의 모델을 찾는 공간'을 의미합니다. 전체 탐색 공간의 크기가 크다면 데이터의 일반화 관계를 더 잘 표현하는 hypothesis를 찾기 위해 상대적으로 많은 데이터가 필요하게 되고 탐색 공간의 크기가 작고 적절한 범위로 제한시켜 준다면 상대적으로 적은 데이터로도 최적의 hypothesis를 찾는 것이 쉬워집니다. 그렇기 때문에 더 적절한 Inductive Bias를 제공해 줄 수 있다면 더 적은 데이터셋으로도 일반화된 모델을 잘 찾을 수 있게 됩니다.

하지만 역으로 생각해 보면 Inductive Bias는 말 그대로 Bias, 즉 편견을 제공하게 됩니다. 모델이 갖고 있는 Inductive Bias가 데이터의 상관관계를 충분히 잘 표현할 수 있다면 문제 되지 않겠지만, 그렇지 않다면 오히려 표현해야 하는 영역을 아예 표현하지 못하게 될 수도 있습니다. 그렇기 때문에 Inductive Bias는 양날의 검이 될 수 있습니다.

그러한 관점에서 Vision Transformer (ViT)는 Inductive Bias가 상대적으로 낮은 모델로서 기존의 CNN 이 지역적 (local) 특징으로부터 전역적 (global) 특징을 찾아갔던 것과 달리, 처음부터 전역적인 특징을 찾으려고 합니다. 한마디로, 편견 없이 문제를 풀려고 한다고 생각하면 됩니다. CNN은 이미지라는 데이터를 해석하는 방식을 지역적 특징 ➣ 고차원적 특징을 해석하도록 제시하고 있는 반면 Transformer는 전체 데이터를 한 번에 해석하려고 한다고 이해할 수 있습니다. 그렇기 때문에 '편견 없는 더 일반화된 hypothesis'를 찾을 수도 있지만, 반면에 그만큼 충분한 데이터가 없으면 불가능합니다. Transformer에서 데이터가 적은 경우에 대한 연구 (Pre-Training, Augmentation 등)가 활발한 이루어진 이유입니다.

Transformers lack some of the inductive biases inherent to CNNs, such as translation equivariance and locality, and therefore do not generalize well when trained on insufficient amounts of data.

추가로 조금 더 설명해보자면

Vision Transformer (ViT) 논문은 왜 ViT가 CNN에 비해서 이미지 데이터에 대한 Inductive Bias가 부족한지를 추가로 설명하고 있습니다. 이미지 데이터를 분석하는 데 있어서 CNN은 parameter sharing을 통한 hierarchical view를 제공하는 반면, ViT에서 파라미터 공유는 MLP 레이어가 거의 유일합니다. 뿐만 아니라 ViT는 구조적으로 패치 간의 상관 관계 해석 방식 조차도 자체적으로 학습해야 합니다. (CNN은 픽셀 간 해석 방식을 'hierarchical'이라고 구조적으로 제시) 즉, 이미지 해석에 대해 패치 간의 상관관계 자체를 학습하도록 하는 자유를 더 주기 때문에 상대적으로 Inductive Bias가 더 낮고 이를 학습하기 위해 필요한 데이터 수가 더 많다고 이야기할 수 있습니다.

📚 Reference

Battaglia et al. "Relational inductive biases, deep learning, and graph networks"
Chen et al. "When Vision Transformer Outperform ResNets Without Pre-Training or Stron Data Ayugmentations", ICLR 2022.
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

저작자표시 비영리 변경금지

'IN DEPTH CAKE > ML-WIKI' 카테고리의 다른 글

<ML논문> 클래스 불균형 문제 Cui et al. "Class-Balanced Loss Based on Effective Number of Samples" (CVPR 2019) (22)	2023.08.10
<ML논문> CVAE에 대하여 (feat. 누가 진짜 CVAE인가? 하나의 이름, 두 개의 기법) (6)	2023.03.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Areumdawoon_🤍

Inductive Bias, 그리고 Vision Transformer (ViT)

들어가는 말

🫥 일단 한마디로 설명해 보자면,