[paper] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

paper reading

yungommi 2023. 7. 22. 18:23

트랜스포머 모델이란?

문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망.

attention/ self-attention이라 불리며 진화를 거듭하는 수학적 기법을 응용해 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지.

CNN 과 RNN(합성곱과 순환 신경망) 을 이제는 트랜스포머가 대체

라벨링은 없애고 성능은 높이고

Self-Attention:

Convolution Network(CNN):

인간의 시신경 모방. 이미지의 공간적 정보를 유지하고, fullly connected neural network 대비 연산량을 줄이고 이미지 분류에서 성능이 좋음.

Convolution(합성곱)이란?

convolution은 두 함수(f,g)를 이용해서 한 함수(f)의 모양이 나머지 함수(g)에 의해 모양이 수정된 제3의 함수(f*g)를 생성해주는 연산자로, 통계, 컴퓨터비전, 자연어처리, 이미지처리, 신호 처리 등 다양한 분야에서 이용되는 방법.

cross-correlation

위와 같이 9x4 => 4x4 로 계산량 줄어듦 / padding 과 stride 를 조절하여 컨트롤 가능

CNN의 기본골격:

input -> padding -> convolution layer -> pooling -> convolution layer -> pooling -> ... -> flattening -> output

Inductive Bias:

주어지지 않은 입력의 출력을 예측하는 것.

Models are brittle: 데이터의 input이 조금만 바뀌어도 모델의 결과가 망가지게 된다.

Models are spurious: 데이터의 본연의 의미를 학습하는 것이 아닌 결과(artifacts)와 편향(biases)를 학습하게 된다.

위 두가지 generalization problem을 해결하기 위해 inductive bias 이용

GELU(Gaussian Error Linear Unit):

BERT, GPT, ViT 모델에서 인코더 블락 안의 2-layer MLP구조의 활성화 함수로 ReLU 대신 GELU function 사용;

BERT (Bidirectional Encoder Representationbs from Transformers)

구글이 공개한 사전 훈련된 모델

레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고했음.

Fine-Tuning

다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인튜닝(fine tuning) 이라고 한다.