[paper] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
트랜스포머 모델이란?
문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망.
attention/ self-attention이라 불리며 진화를 거듭하는 수학적 기법을 응용해 서로 떨어져 있는 데이터 요소들의 의미가 관계에 따라 미묘하게 달라지는 부분까지 감지.
CNN 과 RNN(합성곱과 순환 신경망) 을 이제는 트랜스포머가 대체
라벨링은 없애고 성능은 높이고
Self-Attention:
Convolution Network(CNN):
인간의 시신경 모방. 이미지의 공간적 정보를 유지하고, fullly connected neural network 대비 연산량을 줄이고 이미지 분류에서 성능이 좋음.
Convolution(합성곱)이란?
convolution은 두 함수(f,g)를 이용해서 한 함수(f)의 모양이 나머지 함수(g)에 의해 모양이 수정된 제3의 함수(f*g)를 생성해주는 연산자로, 통계, 컴퓨터비전, 자연어처리, 이미지처리, 신호 처리 등 다양한 분야에서 이용되는 방법.
cross-correlation
위와 같이 9x4 => 4x4 로 계산량 줄어듦 / padding 과 stride 를 조절하여 컨트롤 가능
CNN의 기본골격:
input -> padding -> convolution layer -> pooling -> convolution layer -> pooling -> ... -> flattening -> output
Inductive Bias:
주어지지 않은 입력의 출력을 예측하는 것.
Models are brittle: 데이터의 input이 조금만 바뀌어도 모델의 결과가 망가지게 된다.
Models are spurious: 데이터의 본연의 의미를 학습하는 것이 아닌 결과(artifacts)와 편향(biases)를 학습하게 된다.
위 두가지 generalization problem을 해결하기 위해 inductive bias 이용
GELU(Gaussian Error Linear Unit):
BERT, GPT, ViT 모델에서 인코더 블락 안의 2-layer MLP구조의 활성화 함수로 ReLU 대신 GELU function 사용;
BERT (Bidirectional Encoder Representationbs from Transformers)
구글이 공개한 사전 훈련된 모델
레이블이 없는 방대한 데이터로 사전 훈련된 모델을 가지고, 레이블이 있는 다른 작업에서 추가 훈련과 함께 하이퍼파라미터를 재조정하여 이 모델을 사용하면 성능이 높게 나오는 기존의 사례들을 참고했음.
Fine-Tuning
다른 작업에 대해서 파라미터 재조정을 위한 추가 훈련 과정을 파인튜닝(fine tuning) 이라고 한다.