paper reading

[paper] Visual Programming: Compositional visual reasoning without training

yungommi 2023. 7. 21. 14:20
반응형

modular program :

프로그램의 구조 설계에 따라서 분할된 프로그램 루틴(모듈)에 의해 구성된 프로그램. 그 복잡성을 감소시키기 위해 그 단위를 되도록 작게 해서 다루고, 하나의 모듈 내에서 다룰 수 있는 기능을 정리하여 다른 모듈에 대한 독립성을 높이는 것이 중요하다. 

 

CLIP(Contrastive Languate-Image Pre-training model) :

OpenAI에서 개발한 신경망 아키텍쳐로, 자연어를 이해하고 Computer Vision을 구현하는 등 인간의 언어/이미지를 컴퓨터로 처리할 수 있게끔 해주는 모델. 

CLIP는 ViT(Visual Transformer)와 Transformer언어모델(Transformer based language model) 을 결합하여 이미지와 텍스트를 모두 처리할 수 있게 만들어놓은 모델이다. 

여기서 ViT란 비지도학습을 통해 이미지에서 특징을 추출할 수 있도록 만들어진 CNN 모델이며, Transformer 모델은 사전훈련을 통해 텍스트 데이터를 학습해놓은 모델이다. CLIP 모델에 자연어를 입력할 경우 이를 임베딩으로 변환하여 77x768 숫자 값 목록이 생성되며, 이 임베딩의 숫자값을 바탕으로 이미지 처리가 가능한 것이다. 

 

임베딩 :

고차원 공간에서 단어나 이미지와 같은 데이터 조각을 수학적으로 표현한 벡터뭉치. 데이터 처리 시 각 데이터에 일대일로 대응하는 벡터를 만들어 이를 밀집된 벡터 뭉치로 두게 되는데 이를 임베딩이라 하는 것이다. 

임베딩은 복잡한 데이터를 보다 간결하고 의미 있는 방식으로 표현할 수 있기 때문에 유용하며, 주로 인간이 지각하는 이미지나 사람의 언어인 자연어를 컴퓨터에게 입력해서 인식하게 하는 데에 매우 강력한 방법이다. 

 

parser:

구조를 가진 대상 중에서도 자연 언어로 쓰여진 문이나 인공 언어로 쓰여진 프로그램을 문법 규칙에 따라 구문 해석하고, 그것이 문법에 합치하는지 여부를 조사하는 알

 

Deterministic : 

주어진 조건들을 만족하는 유일한 해가 존재한다는 가정하에서의 문제 접근 방법 <-> 통계적/ 확률론적 

 

Zero-shot : 

모델이 학습 과정에서 배우지 않은 작업을 수행하는 것/ 라벨링 되지 않은 새로운 클래스에 대한 분류 작업을 수행할 때, 이전에 학습된 모델을 사용하여 분류하는 기술.

(예를 들어, '강아지', '고양이', '토끼' 등의 동물 분류 모델이 있다고 가정해보겠습니다. 이 모델이 '사자'라는 클래스에 대해서는 학습되지 않았지만, '사자'라는 동물의 특징을 설명하는 텍스트 정보를 입력하면, 모델은 이를 이용하여 '사자'를 분류할 수 있습니다.)

반응형