220v
젝무의 개발새발
220v
전체 방문자
오늘
어제
  • 분류 전체보기 (255)
    • AI (35)
      • ML, DL 학습 (30)
      • 논문 리뷰 (4)
      • 실습 및 프로젝트 (1)
    • Algorithm (145)
      • LeetCode (13)
      • 프로그래머스 (35)
      • 백준 (96)
      • 알고리즘, 문법 정리 (1)
    • Mobile, Application (17)
      • Flutter (10)
      • iOS, MacOS (7)
    • BackEnd (7)
      • Flask (1)
      • Node.js (5)
      • Spring, JSP..etc (1)
    • Web - FrontEnd (18)
      • JavaScript, JQuery, HTML, C.. (12)
      • React (6)
    • DataBase (1)
      • MySQL (1)
      • Firebase Firestore (0)
      • Supabase (0)
    • Git (1)
    • 기타 툴 및 오류 해결 (3)
    • 강의 (5)
      • Database (3)
      • 암호학 (2)
      • 알고리즘 (0)
    • 후기와 회고 (2)
    • 블로그 꾸미기 (1)
    • 일상과 이것저것 (20)
      • 맛집 (12)
      • 세상사는일 (4)
      • 도서리뷰 (1)
      • 이런저런 생각들 (잡글) (3)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • two pointer
  • dp
  • implementation
  • Dynamic Programming
  • binary search
  • Prefix Sum
  • bitmasking
  • union-find
  • topological sort
  • brute-Force
  • 다익스트라
  • 프로그래머스
  • 위상 정렬
  • 오블완
  • top-down
  • disjoint set
  • IMPLEMENT
  • Greedy
  • 구현
  • 백준
  • 티스토리챌린지
  • Mathematics
  • Minimum Spanning Tree
  • dfs
  • Backtracking
  • REACT
  • BFS
  • simulation
  • Lis
  • Priority Queue

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
220v
AI/논문 리뷰

[논문 리뷰] BLIP (Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation)

[논문 리뷰] BLIP (Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation)
AI/논문 리뷰

[논문 리뷰] BLIP (Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation)

2025. 2. 21. 16:44

[딥러닝 논문 리뷰 시리즈]

노션에서 작성한 글을 옮겼으며, 아래 노션에서 더 깔끔하게 읽으실 수 있습니다.

>>노션 링크<<

 

BLIP (Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation) | Notion

Reference

skillful-freighter-f4a.notion.site

 

Abstract & Introduction

Background, Motivation

  • Vision-Language Pre-training(VLP)은 대규모의 Image와 Text pair를 통해, 모델이 여러 Vision-Language task(Image-text Retrieval, Image Captioning, VQA, …)에 활용될 수 있도록 pre-train하는 기법이다.
  • 하지만 기존의 많은 VLP 접근들은 “이해 기반(understanding-based)” 혹은 “생성 기반(generation-based)” 둘 중 하나에만 강점이 있었다. 예를 들어, CLIP(Radford et al., 2021) 같은 모델은 Image-text matching, Retrieval과 같은 understanding-based task에는 뛰어나지만, text를 직접 생성(Image Captioning 등)하는 task에는 활용하기 어렵다는 한계가 있었다.
  • 또한, 최근에는 웹에서 수집한 대규모의 image-text pair를 통해 pre-train을 수행하는 경우가 많았다. 이 데이터에는 noise가 많이 들어가 있었으나, Dataset의 규모 확장으로 인해 얻는 성능의 향상에 비하면 작은 수준이었기에 noise에 의한 부정적 영향 자체가 간과되고 있었다.

논문(BLIP)의 Main Contribution

  1. Model Perspective: 하나의 모델에서 이해(understanding)와 생성(generation)을 모두 수행할 수 있도록, Multimodal Mixture of Encoder-Decoder(MED)라는 새로운 구조를 제안한다.
  2. Data Perspective: noise가 많은 image-text pair data를 그대로 쓰지 않고, CapFilt라는 새로운 bootstrapping 방식을 이용해 데이터 품질을 개선한다.
    • Captioner: 웹 image에 대해 synthetic text를 생성.
    • Fliter: 원본 text, 생성된 text가 image와 부합하는지 판별하여 noise 제거.
  3. 이러한 구조를 가진 BLIP framework를 통해 다양한 downstream task에서 SOTA(State-of-the-Art)에 준하거나 뛰어넘는 성능을 달성하였다.

Model: Multimodal Mixture of Encoder-Decoder (MED)

기존 접근방식의 한계

  • Encoder-only 모델(e.g., CLIP, ALBEF)은 Image-Text Matching(Retrieval)이나 Classification, Retrieval 등 understanding-based task에는 적합하지만, autoregressive한 text generation을 수행하기 어렵다.
  • Encoder-Decoder 모델(e.g., VL-T5, SimVLM)은 text generation task에는 유리하지만, image-text retrieval 같은 task에서 encoder만 사용하기에는 구조가 비효율적이거나 충분한 성능이 나오지 않을 수 있다.

Autoregressive Text Generation: 간단하게는, 이전의 token들을 기반으로 확률적으로 가장 높은 다음 token을 예측하며, linear하게 text를 생성해내는 과정이라고 보면 된다.

MED의 핵심 설계

본 논문에서는 위와 같은 한계점을 해결하고자, 아래 3가지 기능(모듈) 중 하나를 실행할 수 있는 multi-task model을 제안한다.

하나의 통합된 Architecture에서, 학습 시에는 세 유닛 모두가 각각의 Loss를 통해 동시에 학습되며, Inference 시에는 세 가지 유닛(기능) 중 하나가 downstream task에 따라 선택적으로 activate되는 것.

  1. Unimodal encoder
    • Image는 ViT로 Embedding, Text는 BERT의 text encoder로 embedding한다.
    • 이 때 Image, Text 각각의 vector embedding을 얻는다. (즉, image-text 간의 Cross-Attention을 수행하지 않는다.)
    • 주 목적: 이미지-텍스트 간 전반적인 feature space 정렬(contrastive alignment).
  2. Image-grounded text encoder
    • Text encoder의 각각의 transformer block 내부에, Self-Attention(SA) layer와 Feed-Forward Network(FFN) 사이에 Cross-Attention(CA) layer를 추가한다. 이를 통해 Image에서 뽑아낸 Vision embedding과 text간 상호작용을 학습한다.
    • 문장 앞에 [Encode] 와 같은 task-specific한 special token을 넣어, 최종적으로 [Encode] token의 embedding을 image-text multimodal representation으로 간주한다.
    • 주 목적: Vision-language의 정교한 alignment를 포함하는 image-text multimodal representation을 학습하여, 주어지는 image-text pair의 matching 여부를 판별하는 것.
  3. Image-grounded text decoder
    • Text encoder의 Bidirectional Self-Attention layer를 Casual Self-Attention layer로 변경하여, Autoregressive한 text generation을 수행할 수 있도록 한다.
    • [Decode] token을 sequence의 시작으로, [EOS] token을 sequence의 끝으로 사용한다.
    • 주 목적: Image에 대한 text generation (Image Captioning, VQA와 같은 downstream task)

Casual Self-Attention: 일반적인 Bidirectional Self-Attention을 수행할 때는 앞뒤의 모든 input token을 고려하여 각 token의 representation을 학습. -> text understanding 수행.
Casual Self-Attention은 앞의(이전의) token만을 고려하여 현재 단어를 예측. 이후의 token은 모두 masking한 상태로 attention을 수행. -> autoregressive text generation 수행.

위 3가지의 모듈이 각각 개별적으로 나눠져 있는 것이 아니라, 하나의 통합된 모델로써 학습되며, task에 따라 특정 기능을 활성화하여 작동하는 것이다.
이 과정에서 text encoder, text decoder의 Embedding, Cross-Attention, Feed-Forward 등의 layer의 parameter를 서로 공유하고, Self-Attention layer만 서로 다른 parameter를 갖는다.
이런 방식이 학습에 있어서 효율도 좋고, 서로 다른 task에서 학습한 parameter가 시너지를 낸다.


Pre-training Objectives

본 논문에서는 Pretrain 시점에 3가지 Loss Function을 동시에 optimize한다. 한 개의 image-text pair에 대해 위 3개의 모듈을 모두 거쳐 학습하되, ViT(Image Encoder)는 계산 효율성을 위해 한 번만 거친다.

  1. Image-Text Contrastive Loss(ITC Loss)
    • Unimodal encoder에서, Image, text embedding을 통해 Contrastive learning을 수행한다. 이를 통해 두 transformer(image, text)의 feature space가 잘 align되도록 한다.
    • CLIP, ALBEF 등에서도 사용되었던 방식으로, cosine similarity(vector similarity)를 통해 positive pair간의 거리가 가까워지도록 학습한다.
  2. Image-Text Matching Loss(ITM Loss)
    • Image-grounded text encoder에서, image-text multimodal representation이 vision-language의 alignment를 정밀하게 잘 수행하고 표현하였는 지를 학습하도록 한다.
    • 이를 위해 image-text가 match되었는지, 아닌지를 예측하는 Binary Classification task로써 접근한다.
    • ITC에서 전역(global) 레벨의 맞춤만을 본다면, ITM은 문장 레벨에서 더 세부적으로 두 입력이 실제 매칭된 것인지 학습한다.
    • Contrastive 하나의 batch 내에서 가장 유사도 높은 음성 쌍(“hard negative”)에 대해 loss를 계산할 확률이 높도록 학습한다. (hard negative mining strategy)
  3. Language Modeling Loss(LM Loss)
    • Image-grounded text decoder에서, image가 주어졌을 때 textual description(caption)을 generate하도록 학습한다.
    • VLP에서 자주 사용되는 BERT류 MLM(Masked Language Modeling)을 쓰는 대신, 순방향 LM(causal LM)을 사용함으로써, 일반화 능력을 통해 visual information으로 caption을 생성할 수 있도록 한다.
    • 이로써, Image Captioning이나 VQA 등의 text generation이 필요한 작업에서 높은 성능을 낼 수 있다.

Hard Negative Mining: 단순한 BCE(Binary Cross Entropy)를 사용하여 학습을 수행하게 되면, 중간에 loss optimization이 더 이상 진행되지 않을 수 있음. 따라서, 분류가 어려운 (similarity는 높으나, 실제로 negative pair인)sample이 training 시 더 많이 관여할 수 있도록 한다.
“Align before fuse: Vision and language representation learning with momentum distillation” (Li 등, 2022, p. 10) Li et al. (2021a) (Li 등, 2022, p. 3)


CapFilt: Bootstrapping Noisy Web Data

문제의식

  • 웹에서 크롤링한 대규모 image-text pair의 개수는 매우 많지만, 텍스트(alt-text 등)가 실제 이미지를 제대로 서술하지 않거나 의미가 빈약한 경우가 상당히 많다.
  • 기존에는 데이터가 많으면 모델이 “어느 정도 noise를 무시하고 학습한다”는 가정으로 단순 확대를 시도했지만, 여전히 noise가 성능 상 한계를 초래한다.

CapFilt 개념

BLIP는 Captioning and Filtering(CapFilt)이라는 방식으로, 노이즈가 포함된 웹 텍스트를 ‘bootstrapping’한다.
이는 두 모듈, Captioner와 Fliter로 이루어져 있으며, 둘 모두 Pre-trained MED model로 initialize하여 COCO dataset으로 finetuning되었다.

  1. Captioner(이미지 → 텍스트 생성):
    • Captioner 모듈은 Image-grounded text decoder 기능으로 동작한다.
    • LM loss로 image에 대한 text를 생성하도록 fine-tuning되었다.
    • web Image(I_w)가 주어졌을 때, 하나의 image 당 하나의 caption을 generate한다. (synthetic caption, T_s)
  2. Filter(이미지 & 텍스트 → 노이즈 판별):
    • Filter 모듈은 Image-grounded text encoder 기능으로 동작한다.
    • ITC, ITM loss로 image가 text와 match하는 지에 대해 fine-tuning되었다.
    • Captioner가 생성한 text(T_s) 또는 web text(T_w)가 실제 image와 match되는지(ITM)를 분류해 noise일 경우 걸러낸다.
  3. Captioner로 생성한 “synthetic caption” 중 Filter가 통과시킨 것 + 원래 웹 텍스트 중 Filter가 통과시킨 것 + 인간이 주석한 고품질 텍스트(예: COCO) → 이 모든 데이터(image-text pair)를 합쳐 새로운 “clean + augmented” 데이터셋을 만든다.
  4. 마지막으로, 이 bootstrapping된 데이터셋으로 새로운 모델을 다시 학습(Pre-train)하여 성능을 높인다.

성능 향상을 위한 세부 전략

  • 논문에서는 Captioner가 문장 생성 시 Nucleus Sampling을 활용해, 더 다양성(diversity) 있는 캡션을 얻어내야 성능이 좋아진다고 보고한다.(deterministic 한 decode 방식을 사용하는 beam search보다 성능 향상, Table 2)
  • Filter와 Captioner를 동시에 사용하면, noise text 제거와 함께 새로운 visual information이 반영된 문장까지 확보할 수 있다.
  • Captioner, Filter 모두 pretraine된 MED를 COCO dataset으로 lightweight finetuning하여 추가 비용이 크지 않다.
  • 여러 라운드를 반복하거나, 하나의 이미지에 대해 여러 캡션을 생성하는 등 추가적인 발전 가능성도 열려 있다.
  • pre-training 시 text encoder와 decoder가 self-attention layer를 제외한 모든 parameter를 공유하는 것이 더 성능이 좋았다. [Table 3]

SA Layer의 paramter를 공유하는 것은 오히려 성능이 떨어졌다.
SA Layer가 encoding task / decoding task 각각의 특성을 가지고 작업을 수행하고 있기 때문.

Pre-train 시 Captioner와 Filter의 parameter를 공유하는 것 또한 오히려 성능이 떨어졌다.
Captioner에서 생성된 noise caption이 filter에 의해 잘 걸러지지 않은 것을 확인할 수 있었다. [Table 4]

Nucleus Sampling (Top-p Sampling): “The Curious Case of Neural Text Degeneration”, Holtzman et al., 2020 (Li 등, 2022, p. 5).


Experiments & Results

본 논문에서는 크게 다섯 가지의 대표적인 Vision-Language downstream task(Image-text Retrieval, Image Captioning, VQA, NLVR2, VisDial)에서 BLIP의 성능을 평가하고, 기존 SOTA 모델들과 비교한다. 또한 Video-text task(video QA, text-to-video retrieval)에 대해서도 Zero-shot 성능을 테스트한다.

1. Pre-training 설정

  • Image Encoder: ViT-B/16 or ViT-L/16 (initialized from ViT, Pre-trained on ImageNet) - (Touvron et al., 2020; Dosovitskiy et al., 2021)
    • 다만, 이 논문에서 나오는 모든 결과를 ViT-B를 사용한 BLIP 모델.
  • Text Encoder: initialized from BERT_{\text{base}}(Devlin et al., 2019)
  • epoch, lr, resolution 등의 세팅은 논문 참고. [4.1. Pre-training Details]
  • Dataset: COCO+Visual Genome(약 21만장의 이미지, human-annotated.), SBU, CC3M, CC12M(약 1400만장 이미지, web data.), 필요 시 LAION-400M 중 일부(115M) 등 최대 1억 장 이상을 활용
  • CapFilt를 통해 새로 정제된 데이터셋으로 추가 학습 시, 성능이 상당폭 상승함을 실험적으로 증명하고, 사용하였음. [4.2. Effect of CapFilt]

2. 이미지-텍스트 / 텍스트-이미지 검색(Image-Text / Text-Image Retrieval)

  • COCO(5K test), Flickr30K(1K test) 등에서 TR(Text-to-Image Retrieval), IR(Image-to-Text Retrieval)을 측정
  • BLIP이 이전 SOTA인 ALBEF, ALIGN 대비 Recall@1 지표에서 +2~3% 이상 차이로 성능이 올라가는 결과를 보인다. [Table 5]
  • Zero-shot 설정으로 Flickr30K를 평가했을 때도 CLIP, ALBEF 등에 비해 큰 차이로 우수함을 보임. [Table 6]
  • 계산 효율성을 위해, ALBEF(Li et al. (2021a))처럼 ITC loss와 ITM loss를 적절히 이용한 연산을 수행함.

ITC loss는 vector similarity만을 계산하기에,
약 O(N*d)의 time complexity (N=# of data, d=feature dim.)

ITM loss는 cross attention 연산이 들어가,
약 O(N^2)의 time complexity (N=# of data, 이 때 TR이라면 # of Image, IR이라면 # of Text.)

따라서 ITC loss를 통해 k개의 최상위 후보를 뽑은 뒤, k개 중에서 ITM loss를 통해 rerank 후 선택. (k=128 or 256 - Flickr30k/COCO)

3. 이미지 캡셔닝(Image Captioning)

  • COCO(Karpathy split), LM loss로 Finetuning 후, COCO 및 NoCaps 등 OOD(Out-of-domain) dataset에 대해서도 evaluation 수행.
  • SimVLM(Wang et al. (2021))에서 했던 것과 같이, 각 caption 맨 앞에 “a picture of”라는 prompt를 붙이는 것이 약간 더 나은 결과를 보였음.
  • 이전에 VinVL, LEMON, SimVLM 등에 비견되는 결과를 얻으며, 특정 설정에서는 SOTA 달성
  • 14M 크기의 data로 pretrain한 모델에서는 다른 모델들보다 더 나은 결과를 얻었으며, BLIP-129M은 LEMON-200M과 견줄만한 성능을 보임. (LEMON은 BLIP보다 훨씬 계산이 많이 필요하며, 높은 해상도의 이미지를 사용했음에도.)
  • 특히, 더 큰 Vision Backbone(ViT-L) + CapFilt를 사용할수록 CIDEr, SPICE 지표 모두 향상됨 [Table 7]

4. VQA(Visual Question Answering)

  • VQA v2.0에서, BLIP은 이미지 + 질문을 encoding한 뒤 decoder를 통해 답변을 생성하는 접근을 택한다(multi-answer classification task로써 수행하지 않고, answer-generation task로써 수행하였음). [Figure 5(a)]
    • (UNITER: Chen et al., 2020; OSCAR: Li et al., 2020)이 아닌, (ALBEF: Li et al. 2021a)의 방식을 택함.
    • LM loss를 통해, ground-truth Answer를 target으로 pre-train 되었음.
  • ALBEF 대비 약 +1.6% 개선하였고, 기존 스케일링이 큰 SimVLM과도 유사하거나 조금 뛰어난 성능을 냈다. [Table 8]

5. NLVR2(Natural Language Visual Reasoning)

  • 주어진 이미지 쌍과 문장을 기반으로, 참/거짓을 판별하는 task. [Figure 5(b)]
    • 이를 통해 모델의 Reasoning 능력 측정.
  • extra pretrain을 수행한 ALBEF를 제외한 다른 방법들보다 우수한 성능을 보임. [Table 8]
  • 이 task에서는 web image를 통한 additional train이 큰 의미가 없었음.

6. VisDial(Visual Dialog)

  • VQA의 확장 버전으로, 이미지-캡션 쌍과 질의응답 이력을 모두 활용하여, 다음 대화 응답을 ranking하는 task.
  • BLIP는 여기서도 약간의 finetuning으로 기존 SOTA인 VD-BERT, VD-ViLBERT 등을 넘어서거나 비슷한 수준을 기록한다.

7. Zero-shot for Video-Language task

  • MSRVTT(1k test) 등의 dataset에서의 Video-text Retrieval, Video-QA task에서 finetuning 없이 Zero-shot으로 BLIP를 적용했음에도, 기존에 비디오-텍스트 전용으로 학습한 모델보다 훨씬 우수한 성능을 보여준다.
  • 이는 이미지 기반 학습만으로도 충분히 일반화된 표현을 학습했음을 시사한다(물론 연속되는 frame 사이의 움직임(temporal information)에 관한 정보는 다루지 않았지만, 고정 프레임들만으로도 좋은 결과를 보였다).

Conclusion

본 논문에서는 BLIP이라는 통합 VLP 프레임워크를 제안하여, 여러 task에서 SOTA를 달성하여 understanding-base, generation-based task 두 측면에서 모두 높은 성능을 낼 수 있음을 입증하였다.

  1. Multimodal Mixture of Encoder-Decoder(MED):
    • unimodal encoder | image-grounded text encoder | image-grounded text decoder라는 세 가지 기능을 하나의 모델이 수행할 수 있도록 만들었다.
    • 이미지-텍스트 검색, 캡션 생성, VQA 등을 하나의 model framework를 통해 모두 잘 처리할 수 있게 되었다.
  2. CapFilt를 통한 데이터 부트스트래핑:
    • text를 생성(Captioner)하고, noise text를 제거(Filter)하여, 원본 web text보다 풍부하고 이미지와 매칭이 잘 된 양질의 데이터셋을 만든다.
    • 추가적인 라운드나 다양한 캡션 생성 등으로 확장 가능성이 있다.
  3. 대규모 웹 데이터가 “noise는 심하지만, 단순히 scale-up 함으로써 극복한다”는 기존의 방향성에서 벗어나, noise를 적극적으로 filtering하고 새로운 텍스트를 보강하는 것이 모델 성능을 더욱 향상시킴을 보였다.
  4. 다양한 downstream vision-language task에서, 기존 SOTA 대비 성능 우위를 보이거나 대등한 성능을 달성했다. 특히, understanding-based, generation-based task 모두에서 우수한 결과를 보인 것에 집중한다.

Personal Comment (리뷰 후기)

  • 기존 VLP 연구는 보통 “Encoder-기반 모델은 주로 분류·검색 등의 understanding-based task에만 최적화, Encoder-Decoder 모델은 generation-based task에 좀 더 강점”이라는 식으로 나뉘어 있었다. BLIP는 이를 합친 “혼합형 아키텍처”로, 하나의 프레임워크에서 모두 처리할 수 있었고, 최근의 LVLM 모델들에서도 물론 하나의 프레임워크에서 여러 task를 수행할 수 있게 되었다.
  • 선행하여 읽어보았던 CLIP을 보았을 때만 해도, 다량의 웹 이미지를 하나하나 걸러낼 수 없으니 결국 노이즈는 포기하고 다량의 데이터를 때려박는 식으로 해결하는구나 싶었는데, 인간이 검수한 데이터를 활용하여 pre-train한 모델을 이용하여 captioning이나 filtering을 새로 수행하는 것이 신기했다.
  • 최근의 VLM에서는 CapFilt에서 발전해서 Self-Supervised Learning을 통한 데이터 정제나, CLIP과 같이 이미 학습된 VLM, 나아가 VLM 자기 자신을 Captioner/Filter로 사용하여 데이터 필터 및 증강을 수행하는 중인 것 같다. 자세한 것은 최근 논문 더 읽고 확인해보는 것으로.. 논문마다 다른 방법 사용하는 것 같기도..
  • BLIP도 2022년 논문인데, 거의 3년만에 지금 얼마나 발전한 건지.. 특히 최근 들어 중국 쪽에서 논문이랑 오픈모델 쏟아져나오는 거 보면 무섭다.
  • VinVL, LEMON, OSCAR, UNITER와 같은 이전 VLM들에서 사용하였던 Pretrained Object Detector는 여기서부터 잘 사용하지 않고, 거의 다 ViT 기반이 주류로 자리잡힌 것 같다. 아무래도 CNN base이다 보니 Computational Efficiency 같은 문제가 있었겠지 싶다.

정말 자세히 썼는데, 다음 논문리뷰는 좀 힘을 빼고 써야 할 것 같다..^ㅁ^

  • [딥러닝 논문 리뷰 시리즈]
  • Abstract & Introduction
  • Background, Motivation
  • 논문(BLIP)의 Main Contribution
  • Model: Multimodal Mixture of Encoder-Decoder (MED)
  • 기존 접근방식의 한계
  • MED의 핵심 설계
  • Pre-training Objectives
  • CapFilt: Bootstrapping Noisy Web Data
  • 문제의식
  • CapFilt 개념
  • 성능 향상을 위한 세부 전략
  • Experiments & Results
  • 1. Pre-training 설정
  • 2. 이미지-텍스트 / 텍스트-이미지 검색(Image-Text / Text-Image Retrieval)
  • 3. 이미지 캡셔닝(Image Captioning)
  • 4. VQA(Visual Question Answering)
  • 5. NLVR2(Natural Language Visual Reasoning)
  • 6. VisDial(Visual Dialog)
  • 7. Zero-shot for Video-Language task
  • Conclusion
  • Personal Comment (리뷰 후기)
'AI/논문 리뷰' 카테고리의 다른 글
  • [논문 리뷰] ViT, Vision Transformer (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)
  • [논문 리뷰] CLIP (Learning Transferable Visual Models From Natural Language Supervision)
  • [논문 리뷰] Transformer (Attention is All You Need) - Transformer의 구조와 각 Layer의 의미, 동작 방식을 중심으로.
220v
220v
DGU CSE 20 / Apple Developer Academy @ POSTECH 2nd Jr.Learner.

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.