AI/논문 리뷰

    [논문 리뷰] ViT, Vision Transformer (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)

    [논문 리뷰] ViT, Vision Transformer (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)

    [딥러닝 논문 리뷰 시리즈]노션에서 작성한 글을 옮겼으며, 아래 노션에서 더 깔끔하게 읽으실 수 있습니다.>>노션 링크 ViT (Vision Transformer) | Notion레퍼런스skillful-freighter-f4a.notion.site Abstract & Introduction2017년 Transformer의 발표 이후, NLP 분야에서는 지금까지 Transformer 구조가 표준으로 사용되고 있다.대부분은, Large Dataset으로 pre-train한 이후, task에 맞는 dataset으로 fine-tuning하는 방식으로 이용하고 있다.Transformer 이후 계산적 효율 및 확장성으로 인해, 모델의 크기(# of param)가 굉장히 커짐.현재(2021)까지 Computer Vi..

    [논문 리뷰] CLIP (Learning Transferable Visual Models From Natural Language Supervision)

    [논문 리뷰] CLIP (Learning Transferable Visual Models From Natural Language Supervision)

    [딥러닝 논문 리뷰 시리즈]노션에서 작성한 글을 옮겼으며, 아래 노션에서 더 깔끔하게 읽으실 수 있습니다.>>노션 링크 CLIP (Learning Transferable Visual Models From Natural Language Supervision) | NotionIntroduction & Motivationskillful-freighter-f4a.notion.site  Introduction & MotivationNLP 분야에서는 Transformer의 발표 이후, Seq2Seq와는 다르게 긴 문장도 잘 처리할 수 있는 능력을 갖게 되었다.그러한 능력을 기반으로, 인터넷 상의 많은 raw text data를 이용하여 큰 모델, 큰 데이터셋을 이용하여 대규모로 학습(Pre-train)할 수 있게 ..

    [논문 리뷰] Transformer (Attention is All You Need) - Transformer의 구조와 각 Layer의 의미, 동작 방식을 중심으로.

    [논문 리뷰] Transformer (Attention is All You Need) - Transformer의 구조와 각 Layer의 의미, 동작 방식을 중심으로.

    [딥러닝 논문 리뷰 시리즈]노션에서 작성한 글을 옮겼으며, 아래 노션에서 더 깔끔하게 읽으실 수 있습니다.>>노션 링크 Transformer의 각 Layer 의 의미와 동작, 계산 과정을 예시를 통해 이해하기처음 보면 굉장히 복잡해 보이는 Transformer의 구조.하나하나 뜯어서 직접 계산 과정을 눈으로 확인하고, 각 부분의 의미와 용도를 알아보며 보다 쉽게 이해할 수 있도록 써 보았다. 아래 대부분의 과정은 Attention Is All You Need 논문의 base model을 기준으로 작성하였다.전체 Layer의 계산과정을, 계산식 예시를 보며 하나하나 파헤쳐 보자. Input EmbeddingInput Embedding Layer에서는, 여타 다른 NLP 모델에서와 같이 word embedd..