2025/01 2

[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision

노션에 정리했던 것 주섬주섬 주어오기 오늘은 CLIP 당첨오개념이있을수있음을주의!행복한 하루 되십쇼Abstract이전에는 사전에 정의된 고정된 객체 카테고리를 예측하도록 훈련이러한 형태의 supervision(지도학습)의 경우 other visual concept을 지정하려면 (language) 추가적인 레이블이 지정된 데이터가 필요→ 반면, 이미지와 관련된 raw text로 부터 직접 학습하자?⇒ 추가적인 데이터셋을 활용하지 않고도 특정 task를 위해 추가적인 데이터셋으로 학습한 기존 모델들과 견줄만한 성능이 나온다! Introduction and Motivating Worknlp 분야에서 raw text를 이용하여 사전학습하는 방법이 계속 연구되고 있음masked language modeling →..

논문 리뷰 2025.01.26

[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

진짜진짜 오랜만에 돌아온 논문리뷰 ViT를 가지고 왔습니당 정확하지 않으며 제 생각이 많이 들어간 글이라는 점.. 인지하시고~설 연휴 직전이걸랑요새복많입니다. Abstractnlp에서 transformer가 자리를 잡는 동안 cv에선 한계가 있었음cnn 구조를 가져가면서 attention을 적용하거나 전체 구조는 유지해야만 했음저자는 pure transformer에 직접적으로 Image patch를 붙여 image classification을 수행하도록 함많은 양의 데이터로 pre-trained 되었거나 imageNet 등의 인식 벤치마크로 trnasfered 한 경우 sota 달성대체로 fewer computational resourcesIntroductionCNN architecture with se..

논문 리뷰 2025.01.24