논문 리뷰 4

[논문리뷰] Understanding deep learning requires rethinking generalization

뭔가 속시원하게 이해하기 어려웠던 논문 열린 결말 같은 결론.. 내 언어로 풀어서 이해하면 자칫 오개념이 될 것 같았던 논문.. 새벽 세 시에 리뷰해봅니다... AbstractDNN이 매우 큼에도 불구하고 성공적인 DNN은 train과 test의 성능 차이가 매우 작다.이 말은 일반화 오류가 작다고 표현일반화: 보지 않은 새로운 data에서도 잘 작동하는 것⇒ 일반화 오류가 작다는 건 모델이 단순히 크기만 커서가 아니라 그 안에 존재하는 모델의 feature와 학습하는 방법이 성능 차이를 줄이는데에 기여한다!위와 같은 접근법, 전통적인 접근법 (feature 학습이나 정규화)는 large NN의 일반화 성능을 충분히 설명하지 못한다는 걸 실험적으로 보여줌sota ResNet for image classi..

논문 리뷰 2025.02.07

[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision

노션에 정리했던 것 주섬주섬 주어오기 오늘은 CLIP 당첨오개념이있을수있음을주의!행복한 하루 되십쇼Abstract이전에는 사전에 정의된 고정된 객체 카테고리를 예측하도록 훈련이러한 형태의 supervision(지도학습)의 경우 other visual concept을 지정하려면 (language) 추가적인 레이블이 지정된 데이터가 필요→ 반면, 이미지와 관련된 raw text로 부터 직접 학습하자?⇒ 추가적인 데이터셋을 활용하지 않고도 특정 task를 위해 추가적인 데이터셋으로 학습한 기존 모델들과 견줄만한 성능이 나온다! Introduction and Motivating Worknlp 분야에서 raw text를 이용하여 사전학습하는 방법이 계속 연구되고 있음masked language modeling →..

논문 리뷰 2025.01.26

[논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

진짜진짜 오랜만에 돌아온 논문리뷰 ViT를 가지고 왔습니당 정확하지 않으며 제 생각이 많이 들어간 글이라는 점.. 인지하시고~설 연휴 직전이걸랑요새복많입니다. Abstractnlp에서 transformer가 자리를 잡는 동안 cv에선 한계가 있었음cnn 구조를 가져가면서 attention을 적용하거나 전체 구조는 유지해야만 했음저자는 pure transformer에 직접적으로 Image patch를 붙여 image classification을 수행하도록 함많은 양의 데이터로 pre-trained 되었거나 imageNet 등의 인식 벤치마크로 trnasfered 한 경우 sota 달성대체로 fewer computational resourcesIntroductionCNN architecture with se..

논문 리뷰 2025.01.24

[논문리뷰] “Attention is all you need”, NeurIPS 2017

처음 써보는 논문 리뷰 포스팅! 논문을 읽은 나의 견해! 를 남긴다기보다는 (남기면좋겠지) 어떤 내용인지! 무엇을 말하고자 하는지! 를 살펴보고~ 가능하다면 느낀점들도 적어보려고 합니다. 포스팅된 논문리뷰 글들은 아마 대부분! [EECS 498-007/598-005] 강의에서 언급되거나 레포로 걸려있는 것들 입니당. 첫번째 논문 Vaswani et al, “Attention is all you need”, NeurIPS 2017 은 13강 Attention 강의에서 등장한다. Abstract Sequence model은 복잡한 순환 또는 CNN을 기반으로 하며, 이는 encoder와 decoder를 포함하고 있다. 성능이 우수한 모델들은 attention 매커니즘을 통한 encoder와 decoder를 ..

논문 리뷰 2024.04.04