본문 바로가기

축구왕농구킹

SNS

Notice

Recent Posts

Recent Comments

Link

Tags

더보기

Archives

Visits

Total

Today

Yesterday

papers

AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 2025. 7. 23. 19:08 ICML 2021 논문이다.트랜스포머가 자연어처리 태스크에 적용되어 기존 모델들이 가진 순차적인 처리, 장거리 의존성, 병렬처리 등의 한계를 해결하고 있었다. 딥러닝 연구에서 어떤 모델이 비전이나 자연어처리 같은 태스크에 자리를 잡으면 태스크를 바꿔서 적용하려는 시도가 있는데, 비전트랜스포머(ViT) 연구는 트랜스포머를 비전 태스크에 적용하고자 진행되었다. 구조는 꽤나 간단하다. 이미지를 고정된 크기의 패치로 나누고 각 패치를 layer를 추가하여 평탄화(flatten)한다. 이미지는 rgb 멀티채널 이기때문에 각 채널을 concat하고 선형사상(mlp)하여 트랜스포머에 입력가능하도록 한다. 그리고 위치 관계 추출에 능한 CNN과 구조가 다르기 때문에, 위치정보인 position embedding을 덧붙..

Learning Transferable Visual Models From Natural Language Supervision 2025. 7. 17. 11:09 CLIP 논문은 먼저 논문을 읽기위해 파일을 열어보는 순간 길이에 대해 압도당한다. 거의 50쪽에 가까운 논문양에 미뤄두다가 며칠에 걸쳐 조금씩 읽었다. 이해가 잘 되지 않는 부분은 ChatGPT의 도움을 받았다. 챗지 선생님의 과외를 통해 공부 생산성이 20배는 향상된 느낌이다. 지금껏 내가 봐온 논문의 개수가 매우 제한적이지만 그 중 가장 많은 정도의 실험을 통해 본인들의 논리를 탄탄하게 쌓아갔다는 점에서 감탄하며 논문을 읽었다. 저런 규모의 연구를 한다면, 연구를 미리 계획을 할때 무슨 무슨 실험을 해야겠다는 점을 어떻게 계획할까? 공동 연구에 대한 경험이 적은데, 이 실험을 하면서 어느 시점에 공동 연구진의 도움을 추가로 받는 것인지 궁금하다. 연구진은 웹 상에 있는 자연어와 이미지 쌍을 같은 공..

NICE: Non-linear Independent Component Estimation 2025. 3. 21. 14:46 나는 논문을 번역하여 정리하며 모르는 부분을 찾아서 공부한다. 보통 블로깅하기 전에 한번 빠르게 읽는데, 이 논문은 영어 번역이 어렵기보다는 사용되는 개념이 익숙하지 않았다. 초록은 아래와 같다. NICE는 고차원 확률밀도(high-dimensional densities)를 모델링하는 딥러닝 기반 프레임워크로, 데이터의 비선형 결정론적 변환(non-linear deterministic transformation)을 학습해 단순한 factorized distribution을 따르는 잠재공간(latent space)으로 변환하는 방식이다. 저자들은 Jacobian 행렬의 행렬식을 계산하기 위해 이 변환을 파라미터화하면서도 딥런이 기반의 간단한 블록을 도입해 비선형 변환 능력을 유지시켰다. 학습의 기준은 l..

Unsupervised Visual Representation Learning by Context Prediction 2025. 3. 7. 14:01 이 논문은 공간적인 맥락(spatial context)을 이용해 시각 표현(visual representation)을 학습했다. 레이블이 없는 대규모 이미지 집합에서 랜덤한 쌍의 패치를 각 이미지에서 추출해 콘볼루션 네트워크를 학습하여 첫번째 패치에 대한 두번째 패치의 위치를 예측하였다. 이 태스크를 잘하기 위해서는 객체와 세부 사항을 학습시켜야 했다. 저자들은 이미지 내의 맥락을 이용한 특징 표현이 이미지 전체의 시각적인 유사성을 파악할 것이라는 가설을 증명한다. 예를들어 Pascal VOC 2011 탐지 데이터셋에서 고양이, 사람, 새 같은 객체를 비지도로 검출하는 작업을 했다. 더욱이 저자들의 모델은 RCNN 프레임워크에서도 사용 가능해 랜덤하게 초기화된 콘볼루션보다 성능 이점이 있다. 연구 ..

U-Net: Convolutional Networks for Biomedical Image Segmentation 2025. 2. 19. 20:50 U-Net 논문이다. 논문을 정리하기 전에 대략적으로 먼저 읽어보니 FCN에서 사용한 skip connection의 개념과 upsampling의 개념을 활용하였고 매우 적은양의 바이오 의료데이터라는 데이터의 도메인을 잘 이해하고 data augmentation 전략을 잘 수립한 것이 모델의 성능을 끌어올리는데 도움이 된듯하다.논문의 구성은 간단해 보이지만 지금 시점에서 10만회가 넘는 피인용수를 기록하고 있다.간단해 보인다는 것은 잘 정리 되었다는 뜻! 내가 보기에도 정리되지 못한 실험과 막연한 글쓰기로 리젝당한 경험이 있기에 롤 모델로 삼고 싶은 실험과 글쓰기 사례이다.contract path로 context를 포착하고 symmetric expanding path로 정확하게 위치를 포착한다(locali..

Fully Convolutional Networks for Semantic Segmentation 2025. 2. 13. 11:48 이 연구는 CNN 모델의 마지막에 Fully Connected Network를 덧붙여 분류문제로 해결하던 것을 개선하여 마지막 레이어도 Convolution 층을 덧붙여 end to end로 convolution 하도록 Fully Convolutional Networks(FCN)을 개발하였다. 픽셀단위의 위치 정보도 모델이 학습할 수 있도록 개선한 모델이다. 저자들은 의미(semantic information)를 깊은 층에서 coarse(엉긴, 조잡한?) 레이어와 세부적이고 정확한 segmentation을 얕은(shallow) 층에서 추출하는 레이어를 조합한 구조를 제안한다. CNN은 이미지 분류뿐아니라 bounding box 객체탐지, key point 예측, local correspondence 같..

Distilling the Knowledge in a Neural Network 2025. 1. 30. 16:53 이 논문은 제프리 힌튼과 제프 딘 등이 참여한 논문으로 지식증류(knowledge distillation) 기법을 다룬 연구이다. 모델 학습할때는 최대한 많은 데이터를 크고 깊은 모델에 학습시키면 좋은 성능의 결과가 나오겠지만, 실제 서비스에 배포할때 큰 모델을 사용하면 비용과 추론시간(latency)의 문제가 생긴다는 문제점을 해결한다.직관적으로 논문을 설명하자면 학습은 크게, 서비스는 작게 하면 효과적이다. 이에 큰 모델(cumbersome model, 추후에는 teacher model)을 학습해 지식을 증류(distilled model, student model)한다.이 연구에서는 soft target이라는 개념을 도입한다. 딥러닝 학습과정 중 클래스 분류를 위한 Cross entropy 비용함수를..

You Only Look Once: Unified, Real-Time Object Detection 2024. 12. 18. 00:03 YOLO 모델은 네이버에서 인턴하던 19.12월 - 20.2월 사이에 당시 연구원들이 많이 보고 활용하고 있던걸로 기억하는 모델이다.도입부에서 저자는 YOLO 모델은 사람이 시각적으로 빠르고 정확하게 여러가지 일을 한다는 점에 착안하였다고 한다.이미지에서 객체가 어디에 있는지, 어떤 클래스의 객체인지 판별하는 모델중 동영상과 같은 real-time 분류가 가능한 속도의 모델이다. 초당 45개의 이미지 처리가 가능하고 작은 크기의 모델인 Fast YOLO는 초당 155 프레임의 처리가 가능하다. YOLO detection 모델은 (1) 이미지를 리사이징하고 (2) 컨볼루션 네트워크를 거쳐 (3) 모델의 신뢰도를 따라 계값을 설정한다.당시에 비슷한 역할의 모델로는 전체 이미지를 나눠서 작동하는 슬라이딩 윈..

이전 1 2 3 4 5 다음

티스토리툴바