Computer Vision
-
Vision Transformer with Deformable AttentionAI/Vision 2023. 9. 14. 15:49
CVPR 2022Vision Transformer with Deformable AttentionTsinghua Univ, AWS AI (Amazon), Beijing Academy of Artificial IntelligenceDeformable mechanism을 이용하여 주요 영역을 쉽게 찾고 computational complexity를 줄이기 위해 제안한 attention 방법이다.ViT를 활용한 실험을 진행하며 학습 시간이 너무 오래 걸리고 메모리를 너무 많이 필요로 하는 문제점에 직면하였다. 이를 개선해 보기 위해 방법을 찾던 도중 발견한 논문이다. deformable mechanism을 통해 target object를 더 효율적으로 포착할 수 있으며 vomputatonal cost를 많이 높..
-
Vision TransformerAI/Vision 2023. 9. 14. 13:38
ICLR 2021An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleGoogle Resarch, Brain TeamNLP에서 처음 등장한 transformer는 attention map 기반으로 학습을 진행하는 방법이다. 이를 vision task로 옮겨와 적용한 방법으로 혁신적인 성장을 이끌었다.Doi: https://doi.org/10.48550/arXiv.2010.11929 An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standa..
-
YOLOv3: An Incremental ImprovementAI/Vision 2023. 6. 1. 17:08
arXiv YOLOv3: An Incremental Improvement Joseph Redmon, Ali Farhadi YOLOv3 해당 논문은 TECH REPORT로 현재 arXiv에만 등재되어 있다. 본 논문은 YOLOv2에 당시에 유행하던 기법들을 적용하여 성능을 높이 논문이다. doi : https://doi.org/10.48550/arXiv.1804.02767 YOLOv3: An Incremental Improvement We present some updates to YOLO! We made a bunch of little design changes to make it better. We also trained this new network that's pretty swell. It's a ..
-
Invariant Information Clustering for Unsupervised Image Classification and SegmentationAI/Vision 2023. 2. 13. 18:51
CVPR Invariant Information Clustering for Unsupervised Image Classification and Segmentation Xu Ji, Joao F. Henriques, Andrea Vedaldi University of Oxford 지도학습의 학습된 task에 대해서 좋은 성능을 가진다는 것은 이미 많은 연구를 통해서 알려진 사실이다. 그러나 Labelled data를 구하기 힘든 분야의 경우 데이터가 충분하지 않아 학습이 어렵고 성능이 현저히 떨어진다는 문제점이 있다. 이런 문제를 개선하기 위해서 요즘 semi-supervised, self-supersied와 unsupervised의 연구가 활발히 이루어지고 있다. 또한 개인적으로 AI의 기술 개발의 마지막..
-
Vision GNN : An Image is Worth Graph of Nodes (Review)AI/Vision 2022. 10. 20. 18:42
Vision GNN : An Image is Worth Graph of Nodes Kai Han 1,2,* , Yunhe Wang 2*, Jianyuan Guo 2, Yehui Tang 2,3 , Enhua Wu 1, 4 Vision GNN (ViG) 은 GNN을 Vision 분야에 적용시키는 방법에 관한 논문이다. GNN 혹은 GCN은 다양한 분야에서 현재 사용되고 있다. 신약 개발과 암세포 탐지 등과 같은 헬스 케어와 넓게는 유기 화학 ai 분야에서 널리 사용되고 있다. 이를 vision task에 적용하는 논문이다. 논문 doi : https://doi.org/10.48550/arXiv.2206.00272 Vision GNN: An Image is Worth Graph of Nodes Network..