We-Co

[We-Co] Abstract, Conclusion, Introduction - YOLO, Tensorflow 논문 본문

AI논문

[We-Co] Abstract, Conclusion, Introduction - YOLO, Tensorflow 논문

위기의코딩맨 2021. 10. 13. 15:04
반응형

YOLO

 

[We-Co] YOLO -TensorFlow, 논문

안녕하세요. 위기의코딩맨입니다. 오늘은 YOLO에 관해 간단하게 알아보도록 하겠습니다. You Only Look Once 넌 한번만 보면 된다는 의미를 갖고있는 YOLO..! 난 여러번 봐야되던데... [ YOLO ] YOLO가 나왔

we-co.tistory.com

 

안녕하세요. 위기의 코딩맨입니다.

오늘은 YOLO 논문의 Abstract, Conclusion, Introduction 3가지를 간략하게 알아보도록 하겠습니다.

제가 간략하게 공부하면서 쓴부분이라 많이 부족합니다. 

논문 다운받으셔서 직접 보시는것도 추천드립니다.

논문을 들어가기 전, YOLO에 대해 간단하게 설명한 부분을 보고싶으시면 위에 블로그를 참고하시면 됩니다.

 

 

예전에 추천드린 순서대로 진행해보도록 하겠습니다.

 

 Abstract - Conclusion - Introduction - Experiment - Method 

 

먼저, 처음 You Only Look Once: Unified, Real-Time Object Detection의 이름으로 논문이 시작됩니다.

Real-Time Object Detecion으로 속도 측면에서 빠르다는 것을 강조하고있습니다.조셉 레드몬을 축으로 개발이 시작된 것으로 보입니다!

 

http://pjreddie.com/yolo/

조셉 레드몬의 개인 홈페이지로 보이고, 논문보다는 조금 더 편하게 표현한 방법으로 YOLO를 나타내고있습니다.

YOLO

[ Abstract ]

 

Abstract

기존의 object detection Model은 여러개의 분류로 Detection을 진행했지만

YOLO는 한번에, 대응되는 영역에 Bounding Box를 찾는

Regression problem으로 기존의 여러개로 분류하는 문제를 해결하겠다는 의미를 담고있으며,

 

A single neural network predicts bounding boxes and class probabilities directly from full images in one evaluation.

 

YOLO의 이름과 같이 한번에 찾아내겠다고 합니다!

 

Our unified architecture is extremely fast.

 

속도 측면을 강조하고 있으며, 초당 45장의 이미지를 처리할 수 있어  real-time용어를 사용하고있습니다.

성능은 조금 떨어지지만, 초당 155 frames 까지도 오를수 있으며,

state-of-the-art의 Model 들과 비교할 수 있는 성능을 갖고있다고 언급합니다.

범용적인 이미지들도 잘 학습한다고 합니다.

 

- 초당 45이미지 처리 : Real - Time

- 성능은 떨어지지만, 초당 155 Frames

- State-of-the-Art Model들과 비교할 수 있는 성능

- 범용적

 

YOLO의 장점과 지향하는 방향을 요약한 부분을 Abstract에서 확인할 수 있었습니다.

 

 

 

[ Conclusion ]

Conclusion 

YOLO는 간단하고 한번에 학습을 진행이 가능하다는 것을 말하고 있으며,

Loss Function에 거의 모든 부분이 들어가있어 범용적이고, 통합적으로 나타내고있습니다.

YOLO는 빠르고 강건한 성능을 보여준다는 의미를 담고있습니다.

계속적으로 빠르고 통합되어있어 간단하다는 의미를 나타내고있습니다. 

 

 

[ Introduction ]

 

 

 

시작은 사람은 이미지를 판단할 때 즉각적으로 빠르고 적확하게 파악할 수 있다고하고,

 

Fast, accurate algorithms for object detection would allow computers to drive cars without specialized sensors

 

이러한 Object Detection을 Computers에게 알려줄 수 있다면 운전과 같은 복잡한 문제들도 센서들 없이

컴퓨터도 할 수 있을 것이라는 표현을 하고있습니다.

 

DPM Model은 하나의 이미지가 들어오면 여러개 Bounding box를 개별 분류를 진행하여 속도면에서 많이 느리다라는 것을 나타내고 있습니다.

 

 

These complex pipelines are slow and hard to optimize because each individual component must be trained separately.

 

R-CNN Model은 파이프 라인이 복잡하며, 느리고 최적화하기 어렵다고하합니다.

그리고 개별 구성 요소는 별도로 교육해야한고합니다. 

여기까지는 기존의 모델의 단점들을 나타내고 있습니다.

 

 

YOLO는 Object Detection을 하나의 Regression problem으로 바꾸고

이미지로부터 bounding Box 포지션을 바로 찾아내는 형태로 만들겠다는 의미를 갖고있습니다.

 

We reframe object detection as a single regression problem, straight from image pixels to bounding box coordinates and class probabilities. Using our system, you only look once (YOLO) at an image to predict what objects are present and where they are.

 

그래서 You Only Look Once라는 이름으로 정했다 라는 것을 표현하고있습니다.

 

Figure 1로 간단하게 진행 방향을 설명하고 있습니다.

그리고, YOLO의 장점을 표현하고있습니다.

 

 

1. YOLO is Extremely Fast

45Frames, 105fps 등 빠르게 나타낼 수있음을 표현하고 있고, 

Object Detection의 평가지표인 Mean Average Precision에서도 더욱 좋게 나왔음을 표현하고 있습니다.

 

2. YOLO reasons globally about the image when making predictions

전체를 한번에 보기때문에, 중요한 정보들을 파악할 수있으며, 큰 객체도 문제 없이 파악할 수 있음을 나타내고 있습니다. 그래서 기존의 R-CNN보다 좋다고 합니다.

 

3. YOLO learns generalizable representations of objects

범용적으로 동작이 가능하다는 것을 나타내고 있습니다.

다른 모델은 art-모델에서는 기능이 떨어졌지만 YOLO에서는 범용적으로 동작이 가능하여 응용가능하다라는 것을 표현합니다.

 

 

장점이 나왔다면 이제 단점이 나와야겠죠?

이제 YOLO의 단점이 나오고 있습니다.

속도는 빠르지만, 작은 것에 대해서는 성능이 떨어진다는 것을

솔직하게 표현하고있습니다.

그리고 YOLO의 과정은 Open Source로 공개해 놓았다는 것을 표현하고 있습니다.

 

 

 

이렇게 Abstract, Conclusion, Introduction을 간략하게 알아보았습니다.

이렇게 보았을때, 속도 측면에서 빠르고 간단하며,

범용적이지만, 정확도면에서 약간의 문제점이 있어보입니다.

반응형