We-Co

[We-Co] Unified Detection, Network Design - YOLO, Tensorflow 논문 본문

AI논문

[We-Co] Unified Detection, Network Design - YOLO, Tensorflow 논문

위기의코딩맨 2021. 10. 17. 16:27
반응형

안녕하세요. 위기의 코딩맨입니다.

오늘은 YOLO의 Unified Detection, Network Design에 대해 간단하게 알아보도록 하겠습니다.

Method 부분에 해당하며, 본 논문의 모델을 나타내는 부분이라고 생각할 수있습니다.

 

YOLO

 

[We-Co] Abstract, Conclusion, Introduction - YOLO, Tensorflow 논문

YOLO [We-Co] YOLO -TensorFlow, 논문 안녕하세요. 위기의코딩맨입니다. 오늘은 YOLO에 관해 간단하게 알아보도록 하겠습니다. You Only Look Once 넌 한번만 보면 된다는 의미를 갖고있는 YOLO..! 난 여러번 봐야

we-co.tistory.com

 

YOLO의 Abstract, Conclusion, Introduction을 간단하게 알아보려면 위에 링크를 확인해주세요!

 

[ Unified Detection ]

YOLO의 Method의 부분을 Unified Detection이라고 이름을 붙이고 시작하고 있습니다.

YOLO는 Object Detection을 하나의 Neural Network로 진행한다고 합니다.

이미지를 받아 Bounding Box를 예측을 한번에 진행합니다.

그리고 Bounding Box 포지션과, 클래스에 대한 예측도 한번에 진행된다고 합니다.

 

This means our network reasons globally about the full image and all the objects in the image.

 

전체 이미지를 한번에 보는 구조임을 나타내고 있습니다.

그리고 End-toEnd TrainingReal-Time Speed로 엄청난 모델임을 언급하고있습니다.

 

 

Our system divides the input image into an S × S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.

 

그리고 핵심 개념을 설명하고 있는데 S X S Grid로 나누어 해당 Grid Cell별로 객체를 예측한다고 합니다.

 

Formally we define confidence as Pr(Object) ∗ IOUtruth pred . If no object exists in that cell, the confidence scores should be zero.

 

YOLO는 예측 정도를 나타내는 계산 방법을 간단하게 나타내고 있습니다.

해당 Cell에 객체가 존재하는지 없는지 0~1정도로 나타낸다고 합니다.

 

Each bounding box consists of 5 predictions: x, y, w, h, and confidence.

 

그리고 결과에 대한 값을 설명하고 있습니다.

다음으로 클래스에 대한 예측도 같이 Grid Cell별로 진행을 해야한다고 합니다. 

 

Unified Detection에서는 YOLO의 컨셉을 조금 확인할 수 있었습니다.

 

[ Network Design ]

YOLO에서 사용하는 CNN 구조에 대해서 설명을 나열하는 부분입니다.

 

CNN을 이용하고, Pascal VOC Detection Dataset을 사용했으며

extract features를 앞부분에서 실행하고 뒷 부분은 YOLO의 형태로 예측 값들을 제작하는 부분이라고 설명하고 있습니다.

GoogLeNet을 참고해서 구조를 잡았으며, 24개의 Convolutional Layers와 2개의 Fully Connected Layers로 구성되어있습니다.

Figure 3에 해당 CNN구조를 설명하고있습니다. 

448 * 448 이미지를 받아서 Conv 7*7*64-s-2, Maxpool Layer 2*2-s-2 단계를 거쳐서

112*112*192의 이미지가 나오는데  Conn. Layer 3*3*192 Maxpool Layer 2*2-s-2 해당 작업을 반복하도록 합니다.

 

마지막으로 4096개의 Fully Connected Layers을 최종적으로 7*7*30의 아웃풋을 제공하게됩니다.

해당 작업은 총 24개의 Convolutional Layers와 2개의 Fully Connected Layers로 구성되어 있는것을 확인할 수 있습니다.

 

 

 

오늘은 간단하게 YOLOMethod 부분에 해당하는 

Unified Detection, Network Design를 알아보았습니다.

Grid Cell로 나누어 객체를 예측하고,

24개의 Convolutional Layers와 2개의 Fully Connected Layers로 구성되어 있는것을 확인할 수 있었습니다.

 

반응형