<ul id="i82oa"></ul>

<cite id="i82oa"></cite>

<fieldset id="i82oa"></fieldset>

<fieldset id="i82oa"></fieldset>

<ul id="i82oa"></ul>

Faster RCNN模型簡介

網友投稿 957 2025-04-01

Faster RCNN模型簡介

Faster RCNN是由Ross Girshick由何凱明等人在2016年將其用于目標檢測任務中，能夠完成高效的與傳統的RCNN相比，利用RPN(Region Proposal Networks)完成候選框的選擇，Fast RCNN的結構如下圖所示：

如圖，Faster R-CNN網絡分為兩部分，一是Region Proposal Network(RPN)，二是Fast R-CNN。其中RPN包括圖中proposals和conv layers，Fast R-CNN包括卷積層、ROI pooling及后面全連接層等部分。 Faster RCNN首先將整張圖片輸進CNN，提取圖片的feature maps。將圖片特征輸入到到RPN，得到候選框的特征信息。RPN對于候選框中提取出的特征，使用分類器判別是否屬于待識別的目標的候選框,將屬于某一類別的候選框，用回歸器進一步調整其位置。最后將目標框和圖片的特征向量輸入到Roi pooling層，再通過分類器進行分類，完成目標檢測的任務。RPN能夠協助Fast RNN將注意力集中在候選框中。

卷積層

Faster RCNN首先將整張圖片輸進CNN，提取圖片的feature map，再將其輸入到到RPN，得到候選框的特征信息。這里我們采用VGG16完成feature map的提取。卷積層是被RPN和Fast R-CNN兩部分共享的。

RPN

相比于Fast RCNN,Faster R-CNN引入RPN(Region Proposal Network)完成候選框的提取，使得算法效率得到進一步提升。

RPN將任意尺寸大小的圖片作為輸入，輸出若干個矩形候選框。為了生成區域候選框，在卷積層最后一層feature map上滑動一個(n*n)的網絡,將卷積生成的feature map與(n*n)的窗口進行卷積運算。每一個滑動窗口都映射為一個更低維的特征。得到的特征送入兩個分支中，一個用于框分類，另一個用于框回歸。此網絡執行滑動窗口形式，所有空間位置都共享全連接層。如下圖所示：

滑動窗口的中心在圖像上對應一片區域，計算出該區域的中心位置后以該位置為中心，按3種scale、每種scale各有3種長寬比取9個矩形區域。這些區域就是提取到的anchors boxes。可見，feature maps中的一個位置，共有9個anchors，3種scale可以根據具體情況更改的，更改時最好能使最大的scale能基本將input image覆蓋。在確定好k個anchor box之后，就能確定相應的位置信息，通過2次bounding-box regression對位置進行修正。首先判斷anchors是否為前景，使用classifier對anchors進行二分類，輸出兩個概率值，即圖中左側對應的2k score。其次，計算對于anchors的bounding box regression偏移量(x,y,w,h)，以修正邊框位置,即圖中右側4k coordinates。最后將兩者結合生成region proposals，同時剔除太小和超出邊界的proposals，最后將提取到的proposals提交給后面的Roi Pooling層。

Roi Pooling

Fast R-CNN改進了R-CNN,應用了Roi Pooling。由于在全連接層，需要輸入固定大小的特征向量，R-CNN網絡經過warp操作統一成固定的大小再送入后續網絡，導致圖像的變形和扭曲。而且每一個proposal均需要單獨進行特征提取，重復計算量大。Poipooling通過卷積計算將圖像統一成固定大小的特征向量。Roi Pooling的輸入是卷積層得到的feature map和RNP得到的anchor，將其分割成7 * 7大小的子窗口，對每個子窗口進行max-pooling操作，輸出ROI(region of interest)的feature map。輸入后續的全連接層判斷目標。

Classifier

在這一步，分類器完成對候選區域的檢測。利用RoI feature maps計算ROI類別，同時再次bounding box regression獲得目標最終的位置。

后記

Faster RCNN模型簡介