<ul id="oywcy"></ul>

如何使用 Albumentations 對目標檢測任務做增強

網友投稿 929 2025-04-01

1、導入所需的庫

2、定義可視化函數顯示圖像上的邊界框和類標簽

3、獲取圖像和標注

4、使用RandomSizedBBoxSafeCrop保留原始圖像中的所有邊界框

5、定義增強管道

6、輸入用于增強的圖像和邊框

7、其他不同隨機種子的示例

諸如RandomCrop和CenterCrop之類的某些增強功能可能會變換圖像，使其不包含所有原始邊界框。本示例說明如何使用名為RandomSizedBBoxSafeCrop的變換來裁剪圖像的一部分，但保留原始圖像的所有邊界框。

1、導入所需的庫

import random import cv2 from matplotlib import pyplot as plt import albumentations as A

2、定義可視化函數顯示圖像上的邊界框和類標簽

可視化函數參考https://github.com/facebookresearch/Detectron/blob/master/detectron/utils/vis.py

如何使用Albumentations 對目標檢測任務做增強

BOX_COLOR = (255, 0, 0) # Red TEXT_COLOR = (255, 255, 255) # White def visualize_bbox(img, bbox, class_name, color=BOX_COLOR, thickness=2): """Visualizes a single bounding box on the image""" x_min, y_min, w, h = bbox x_min, x_max, y_min, y_max = int(x_min), int(x_min + w), int(y_min), int(y_min + h) cv2.rectangle(img, (x_min, y_min), (x_max, y_max), color=color, thickness=thickness) ((text_width, text_height), _) = cv2.getTextSize(class_name, cv2.FONT_HERSHEY_SIMPLEX, 0.35, 1) cv2.rectangle(img, (x_min, y_min - int(1.3 * text_height)), (x_min + text_width, y_min), BOX_COLOR, -1) cv2.putText( img, text=class_name, org=(x_min, y_min - int(0.3 * text_height)), fontFace=cv2.FONT_HERSHEY_SIMPLEX, fontScale=0.35, color=TEXT_COLOR, lineType=cv2.LINE_AA, ) return img def visualize(image, bboxes, category_ids, category_id_to_name): img = image.copy() for bbox, category_id in zip(bboxes, category_ids): class_name = category_id_to_name[category_id] img = visualize_bbox(img, bbox, class_name) plt.figure(figsize=(12, 12)) plt.axis('off') plt.imshow(img)

3、獲取圖像和標注

在此示例中，我們將使用來自COCO數據集的圖像，該圖像具有兩個關聯的邊界框。該映像位于http://cocodataset.org/#explore?id=386298

從磁盤加載圖像

image = cv2.imread('images/000000386298.jpg') image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

用坐標和類標簽定義兩個邊界框

這些邊界框的坐標使用coco格式聲明。每個邊界框使用四個值[x_min, y_min, width, height]進行描述。有關邊界框坐標的不同格式的詳細說明，請參閱有關邊界框的文檔文章-https://albumentations.ai/docs/getting_started/bounding_boxes_augmentation/。

bboxes = [[5.66, 138.95, 147.09, 164.88], [366.7, 80.84, 132.8, 181.84]] category_ids = [17, 18] # We will use the mapping from category_id to the class name # to visualize the class label for the bounding box on the image category_id_to_name = {17: 'cat', 18: 'dog'}

展示圖像的邊框

visualize(image, bboxes, category_ids, category_id_to_name)

4、使用RandomSizedBBoxSafeCrop保留原始圖像中的所有邊界框

RandomSizedBBoxSafeCrop?crops a random part of the image. It ensures that the cropped part will contain all bounding boxes from the original image. Then the transform rescales the crop to height and width specified by the respective parameters. The?erosion_rate?parameter controls how much area of the original bounding box could be lost after cropping.?erosion_rate = 0.2?means that the augmented bounding box's area could be up to 20% smaller than the area of the original bounding box.

RandomSizedBBoxSafeCrop裁剪圖像的隨機部分。它確保裁剪的部分將包含原始圖像的所有邊界框。然后，變換會將作物重新縮放為相應參數指定的高度和寬度。 erosion_rate參數控制裁剪后可能丟失原始邊界框的面積。 frosting_rate = 0.2表示擴充后的邊界框的面積可能比原始邊界框的面積小20％。

5、定義增強管道

transform = A.Compose( [A.RandomSizedBBoxSafeCrop(width=448, height=336, erosion_rate=0.2)], bbox_params=A.BboxParams(format='coco', label_fields=['category_ids']), )

6、輸入用于增強的圖像和邊框

我們固定隨機種子是為了可視化目的，因此增強將始終產生相同的結果。在真實的計算機視覺管道中，您不應該在對圖像應用轉換之前固定隨機種子，因為在這種情況下，管道將始終輸出相同的圖像。圖像增強的目的是每次使用不同的變換。

random.seed(7) transformed = transform(image=image, bboxes=bboxes, category_ids=category_ids) visualize( transformed['image'], transformed['bboxes'], transformed['category_ids'], category_id_to_name, )

7、其他不同隨機種子的示例

random.seed(3) transformed = transform(image=image, bboxes=bboxes, category_ids=category_ids) visualize( transformed['image'], transformed['bboxes'], transformed['category_ids'], category_id_to_name, )

random.seed(444) transformed = transform(image=image, bboxes=bboxes, category_ids=category_ids) visualize( transformed['image'], transformed['bboxes'], transformed['category_ids'], category_id_to_name, )

標簽：使用 Albumentations OKR管理-OKR工作法

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

929 2025-04-01

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

929 2025-04-01

快遞錄入時間表（快遞收寄時間）

929 2025-04-01

<fieldset id="gscsw"></fieldset>

<strike id="gscsw"></strike>

如何使用 Albumentations 對目標檢測任務做增強

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

快遞錄入時間表（快遞收寄時間）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

友情鏈接

如何使用Albumentations 對目標檢測任務做增強

系統 字體問題（win10系統怎么設置密碼）">WIN10系統 字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

友情鏈接

如何使用 Albumentations 對目標檢測任務做增強

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理