python數據 采集11-圖像識別與文字處理

網友投稿 1123 2025-03-31

OCR庫概述

在讀取和處理圖像、圖像相關的機器學習以及創建圖像等任務中，Python 一直都是非常出

色的語言。雖然有很多庫可以進行圖像處理，但在這里我們只重點介紹兩個庫：Pillow 和

Tesseract

Pillow

盡管 Pillow 算不上是圖像處理功能最全的庫，但是它擁有你需要使用的全部功能，除非你

要用 Python 重寫一個 Photoshop 或進行更加復雜的研究。它也是一個文檔健全且十分易用

的庫。

Pillow 是從 Python 2.x 版本的 Python 圖像庫（Python Imaging Library，PIL）分出來的，支

持 Python 3.x 版本。和 PIL 一樣，Pillow 也可以輕松地導入代碼，并通過大量的過濾、修

飾甚至像素級的變換操作處理圖片：

from PIL import Image, ImageFilter kitten = Image.open("kitten.jpg") blurryKitten = kitten.filter(ImageFilter.GaussianBlur) blurryKitten.save("kitten_blurred.jpg") blurryKitten.show()

Tesseract

Tesseract 是一個 OCR 庫，目前由 Google 贊助（Google 也是一家以 OCR 和機器學習技術

聞名于世的公司）。Tesseract 是目前公認最優秀、最精確的開源 OCR 系統。

inux 用戶可以通過 apt-get 安裝：

$sudo apt-get tesseract-ocr

$ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ \ install/master/install)" $brew install tesseract

NumPy

python數據采集11-圖像識別與文字處理

雖然 NumPy 并非解決 OCR 問題時必須使用的庫，但是如果你想訓練 Tesseract 識別本章后

面提到的字符或字體，那么就會用到它。NumPy 是一個非常強大的庫，具有大量線性代數

以及大規模科學計算的方法。因為 NumPy 可以用數學方法把圖片表示成巨大的像素數組，

所以它可以流暢地配合 Tesseract 完成任務。

和其他 Python 庫一樣，NumPy 可以通過第三方包管理器（比如 pip）來安裝

$pip install numpy

$tesseract text.tif textoutput | cat textoutput.txt

from PIL import Image import subprocess def cleanFile(filePath, newFilePath): image = Image.open(filePath) # 對圖片進行閾值過濾，然后保存 image = image.point(lambda x: 0 if x<143 else 255) image.save(newFilePath) # 調用系統的tesseract命令對圖片進行OCR識別 subprocess.call(["tesseract", newFilePath, "output"]) # 打開文件讀取結果 outputFile = open("output.txt", 'r') print(outputFile.read()) outputFile.close() cleanFile("text_2.jpg", "text_2_clean.png")

Python 圖像處理

標簽：Python 數據采集

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

1123 2025-03-31

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

1123 2025-03-31

SUBSTITUTE

1123 2025-03-31

<fieldset id="cieso"></fieldset>

python數據 采集11-圖像識別與文字處理

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

SUBSTITUTE

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接