黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产精品自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美激情在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

> Python

基于Python實現對PDF文件的OCR識別

系統 2019-09-27 17:37:44 2302 0

最近在做一個項目的時候，需要將PDF文件作為輸入，從中輸出文本，然后將文本存入數據庫中。為此，我找尋了很久的解決方案，最終才確定使用 tesseract 。所以不要浪費時間了，我們開始吧。

1.安裝tesseract

在不同的系統中安裝 tesseract 非常容易。為了簡便，我們以 Ubuntu 為例。

在 Ubuntu 中你僅僅需要運行以下命令:

這將會安裝支持3種不同語言的 tesseract 。

2.安裝PyOCR

現在我們還需要安裝 tesseract 的Python接口。幸運的是，有許多出色的Python接口。

我們采用最新的一個：

3.安裝Wand和PIL

在我們開始之前，還需要另外安裝兩個依賴包。一個是 Wand 。它是 Imagemagick 的Python接口。

我們需要使用它來將PDF文件轉換成圖像：

我們也需要 PIL 因為 PyOCR 需要使用它。你可以查看官方文檔以確定如何將 PIL 安裝到你的操作系統中。

4.熱身

讓我們開始我們的腳本吧。首先，我們需要導入一些重要的庫：

注意： 我將從 PIL 導入的 Image 模塊改名為PI了，因為如果不這樣做的話，它將和 wand.image 模塊發生重名沖突。

5.開始

現在我們需要獲得 OCR庫 （在本例中，即 tesseract ）的句柄以及我們在 PyOCR 中將使用的語言：

我們使用 tool.get_available_languages 里的第二種語言，因為之前我曾嘗試過，第二種語言就是英語。

接著，我們需要建立兩個列表，用于存儲我們的圖像和最終的文本。

下一步，我們需要采用 wand 將一個PDF文件轉成jpeg文件。讓我們試一試吧！

注意： 將 PDF_FILE_NAME 替換成當前路徑下的一個可用的PDF文件名。

wand 已經將PDF中所有的獨立頁面都轉成了獨立的二進制圖像對象。我們可以遍歷這個大對象，并把它們加入到 req_image 序列中去。

現在，我們僅僅需要在圖像對象上運行OCR即可，非常簡單：

現在，所有識別出的文本已經加到了 final_text 序列中了。你可以任意地使用它。以上就是利用Python對PDF文件做OCR識別的全部內容，希望這個教程能夠幫助到你們！

英文原文：https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/

譯者：LuCima

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論