欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

使用Python + fitz + PIL+ pytesseract 解析

系統(tǒng) 4198 0

之前想了很多種辦法來解析PDF文件內容(Python 讀取PDF文件),一般針對電子版word或者Excel轉化為PDF的PDF文件具有不錯的效果,但是依然不能解析圖片(圖片中文字)內容,如果PDF是掃描版呢,那種方法就不行了。

所以我又想了另一個辦法,就是先把PDF文件轉化為圖片,然后再將圖片進行OCR識別,得到最終PDF的內容。

1 把PDF轉化為圖片

可以參考博文:windows下用Python把pdf文件轉化為圖片

代碼如下:

            
              import fitz

PDF_path = "你的PDF文件路徑"
imgs_save_path = "圖片保存文件夾路徑"

def PDF_to_imgs(PDF_path, save_path):
    # 打開PDF文件,生成一個對象
    doc = fitz.open(PDF_path)

    # 將PDF文件的每一頁都轉化為圖片
    for pg in range(doc.pageCount):
        page = doc[pg]
        rotate = int(0)
        # 每個尺寸的縮放系數(shù)為2,這將為我們生成分辨率提高4倍的圖像。
        zoom_x = 2
        zoom_y = 2
        trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)
        pm = page.getPixmap(matrix=trans, alpha=False)
        pm.writePNG(save_path + '%s.png' % pg)
        
                
PDF_to_imgs(PDF_path, imgs_save_path)          
            
          

2 將圖片進行OCR識別

pytesseract模塊的安裝參考博文:基于python的OCR字符識別

代碼如下:

            
              import os
import pytesseract
 
from PIL import Image

imgs_save_path = "C:\\Users\\Administrator\\Desktop\\PDF\\"
txts_save_path = "C:\\Users\\Administrator\\Desktop\\TXT\\"
        
def img_to_txt(imgs_path, save_path):
    # 將文件夾下的所有圖片進行OCR識別
    for files, _, file_names in os.walk(imgs_path):
        for file_name in file_names:
            image = Image.open(files + file_name)
            # chi_sim 是中文識別包,equ 是數(shù)學公式包,eng 是英文包
            content = pytesseract.image_to_string(image, lang="chi_sim")
            txt_name = file_name.split(".")[0] + ".txt"
            with open(save_path + txt_name, "w") as f:
                f.write(content)


img_to_txt(imgs_save_path, txts_save_path)          
            
          

?


更多文章、技術交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 激情毛片 | 亚洲一区在线免费 | 91在线 在线播放 | 一区二区三区日韩在线观看 | 亚洲精品免费在线 | a级在线观看 | 久久精品视频在线观看 | 国产偷久久一级精品60部 | 激情五月婷婷综合网 | 色综合久久88色综合天天 | 美女黄影院 | 亚洲精品无码成人A片色欲 亚洲欧美日韩激情在线观看 | 国产美女一区二区三区 | 欧美日韩一区二区三 | lutube成人福利在线观看污 | 黄色小视频在线观看 | 色欧美片视频在线观看 | 日本伊人色综合网站 | 久久se精品一区精品二区 | 欧美一级毛片欧美大尺度一级毛片 | 日本高清在线观看视频 | 四虎av电影| 两性仑乱视频 | 99久久精品免费看国产免费 | 日韩 欧美 国产 师生 制服 | 美女用震蛋叫爽的视频95视频 | 国产综合精品 | 妞干网在线免费观看 | 色综合天天综合网国产成人网 | 欧美中文字幕在线播放 | 久久精品天天中文字幕人 | 一97日本道伊人久久综合影院 | 久久亚洲精品视频 | 日本伊人色综合网站 | 91精品国产综合久久久久久 | 国产精品色 | 欧美第一页 | 欧美一区二区三区四区夜夜大片 | 一级毛片丰满 出奶水 | 成人午夜免费视频毛片 | 亚洲专区区免费 |