首先需要安裝
pdfminer3k?
庫(kù):
pip install pdfminer3k
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator
path = r"C:\Users\Administrator\Desktop\a.pdf"
toPath = r"C:\Users\Administrator\Desktop\a.txt"
def Pdf2Txt(Path,Save_name):
#來(lái)創(chuàng)建一個(gè)pdf文檔分析器
parser = PDFParser(Path)
#創(chuàng)建一個(gè)PDF文檔對(duì)象存儲(chǔ)文檔結(jié)構(gòu)
document = PDFDocument(parser)
# 檢查文件是否允許文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
else:
# 創(chuàng)建一個(gè)PDF資源管理器對(duì)象來(lái)存儲(chǔ)共賞資源
rsrcmgr=PDFResourceManager()
# 設(shè)定參數(shù)進(jìn)行分析
laparams=LAParams()
# 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象
# device=PDFDevice(rsrcmgr)
device=PDFPageAggregator(rsrcmgr,laparams=laparams)
# 創(chuàng)建一個(gè)PDF解釋器對(duì)象
interpreter=PDFPageInterpreter(rsrcmgr,device)
# 處理每一頁(yè)
for page in PDFPage.create_pages(document):
interpreter.process_page(page)
# 接受該頁(yè)面的LTPage對(duì)象
layout=device.get_result()
for x in layout:
if(isinstance(x,LTTextBoxHorizontal)):
with open('%s'%(Save_name),'a') as f:
f.write(x.get_text()+'\n')
Path = open(path, 'rb')
Pdf2Txt(Path, toPath)
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
