Python利用BeautifulSoup解析Html的方法示例

系統 2019-09-27 17:54:16 2632 0

介紹

Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據，因為簡單，所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。

本文將給大家詳細介紹關于Python利用BeautifulSoup解析Html的方法，下面話不多說了，來一起看看詳細的介紹：

1. 安裝Beautifulsoup4

            
pip install beautifulsoup4
pip install lxml
pip install html5lib

lxml 和 html5lib 是解析器

2. html?

The Website Title

Download my Python book from my website .

Learn Python the easy way!

By Al Sweigart

上面的html保存html文件

3.開始解析

            
import bs4
 
exampleFile = open('example.html')
exampleSoup = bs4.BeautifulSoup(exampleFile.read(),'html5lib')
elems = exampleSoup.select('#author')
type(elems)
print (elems[0].getText())

結果輸出 Al Sweigart

BeautifulSoup 使用select 方法尋找元素，類似jquery的css選擇器

soup.select(‘div') ―――――――?C所有為
的元素
soup.select(‘#author') ―――――?Cid為author的元素
soup.select(‘.notice') ――――――class 為notice的元素

參考《Python 編程快速上手―?C讓繁瑣工作自動化》

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作能帶來一定的幫助，如果有疑問大家可以留言交流，謝謝大家對腳本之家的支持

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論