前幾天遇到一個(gè)問(wèn)題,需要把網(wǎng)頁(yè)中的一部分內(nèi)容挑出來(lái),于是找到了urllib和HTMLParser兩個(gè)庫(kù).urllib可以將網(wǎng)頁(yè)爬下來(lái),然后交由HTMLParser解析,初次使用這個(gè)庫(kù),在查官方文檔時(shí)也遇到了一些問(wèn)題,在這里寫下來(lái)與大家分享.
一個(gè)例子
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
? def handle_starttag(self, tag, attrs):
??? print "a start tag:",tag,self.getpos()
parser=MyHTMLParser()
parser.feed('
"hello"
這個(gè)例子里HTMLParser是基類,重載了他的handle_starttag方法,輸出了一些信息.parser是MyHTMLParser的實(shí)例,調(diào)用feed方法開(kāi)始解析函數(shù).值得注意的是,不需要顯示調(diào)用handle_starttag方法就會(huì)執(zhí)行.
HTMLParser方法的調(diào)用方式困惑了我很長(zhǎng)時(shí)間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調(diào)用的,而另一類不需顯示調(diào)用.
不需顯式調(diào)用的方法
下面的這些函數(shù)在解析的過(guò)程中會(huì)觸發(fā),但是默認(rèn)情況下不會(huì)產(chǎn)生任何副作用,因而我們要根據(jù)自己的需求重載.
1.HTMLParser.handle_starttag(tag,attrs): 解析時(shí)遇到開(kāi)始標(biāo)簽調(diào)用,如
,參數(shù)tag是標(biāo)簽名,這里是'p',attrs為標(biāo)簽所有屬性(name,value)列表,這里是[('class','para')]
2.HTMLParser.handle_endtag(tag): 遇到結(jié)束標(biāo)簽時(shí)調(diào)用,tag是標(biāo)簽名
3.HTMLPars.handle_data(data): 遇到標(biāo)簽中間的內(nèi)容時(shí)調(diào)用,如 ,參數(shù)data為開(kāi)閉標(biāo)簽間的內(nèi)容.值得注意的是在形如
...
當(dāng)然還有其他函數(shù),這里不做介紹
顯式調(diào)用的方法
1.HTMLParser.feed(data): 參數(shù)為需要解析的html字符串,調(diào)用后字符串開(kāi)始被解析
2.HTMLParser.getpos(): 返回當(dāng)前的行號(hào)和偏移位置,如(23,5)
3.HTMLParser.get_starttag_text(): 返回當(dāng)前位置最近的開(kāi)始標(biāo)簽的內(nèi)容
所有的內(nèi)容寫完了,最后還有一點(diǎn)注意事項(xiàng),HTMLParser只是一個(gè)簡(jiǎn)單的模塊,解析html的功能并不完善,例如不能準(zhǔn)確的分別開(kāi)標(biāo)簽和"自閉標(biāo)簽",看下面代碼:
from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
? def handle_starttag(self,tag,attrs):
??? print 'begin tag',tag
? def handle_startendtag(self,tag,attrs):
??? print 'begin end tag',tag
str1='
'
str2='
'
parser=MyHTMLParser()
parser.feed(str1)??? # 輸出 "begin tag br"
parser.feed(str2)??? # 輸出 "begin end br"
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
