黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

Python爬蟲運(yùn)用正則表達(dá)式的方法和優(yōu)缺點(diǎn)

系統(tǒng) 2262 0

前言

我看到最近幾部電影很火,查了一下貓眼電影上的數(shù)據(jù),發(fā)現(xiàn)還有個(gè)榜單,里面有各種經(jīng)典和熱映電影的排行榜,然后我覺得電影封面圖還挺好看的,想著一張一張下載真是費(fèi)時(shí)費(fèi)力,于是突發(fā)奇想,好像可以用一下最近學(xué)的東西實(shí)現(xiàn)我的需求,學(xué)習(xí)了正則表達(dá)式之后,想著要感受一下它在爬蟲里面的效果和優(yōu)缺點(diǎn)。

目標(biāo):爬取Top100榜單上電影的封面圖

Top100榜單規(guī)則:將貓眼電影庫中的經(jīng)典影片,按照評(píng)分和評(píng)分人數(shù)從高到低綜合排序取前100名,每天上午10點(diǎn)更新。相關(guān)數(shù)據(jù)來源于“貓眼電影庫”。

下面是我做的步驟:

(1)查看頁面元素,找到包含圖片的路徑的代碼段落

(2)分析圖片在web上面的唯一屬性,便于之后獲取正確圖片位置信息

(3)因?yàn)樾枰摚^察多個(gè)頁面的URL變化

(4)綜合以上幾個(gè)點(diǎn),編寫合適的正則表達(dá)式

?1、python 標(biāo)準(zhǔn)庫中re模塊提供了正則表達(dá)式的全部功能,直接引入;requests模塊是http庫,爬蟲常用庫,而urllib.requests 則是最后用到寫入文件的函數(shù)

            
import re
import requests
import urllib.request
          

2、先接收URL地址的HTML頁面,然后轉(zhuǎn)化為str形式(正則表達(dá)式是匹配字符串),第一個(gè)pattern1縮小范圍,抓取目標(biāo)部分,result1接收匹配的結(jié)果,這時(shí)候所有封面圖地址就在里面了

            
response = requests.get(url)
response = str(response.content)
patttern1 = '
            
.+?
' result1 = re.compile(pat).findall(response)

3、第二個(gè)正則,匹配圖片的地址信息

                  
pat2 = '
                  
                  
                    Python爬蟲運(yùn)用正則表達(dá)式的方法和優(yōu)缺點(diǎn)_第1張圖片
                  
                  

?4、繼續(xù)下一步,把每張圖片命名好,需要正確的圖片地址,避免重復(fù)?

                      
x = 1
for imgurl in name:
 imgname = 'D:/Top 100/'+str(i/10)+str(x)+'.jpg'
 imgurl = 'https://'+imgurl
 urllib.request.urlretrieve(imgurl,filename=imgname)
 x += 1
                    

?5、最后一步了,因?yàn)樾枰撆廊。约恿艘粋€(gè)循環(huán),10頁內(nèi)容爬取下來

                      
for i in range(0, 100, 10):
  url = 'http://maoyan.com/board/4?offset='+str(i)
  get_one_page(url, i)
  #定義函數(shù),多次調(diào)用
                    

相對(duì)來說,這是一個(gè)很簡(jiǎn)單的應(yīng)用,也是自己學(xué)習(xí)之后的實(shí)踐,在這個(gè)例子中,我是用到正則表達(dá)式來實(shí)現(xiàn)的,還有其他方法,而且可能簡(jiǎn)單,比如BeautifulSoup,XPath等方法,用在更加復(fù)雜的爬蟲項(xiàng)目里面,需要的知識(shí)更多,方法更嚴(yán)謹(jǐn),還需學(xué)習(xí)學(xué)習(xí)!

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論