精品国产成人,免费在线一级毛片,亚洲精品粉嫩美女一区

爬蟲的抓取方式有好幾種， 正則表達(dá)式，Lxml(xpath)與BeautifulSoup, 我在網(wǎng)上查了一下資料，了解到三者之間的使用難度與性能

三種爬蟲方式的對(duì)比。

抓取方式	性能	使用難度
正則表達(dá)式	快	困難
Lxml	快	簡(jiǎn)單
BeautifulSoup	慢	簡(jiǎn)單

這樣一比較我我選擇了Lxml(xpath)的方式了，雖然有三種方式，但肯定是要選擇最好的方式來爬蟲，這個(gè)道理大家都懂，另外有興趣的朋友也可以去了解另外兩種爬蟲方式！

好了現(xiàn)在來講講xpath

由于Xpath屬于lxml模塊，所以首先需要安裝lxml庫(kù)，老辦法直接在file-->setting---project interpreter 一鍵添加lxml庫(kù)。

xpath簡(jiǎn)單用法

          from lxml import etree
          

           s=etree.HTML(源碼) #將源碼轉(zhuǎn)化為能被XPath匹配的格式
          

           s.xpath(xpath表達(dá)式) #返回為一列表,

基礎(chǔ)語法：

// 雙斜杠定位根節(jié)點(diǎn)，會(huì)對(duì)全文進(jìn)行掃描，在文檔中選取所有符合條件的內(nèi)容，以列表的形式返回。
/ 單斜杠尋找當(dāng)前標(biāo)簽路徑的下一層路徑標(biāo)簽或者對(duì)當(dāng)前路標(biāo)簽內(nèi)容進(jìn)行操作
/text() 獲取當(dāng)前路徑下的文本內(nèi)容
/@xxxx 提取當(dāng)前路徑下標(biāo)簽的屬性值
| 可選符使用|可選取若干個(gè)路徑如//p | //div 即在當(dāng)前路徑下選取所有符合條件的p標(biāo)簽和div標(biāo)簽。
. 點(diǎn) 用來選取當(dāng)前節(jié)點(diǎn)
.. 雙點(diǎn) 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)

學(xué)以致用，方能讓我們能快速掌握xpath語法功能。

我們這次需要爬取豆瓣音樂前250條

打開豆瓣音樂：https://music.douban.com/top250

在此推薦小編創(chuàng)建的Python學(xué)習(xí)交流群：835017344，這里是python學(xué)習(xí)者聚集地，有大牛答疑，有資源共享！有想學(xué)習(xí)python編程的，或是轉(zhuǎn)行，或是大學(xué)生，還有工作中想提升自己能力的，正在學(xué)習(xí)的小伙伴歡迎加入學(xué)習(xí)。

獲取單條數(shù)據(jù)

1.獲取音樂標(biāo)題

打開網(wǎng)址，按下F12，然后查找標(biāo)題，右鍵彈出菜單欄 Copy==> Copy Xpath

Python爬蟲：現(xiàn)學(xué)現(xiàn)用xpath爬取豆瓣音樂_第2張圖片

image

這里我們想獲取音樂標(biāo)題，音樂標(biāo)題的xpath是： xpath://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text #這里一般先打印一下html內(nèi)容，看看是否有內(nèi)容再繼續(xù)。
            

             s = etree.HTML(html)
            

             title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a')
            

             print title

運(yùn)行代碼：

居然是空的。！！！

這里需要注意一下，瀏覽器復(fù)制的xpath只能作參考，因?yàn)闉g覽器經(jīng)常會(huì)在自己里面增加多余的tbody標(biāo)簽，我們需要手動(dòng)把這個(gè)標(biāo)簽刪除

刪除中間的/tbody后,是這樣的，

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a')

然后我們?cè)龠\(yùn)行代碼。

得到：

說明標(biāo)題被獲取到了。

因?yàn)橐@取標(biāo)題文本，所以xpath表達(dá)式要追加/text()

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()

又因?yàn)檫@個(gè)s.xpath返回的是一個(gè)集合，且集合中只有一個(gè)元素所以我再追加一個(gè)[0]

新的表達(dá)式：

title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text(),再追加[0]

重新運(yùn)行得到結(jié)果：

We Sing. We Dance. We Steal Things.

正是我們想要的標(biāo)題。

2.獲取音樂評(píng)分與評(píng)價(jià)人數(shù)

老辦法，先用右鍵copy評(píng)分的xpath : //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[2]
復(fù)制評(píng)價(jià)人數(shù)的xpath: //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/div/span[3]/text()

同樣的我們要把tbody去掉，然后重新運(yùn)行代碼：

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             title = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               score = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             numbers = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             print title,score,numbers

得到：

           We Sing. We Dance. We Steal Things.
          

           9.1
          

           (
          

           100395人評(píng)價(jià)
          

           )

3.獲取音樂鏈接

copy標(biāo)題的xpath，： //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a

想獲取音樂連接href這里需要，獲取這個(gè)標(biāo)簽屬于,/@xxx可以提取當(dāng)前路徑標(biāo)簽下的屬性值

//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a/@href

代碼：

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             href = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/@href')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               title = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             score = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               numbers = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             print href,title,score,numbers

運(yùn)行代碼得到：

          https://music.douban.com/subject/2995812/
          

           We Sing. We Dance. We Steal Things.
          

           9.1
          

           (
          

           100395人評(píng)價(jià)
          

           )

5.獲取圖片地址：

找到圖片，復(fù)制他的xpath地址： //*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[1]/a/img

運(yùn)行代碼：

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             href = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/@href')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               title = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             score = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               numbers = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             imgpath = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[1]/a/img/@src')[0]#因?yàn)橐@取文本，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             print href,title,score,numbers,imgpath

老套路：

得到結(jié)果:

          https://music.douban.com/subject/2995812/
          

           We Sing. We Dance. We Steal Things.
          

           9.1
          

           (
          

           100395人評(píng)價(jià)
          

           )
          

           https://img3.doubanio.com/spic/s2967252.jpg

但是這只是獲取了一條數(shù)據(jù)，如果獲取多條數(shù)據(jù)呢？

獲取多條數(shù)據(jù)

Python爬蟲：現(xiàn)學(xué)現(xiàn)用xpath爬取豆瓣音樂_第3張圖片

image

我們?cè)倏吹诙l數(shù)據(jù)，第三條數(shù)據(jù),第四條數(shù)據(jù)

得到他們的xpath:

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             title = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               title2 = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[2]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             title3 = s.xpath('//
            
              [@id="content"]/div/div[1]/div/table[3]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
              

               title4 = s.xpath('//
            
            [@id="content"]/div/div[1]/div/table[4]/tr/td[2]/div/a/text()')[0]#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
            

             print title,title2,title3,title4

得到：

           We Sing. We Dance. We Steal Things.
          

           Viva La Vida
          

           華麗的冒險(xiǎn)
          

           范特西

對(duì)比他們的xpath，發(fā)現(xiàn)只有table序號(hào)不一樣，我們可以就去掉序號(hào)，得到通用的xpath信息：

運(yùn)行代碼：

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            url = 'https://music.douban.com/top250'
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             titles = s.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/text()')#因?yàn)橐@取標(biāo)題，所以我需要這個(gè)當(dāng)前路徑下的文本，所以使用/text()
          
          
            for title in titles:
            

             print title.strip()

得到：

          We Sing. We Dance. We Steal Things.
          

           Viva La Vida
          

           華麗的冒險(xiǎn)
          

           范特西
          

           後。青春期的詩
          

           是時(shí)候
          

           Lenka
          

           Start from Here
          

           旅行的意義
          

           太陽
          

           Once (Soundtrack)
          

           Not Going Anywhere
          

           American Idiot
          

           OK
          

           無與倫比的美麗
          

           親愛的...我還不知道
          

           城市
          

           O
          

           Wake Me Up When September Ends
          

           葉惠美
          

           七里香
          

           21
          

           My Life Will...
          

           寓言
          

           你在煩惱什么

其它的信息如：鏈接地址，評(píng)分，評(píng)價(jià)人數(shù)都可以用同樣的辦法來獲取，現(xiàn)在我同時(shí)獲取多條數(shù)據(jù)，因?yàn)槊宽摂?shù)據(jù)是25條，所以：

完整代碼如下：

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          

           url = 'https://music.douban.com/top250'
          

           html = requests.get(url).text
          

           s = etree.HTML(html)
          

           hrefs = s.xpath('//
          
            [@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/@href')
            

             titles = s.xpath('//
          
          [@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/text()')
          

           scores = s.xpath('//
          
            [@id="content"]/div/div[1]/div/table/tr/td[2]/div/div/span[2]/text()')
            

             numbers = s.xpath('//
          
          [@id="content"]/div/div[1]/div/table/tr/td[2]/div/div/span[3]/text()')
          

           imgs = s.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[1]/a/img/@src')
          

           for i in range(25):
          

           print hrefs[i],titles[i],scores[i],numbers[i],imgs[i]

得到：

一大批數(shù)據(jù)了，我就不展示了。有興趣可以直接copy代碼運(yùn)行.,注意你得裝上lxml與requests庫(kù).

我們也發(fā)現(xiàn)了問題每一個(gè)xpath路徑特別長(zhǎng)，能不能精簡(jiǎn)一下呢？

5. 精簡(jiǎn)一下xpath路徑

          hrefs = s.xpath('//
          
            [@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/@href')
            

             titles = s.xpath('//
          
          [@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/text()')
          

           scores = s.xpath('//
          
            [@id="content"]/div/div[1]/div/table/tr/td[2]/div/div/span[2]/text()')
            

             numbers = s.xpath('//
          
          [@id="content"]/div/div[1]/div/table/tr/td[2]/div/div/span[3]/text()')
          

           imgs = s.xpath('//*[@id="content"]/div/div[1]/div/table/tr/td[1]/a/img/@src')

觀察發(fā)現(xiàn)獲取幾個(gè)關(guān)鍵字段的xpath前綴都是 //*[@id="content"]/div/div[1]/div/table/tr 那我能不能把這些東西提出來呢，讓后面的不同的自己去追加，另外這樣寫也不用管每個(gè)頁面到底有多少條數(shù)據(jù)，只管查就行了。所以代碼做了一下精簡(jiǎn)。

          url = 'https://music.douban.com/top250'
          
          
          
            html = requests.get(url).text
            

             s = etree.HTML(html)
            

             trs = s.xpath('//*[@id="content"]/div/div[1]/div/table/tr') #先提取tr之前的節(jié)點(diǎn)集合
          
          
            for tr in trs: #遍歷tr
            

             href = tr.xpath('./td[2]/div/a/@href')[0] #注意新節(jié)點(diǎn)是tr下的節(jié)點(diǎn)
            

             title = tr.xpath('./td[2]/div/a/text()')[0]
            

             score = tr.xpath('./td[2]/div/div/span[2]/text()')[0]
            

             number = tr.xpath('./td[2]/div/div/span[3]/text()')[0]
            

             img = tr.xpath('./td[1]/a/img/@src')[0]
            

             print href,title,score,number,img

得到的結(jié)果和之前是一樣的。

但是，但是，這只是一個(gè)頁面的數(shù)據(jù)，我現(xiàn)在想爬取多個(gè)頁面的數(shù)據(jù)，怎么辦呢？

獲取個(gè)多頁面數(shù)據(jù).

觀察一下翻頁路徑：

https://music.douban.com/top250?start=0

https://music.douban.com/top250?start=25

https://music.douban.com/top250?start=50

有沒有發(fā)現(xiàn)頁面只是后面start參數(shù)發(fā)生了改變，且增長(zhǎng)為每次25，并且250條數(shù)據(jù)正好是10頁。

所以我可以遍歷這個(gè)頁面。

代碼：

          for i in range(10):
          

           url = 'https://music.douban.com/top250?start={}'.format(i*25)
          

           print url

得到：

          https://music.douban.com/top250?start=0
          

           https://music.douban.com/top250?start=25
          

           https://music.douban.com/top250?start=50
          

           https://music.douban.com/top250?start=75
          

           https://music.douban.com/top250?start=100
          

           https://music.douban.com/top250?start=125
          

           https://music.douban.com/top250?start=150
          

           https://music.douban.com/top250?start=175
          

           https://music.douban.com/top250?start=200
          

           https://music.douban.com/top250?start=225

正是自己要的結(jié)果。

好了最后我們把代碼拼裝在一起，并注意每個(gè)方法的用途。

完整代碼

          # coding:utf-8
          

           from lxml import etree
          

           import requests
          
          
          
            獲取頁面地址
          
          
            def getUrl():
            

             for i in range(10):
            

             url = 'https://music.douban.com/top250?start={}'.format(i*25)
            

             scrapyPage(url)
          
          
            爬取每頁數(shù)據(jù)
          
          
            def scrapyPage(url):
            

             html = requests.get(url).text
            

             s = etree.HTML(html)
            

             trs = s.xpath('//*[@id="content"]/div/div[1]/div/table/tr')
          
                      
              for tr in trs:
    href = tr.xpath('./td[2]/div/a/@href')[0]
    title = tr.xpath('./td[2]/div/a/text()')[0]
    score = tr.xpath('./td[2]/div/div/span[2]/text()')[0]
    number = tr.xpath('./td[2]/div/div/span[3]/text()')[0]
    img = tr.xpath('./td[1]/a/img/@src')[0]
    print href, title, score, number, img

            
          
          
            if '
            
              main
            
            ':
            

             getUrl()

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系： 360901061

您的支持是博主寫作最大的動(dòng)力，如果您喜歡我的文章，感覺我的文章對(duì)您有幫助，請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長(zhǎng)非常感激您！手機(jī)微信長(zhǎng)按不能支付解決辦法：請(qǐng)將微信支付二維碼保存到相冊(cè)，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】元

2元

5元

10元

20元

自定義