Python實(shí)現(xiàn)的爬取豆瓣電影信息功能案例

系統(tǒng) 2019-09-27 17:56:16 2132 0

本文實(shí)例講述了Python實(shí)現(xiàn)的爬取豆瓣電影信息功能。分享給大家供大家參考，具體如下：

本案例的任務(wù)為，爬取豆瓣電影top250的電影信息（包括序號、電影名稱、導(dǎo)演和主演、評分以及經(jīng)典臺詞），并將信息作為字典形式保存進(jìn)txt文件。這里只用到requests庫，沒有用到beautifulsoup庫

step1：首先獲取每一頁的源代碼，用requests.get函數(shù)獲取，為了防止請求錯誤，使用try...except..

            
def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None

step2：做每一頁的網(wǎng)址解析，打開原網(wǎng)址https://movie.douban.com/top250?，查看網(wǎng)頁源代碼，可以看到每一個電影的源代碼都是從

開始，在

處結(jié)束，寫好正則表達(dá)式以后爬到的列表的每一條item都有五個元素，因此將其寫成字典的形式，這里用到y(tǒng)ield函數(shù)（關(guān)于yield函數(shù)的用法，廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/）

對單個網(wǎng)頁的進(jìn)行解析的代碼如下：

            
def parsepage(html):
  pat=re.compile('
            
              .*?
              
                (.*?)
              
              .*?
              
              '
          +'(.*?)
              
              
              .*?property="v:average">(.*?).*?
              
                (.*?)
              
              .*?
            
            ',re.S)
  items=re.findall(pat,html)
  for item in items:
    yield{
      'index':item[0],
      'title':item[1],
      'stars':item[2].strip(),
      'score':item[3],
      'concept':item[4]
    }

下面的代碼是將每一個item寫入文件，這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時中文能保持不變，json.dumps可以將（字典）對象轉(zhuǎn)化成字符串（但前面要先import json），with open的第二個參數(shù)為a，表示每次寫入時，是往后追加（續(xù)接），而不是后一次寫入將之前內(nèi)容覆蓋，\n是指要每一次寫入一個item之后要換行。

            
def write_tofile(content):
  with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
    f.write(json.dumps(content,ensure_ascii=False)+'\n')
    f.close()

最后，需要用循環(huán)語句將每一頁（共10頁）內(nèi)容都進(jìn)行以上操作。這里，第二頁的網(wǎng)址就是在第一頁的url上加上一個start=25, 第三頁是加上start=50，也就是每一頁的start=為25*i。最后一段代碼如下：

            
def main():
  url="https://movie.douban.com/top250?"
  for i in range(0,9):
    url_i=url+'start='+str(25*i)
    html_i=getpage(url_i)
    for item in parsepage(html_i):
      print(item)
      write_tofile(item)
if __name__ == '__main__':
  main()

當(dāng)然，這一段代碼還有一種寫法：

            
def main(start):
  url="https://movie.douban.com/top250?start="+str(start)
  html=getpage(url)
  for item in parsepage(html):
    print(item)
    write_tofile(item)
if __name__ == '__main__':
  for i in range(10):
    main(i*10)

如果想讓你的程序跑的更快，可以用多線程爬蟲（當(dāng)然這里其實(shí)沒有必要）：

            
#在最開始加載Pool包
from multiprocessing import Pool
#最后的執(zhí)行段改為：
if __name__ == '__main__':
  for i in range(10):
    main(i*10)
  pool=Pool() #在循環(huán)外寫
  pool.map(main,[i*10 for i in range (10)])

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題：《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設(shè)計有所幫助。

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長非常感激您！手機(jī)微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發(fā)表我的評論

最新評論總共0條評論