本文實例講述了Python實現的爬取豆瓣電影信息功能。分享給大家供大家參考,具體如下:
本案例的任務為,爬取豆瓣電影top250的電影信息(包括序號、電影名稱、導演和主演、評分以及經典臺詞),并將信息作為字典形式保存進txt文件。這里只用到requests庫,沒有用到beautifulsoup庫
step1:首先獲取每一頁的源代碼,用requests.get函數獲取,為了防止請求錯誤,使用try...except..
def getpage(url):
try:
res=requests.get(url)
if res.status_code==200:
return res.text
return None
except RequestException:
return None
step2:做每一頁的網址解析,打開原網址https://movie.douban.com/top250?,查看網頁源代碼,可以看到每一個電影的源代碼都是從
對單個網頁的進行解析的代碼如下:
def parsepage(html):
pat=re.compile('
.*?property="v:average">(.*?).*? (.*?) .*?
下面的代碼是將每一個item寫入文件,這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時中文能保持不變,json.dumps可以將(字典)對象轉化成字符串(但前面要先import json),with open的第二個參數為a,表示每次寫入時,是往后追加(續接),而不是后一次寫入將之前內容覆蓋,\n是指要每一次寫入一個item之后要換行。
def write_tofile(content):
with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
f.write(json.dumps(content,ensure_ascii=False)+'\n')
f.close()
最后,需要用循環語句將每一頁(共10頁)內容都進行以上操作。這里,第二頁的網址就是在第一頁的url上加上一個start=25, 第三頁是加上start=50,也就是每一頁的start=為25*i。最后一段代碼如下:
def main():
url="https://movie.douban.com/top250?"
for i in range(0,9):
url_i=url+'start='+str(25*i)
html_i=getpage(url_i)
for item in parsepage(html_i):
print(item)
write_tofile(item)
if __name__ == '__main__':
main()
當然,這一段代碼還有一種寫法:
def main(start):
url="https://movie.douban.com/top250?start="+str(start)
html=getpage(url)
for item in parsepage(html):
print(item)
write_tofile(item)
if __name__ == '__main__':
for i in range(10):
main(i*10)
如果想讓你的程序跑的更快,可以用多線程爬蟲(當然這里其實沒有必要):
#在最開始加載Pool包
from multiprocessing import Pool
#最后的執行段改為:
if __name__ == '__main__':
for i in range(10):
main(i*10)
pool=Pool() #在循環外寫
pool.map(main,[i*10 for i in range (10)])
更多關于Python相關內容可查看本站專題:《Python Socket編程技巧總結》、《Python正則表達式用法總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設計有所幫助。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元

