黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

python爬蟲常用的模塊分析

系統(tǒng) 2031 0

本文對(duì)Python爬蟲常用的模塊做了較為深入的分析,并以實(shí)例加以深入說明。分享給大家供大家參考之用。具體分析如下:

creepy模塊

某臺(tái)灣大神開發(fā)的,功能簡(jiǎn)單,能夠自動(dòng)抓取某個(gè)網(wǎng)站的所有內(nèi)容,當(dāng)然你也可以設(shè)定哪些url需要抓。

地址:https://pypi.python.org/pypi/creepy

功能接口:

set_content_type_filter:
設(shè)定抓取的content-type(header中的contenttype)。包括text/html

add_url_filter:
過濾url,傳入的可以是正則表達(dá)式

set_follow_mode:
設(shè)定遞歸模式,F(xiàn)_ANY:該頁面上所有鏈接都會(huì)抓取。 F_SAME_DOMAIN和F_SAME_HOST類似。即同一個(gè)域名的都會(huì)抓取。F_SAME_PATH:同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg,則path為l1/d3/*的都會(huì)抓取。這里可以根據(jù)需要增加自己的遞歸模式

set_concurrency_level:
設(shè)定線程最大數(shù)

process_document:
一般需要重寫,處理網(wǎng)頁內(nèi)容,提取自己需要的內(nèi)容。

selenium
可視化界面,抓取自動(dòng)化,api使用超簡(jiǎn)單,完全像是自己在操作瀏覽器。

官方網(wǎng)站:http://www.seleniumhq.org/
python官方網(wǎng)站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建議多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp

以下是一個(gè)抓取凡客網(wǎng)站的例子:

            
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Firefox()
browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n')
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
time.sleep(1)
print elem.get_attribute("href")
elem.click()

time.sleep(1)
elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box
print elem.get_attribute("href")
elem.click()


          

希望本文所述對(duì)大家的Python程序設(shè)計(jì)有所幫助。


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論