本文對Python爬蟲常用的模塊做了較為深入的分析,并以實例加以深入說明。分享給大家供大家參考之用。具體分析如下:
creepy模塊
某臺灣大神開發的,功能簡單,能夠自動抓取某個網站的所有內容,當然你也可以設定哪些url需要抓。
地址:https://pypi.python.org/pypi/creepy
功能接口:
set_content_type_filter:
設定抓取的content-type(header中的contenttype)。包括text/html
add_url_filter:
過濾url,傳入的可以是正則表達式
set_follow_mode:
設定遞歸模式,F_ANY:該頁面上所有鏈接都會抓取。 F_SAME_DOMAIN和F_SAME_HOST類似。即同一個域名的都會抓取。F_SAME_PATH:同一路徑的抓取。例如bag.vancl.com/l1/d3/1.jpg path為l1/d3/1.jpg,則path為l1/d3/*的都會抓取。這里可以根據需要增加自己的遞歸模式
set_concurrency_level:
設定線程最大數
process_document:
一般需要重寫,處理網頁內容,提取自己需要的內容。
selenium
可視化界面,抓取自動化,api使用超簡單,完全像是自己在操作瀏覽器。
官方網站:http://www.seleniumhq.org/
python官方網站
http://pypi.python.org/pypi/selenium
webdriver api(很好用,建議多了解一下)
http://www.seleniumhq.org/docs/03_webdriver.jsp
以下是一個抓取凡客網站的例子:
from selenium import webdriver from selenium.webdriver.common.keys import Keys import time browser = webdriver.Firefox() browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n') elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box time.sleep(1) print elem.get_attribute("href") elem.click() time.sleep(1) elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box print elem.get_attribute("href") elem.click()
希望本文所述對大家的Python程序設計有所幫助。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
