Python3網(wǎng)絡(luò)爬蟲入門詳解（一）

系統(tǒng) 2019-09-27 17:56:06 2403 0

爬蟲的概念：

爬蟲就是獲取網(wǎng)頁并提取和保存信息的自動(dòng)化程序

爬蟲的分類：

主要有四類：

通用網(wǎng)絡(luò)爬蟲，聚焦網(wǎng)絡(luò)爬蟲，增量式網(wǎng)絡(luò)爬蟲，深層網(wǎng)絡(luò)爬蟲

爬蟲的流程：

常見的幾種爬蟲問題：

主要有五類：

靜態(tài)網(wǎng)頁的爬取，Ajax數(shù)據(jù)的爬取，動(dòng)態(tài)渲染頁面爬取，驗(yàn)證碼的識(shí)別，代理的使用

常見的爬蟲框架：

pyspider框架，Scrapy框架

分布式爬蟲：

在多臺(tái)機(jī)器上運(yùn)行爬蟲程序

爬蟲的一些常用"庫"：

解析庫：lxml;Beautiful Soup;pyquery;tesserocr

請求庫：requests;

數(shù)據(jù)庫：MySql;MongoDB;Redis

Web庫：Flask；Tornado

了解熟練這些基本上就對(duì)爬蟲有了很深的理解了。

爬蟲項(xiàng)目實(shí)戰(zhàn)：

抓取貓眼電影排行，爬取淘寶商品，幾種驗(yàn)證碼的識(shí)別，使用代理爬取微信公眾號(hào)文章，使用Scrapy爬取新浪微博（分布式）

我會(huì)將自己所學(xué)的（以上所列的一一記錄在博客里），溫故而知新吧。

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系： 360901061

您的支持是博主寫作最大的動(dòng)力，如果您喜歡我的文章，感覺我的文章對(duì)您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點(diǎn)擊下面給點(diǎn)支持吧，站長非常感激您！手機(jī)微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點(diǎn)擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】元

2元

5元

10元

20元

自定義

發(fā)表我的評(píng)論

最新評(píng)論總共0條評(píng)論