今天沒啥事兒就在網上溜達,對,只是溜達沒干別的,鼠標點著點著進了一個網站,一個妹子圖網站,然后然后就一發不可收拾,一看就是一個小時。自認為自控力還可以,奈何里面的內容太精彩了,什么高qing、午馬、shi身啊.........真吃雞,自己都控制不住自己,,,,
當然,作為一名“技術人”,內容肯定不會一點一點地去看,要看就要看過癮;然后一不小心就把里面的東西給全部下下來了,沒看錯是全部下下來了,先看個效果圖:
網站是張這個樣子的:
廢話不多說,直接開始爬取,首先我們把每個妹子的圖片統稱為一組照片
接著按「F12」打開開發者工具,想獲取每一組中的每張圖片的下載鏈接,我們需要知道每組照片的鏈接,也就是每張照片的入口所在;從源碼中可以看到每組圖片的鏈接是可以通過「li標簽」下的?「href屬性」所獲取,所以每組圖片的入口可以很輕松地獲取:
然后接下來需要獲取一下每組照片內部每張照片下載url,任意選一組照片點進去,圖片展示的樣式如下,是一張為一頁的展示方式;
依舊按按「F12」打開開發者工具,可以很方便地獲取到每張照片的下載地址,可以通過「a標簽」下的?「src屬性」所獲取:
有了圖片的源地址,接下來就是要開始下載圖片了,可以利用利用requests去請求每張圖片,然后把請求的內容二進制(contend)以.jpg保存即可;因為每張圖片是一頁,所以如果想獲取全部圖片就通過簡單構造url的方式來完成。
以上已經簡單地分析了一下,接下來就要進行編寫代碼了,首先構造一個函數獲取每組照片的url,然后通過翻頁的方式實現全網每組照片的url的獲取:
在構造一個函數就是對于每組圖片的爬取與下載,如下,先獲取每張圖片的url,通過requests進行請求,把返回來的內容以.jpg格式保存到文檔中
總的爬取效果如下,是不是很「吃雞」
對了,網站可能有簡單的反爬措施,需要加一下「headers」,最好在訪問的時候控制一下訪問頻率,加一行「time.sleep(2)」即可。
想要本次教程「源碼」跟「福利」的,關注微信公眾號: zeroing ,后臺回復關鍵詞: 妹子 即可
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
