欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

python爬蟲 urllib模塊反爬蟲機制UA詳解

系統(tǒng) 1728 0

方法: 使用urlencode函數(shù)

urllib.request.urlopen()

            
import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?'
#將get請求中url攜帶的參數(shù)封裝至字典中
param = {
  'query':'周杰倫'
}
#對url中的非ascii進行編碼
param = urllib.parse.urlencode(param)
#將編碼后的數(shù)據(jù)值拼接回url中
url += param 
response = urllib.request.urlopen(url=url)
data = response.read()
with open('./周杰倫1.html','wb') as fp:
  fp.write(data)
print('寫入文件完畢')
          

開發(fā)者工具瀏覽器按F12或者右鍵按檢查 ,有個抓包工具network,刷新頁面,可以看到網頁資源,可以看到請求頭信息,UA

在抓包工具點擊任意請求,可以看到所有請求信息,向應信息,

主要用到headers,response,response headers存放響應頭信息,request headers 存放請求信息

python爬蟲 urllib模塊反爬蟲機制UA詳解_第1張圖片

python爬蟲 urllib模塊反爬蟲機制UA詳解_第2張圖片

反爬出機制:網站會檢查請求的UA,如果發(fā)現(xiàn)UA是爬蟲程序,會拒絕提供網站頁面數(shù)據(jù)。

如果網站檢查發(fā)現(xiàn)請求UA是基于某一款瀏覽器標識(瀏覽器發(fā)起的請求),網站會認為請求是正常請求,會把頁面數(shù)據(jù)響應信息給客戶端

User-Agent(UA):請求載體的身份標識

反反爬蟲機制:

偽造爬蟲程序的請求的UA,把爬蟲程序的請求UA偽造成谷歌標識,火狐標識

通過自定義請求對象,用于偽裝爬蟲程序請求的身份。

User-Agent參數(shù),簡稱為UA,該參數(shù)的作用是用于表明本次請求載體的身份標識。如果我們通過瀏覽器發(fā)起的請求,則該請求的載體為當前瀏覽器,則UA參數(shù)的值表明的是當前瀏覽器的身份標識表示的一串數(shù)據(jù)。

如果我們使用爬蟲程序發(fā)起的一個請求,則該請求的載體為爬蟲程序,那么該請求的UA為爬蟲程序的身份標識表示的一串數(shù)據(jù)。

有些網站會通過辨別請求的UA來判別該請求的載體是否為爬蟲程序,如果為爬蟲程序,則不會給該請求返回響應,那么我們的爬蟲程序則也無法通過請求爬取到該網站中的數(shù)據(jù)值,這也是反爬蟲的一種初級技術手段。那么為了防止該問題的出現(xiàn),則我們可以給爬蟲程序的UA進行偽裝,偽裝成某款瀏覽器的身份標識。

上述案例中,我們是通過request模塊中的urlopen發(fā)起的請求,該請求對象為urllib中內置的默認請求對象,我們無法對其進行UA進行更改操作。urllib還為我們提供了一種自定義請求對象的方式,我們可以通過自定義請求對象的方式,給該請求對象中的UA進行偽裝(更改)操作。

自定義請求頭信息字典可以添加谷歌瀏覽器的UA標識,自定義請求對象來偽裝成谷歌UA

1.封裝自定義的請求頭信息的字典,

2.注意:在headers字典中可以封裝任意的請求頭信息

3.將瀏覽器的UA數(shù)據(jù)獲取,封裝到一個字典中。該UA值可以通過抓包工具或者瀏覽器自帶的開發(fā)者工具中獲取某請求,
從中獲取UA的值

            
import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?query='
# url的特性:url不可以存在非ASCII編碼字符數(shù)據(jù)
word = urllib.parse.quote("周杰倫")
# 將編碼后的數(shù)據(jù)值拼接回url中
url = url+word # 有效url
# 發(fā)請求之前對請求的UA進行偽造,偽造完再對請求url發(fā)起請求
# UA偽造
# 1 子制定一個請求對象,headers是請求頭信息,字典形式
# 封裝自定義的請求頭信息的字典,
# 注意:在headers字典中可以封裝任意的請求頭信息
headers = {
  # 存儲任意的請求頭信息
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
# 該請求對象的UA進行了成功的偽裝
request = urllib.request.Request(url=url, headers=headers)
# 2.針對自定義請求對象發(fā)起請求
response = urllib.request.urlopen(request)
# 3.獲取響應對象中的頁面數(shù)據(jù):read函數(shù)可以獲取響應對象中存儲的頁面數(shù)據(jù)(byte類型的數(shù)據(jù)值)
page_text = response.read()
# 4.持久化存儲:將爬取的頁面數(shù)據(jù)寫入文件進行保存
with open("周杰倫.html","wb") as f:
  f.write(page_text)
print("寫入數(shù)據(jù)成功")
          

這樣就可以突破網站的反爬機制

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 欧美日本中文 | 国产亚洲欧美日韩v在线 | 日日干日日插 | 欧美18一12sex性处hd | 欧美中文字幕一区二区三区亚洲 | 99超级碰碰成人香蕉网 | 国产成人99久久亚洲综合精品 | 爱性久久久久久久 | 欧美一级h | 伊人激情网 | av一区二区三区四区 | 久综合网| 可以免费看的黄色片 | 日本不卡不码高清免费 | 久久er热在这里只有精品85 | 欧美成人在线免费观看 | 成人九色 | 国产原创视频在线 | 欧美日韩国产在线 | 久草在线免费福利视频 | 国产精品毛片无码 | 成年人国产网站 | 欧美在线一区二区三区 | 国产午夜精品久久久 | 精品欧美一区二区在线观看欧美熟 | 精品一区二区高清在线观看 | 久碰香蕉精品视频在线观看 | 亚洲偷图色综合色就色 | 污免费网站 | 91精品久久久久久久久网影视 | 亚洲欧美国产高清 | 美女下面被cao出水 玖玖玖影院 | 精品在线一区二区 | 国产美女高潮 | 国产成人精品免高潮在线观看 | 天天拍天天干天天操 | 国产三级在线视频播放线 | 国产精品久久久久免费 | 日本高清久久 | 亚洲视频免费观看 | 亚洲视频在线网 |