獲取登錄窗口背后的信息
大多數網站的服務器進行數據交互時都是用HTTP 協議的 GET 方法去請求信息,而頁面表單基本上可以看成是一種用戶提交 POST 請求的方式。就像網站的 URL 鏈接可以幫助用戶發送 GET 請求一樣,HTML 表單可以幫助用戶發出 POST 請求。
Requests 庫是一個擅長處理那些復雜的 HTTP 請求、cookie、header(響應頭和請求頭)等內容的 Python 第三方庫。
1 表單提交只需要關注兩件事
:
? 你想提交數據的字段名稱(本案例是firstname,lastname)
? 表單的 action 屬性,也就是表單提交后網站會跳轉到的頁面(本案例是http://url1)
- 常見的表單如下:
import requests
params = {'firstname': 'Ryan', 'lastname': 'Mitchell'}
r = requests.post("url1", data=params)
print(r.text)
- 如果遇到上傳圖片文件,如下:
則構造請求如下:
提交文件的方式如下:
files = {'uploadFile': open('../files/Python-logo.png', 'rb')}
r = requests.post("url2",files=files)
- 碰到的是傳遞參數的GET請求,我們只需要觀察URL形式就可以確認相應的表單:
http://domainname.com?thing1=foo&thing2=bar
這個請求就是下面這種表單:
對應的 Python 參數就是:
{'thing1':'foo', 'thing2':'bar'}
2 處理登錄和cookie
大多數新式的網站都用 cookie 跟蹤用戶是否已登錄的狀態信息。有的網站經常暗自調整cookie,或者如果你從一開始就完全不想要用 cookie,那么 Requests 庫的session函數可以完美地解決這些問題。
import requests
session = requests.Session()
params = {'username': 'username', 'password': 'password'}
s = session.post("http://pythonscraping.com/pages/cookies/welcome.php", params)
print("Cookie is set to:")
print(s.cookies.get_dict())
print("-----------")
print("Going to profile page...")
s = session.get("http://pythonscraping.com/pages/cookies/profile.php")
print(s.text)
會話(session)對象(調用 requests.Session() 獲取)會持續跟蹤會話信息,像 cookie、header,甚至包括運行 HTTP 協議的信息。
3 HTTP基本接入認證
在發明 cookie 之前,處理網站登錄最常用的方法就是用 HTTP 基本接入認證(HTTP basicaccess authentication)。有時還能見到它們,尤其是在一些安全性較高的網站或公司網站。Requests 庫有一個 auth 模塊專門用來處理 HTTP 認證:
import requests
from requests.auth import AuthBase
from requests.auth import HTTPBasicAuth
auth = HTTPBasicAuth('ryan', 'password')
r = requests.post(url="http://pythonscraping.com/pages/auth/login.php", auth=auth)
print(r.text)
?
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
