效果
技術棧
- python3
- requests
- redis
- echart
源碼地址
https://github.com/MasakiOvO/...
python需要安裝的庫
requests,BeautifulSoup,redis,django
思路
兩個程序。
- 一個程序負責爬取用戶關注和粉絲列表, 并把用戶名存入set
- 另一個程序負責根據用戶名獲取詳細信息,存入hash
維護 兩個列表 1.已爬用戶 2.未爬用戶
第一個程序的流程:
當未爬set不為空時:執行如下操作:
每次從未爬取列表中取出一個用戶名
根據用戶名,獲取他的關注與粉絲并遍歷,如果用戶既沒在已爬用戶,也沒在未爬用戶 加入未爬用戶列表。
第二個程序的流程
每次從未爬set中取出一個用戶名,調用接口獲取詳細信息并存入redis hash中
接口獲取
打開某個人的個人主頁,按F12
選擇XHR 然后點擊圖1的關注我的人,和我關注的人,在圖2就可以看到header和cookie。
獲取用戶列表Api:
https://www.zhihu.com/api/v4/...{username}/{type}?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=20&limit=20
username 是用戶名,
type 是類型, 有兩種可選 [followers,followees], followers是粉絲 followees是關注
改變offset的值可以獲取分頁
獲取個人信息Api:
https://www.zhihu.com/people/...
user_token是用戶名
這個api中 返回的是html頁面,在html頁面中有一個scirpt標簽里面的內容是json格式的用戶信息,這就很方便了,直接獲取鍵值對 對應的屬性就ok。
發送請求
F12查看接口,把header和cookie放進requests.get()方法中。
剩下的就很簡單了,不贅述了。
總結
還有很多優化的地方。比如加入中間件,來提升爬蟲的穩定性。對數據進行分類,統計城市分布。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
