一级片小视频,av在线不卡免费,亚洲欧美日韩一区二区

半次元COS圖爬取-寫在前面

今天在瀏覽網站的時候，忽然一個莫名的鏈接指引著我跳轉到了半次元網站 https://bcy.net/ 打開之后，發現也沒有什么有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，于是乎，我準備好我的大爬蟲了。

把上面的鏈接打開之后，被我發現了吧，就知道我的第八感不錯滴。接下來就是找入口，一定要找到圖片鏈接的入口才可以做下面的操作

這個頁面不斷往下拖拽，頁面會一直加載，當時當你拖拽一會，就停下來了，就是這個時機

發現入口，在我實際的操作中，其實還發現了很多其他的入口，這個就不一一的解釋了，趕緊上車，進入 view more 之后，發現了頁面依舊是一個下拉刷新的布局方式，專業術語 瀑布流 。

半次元COS圖爬取-python爬蟲第一步

打開開發者工具，切換到 network 之后，發現很多 xhr 請求，發現這個，就代表這個網站很容易爬取了

提取待爬取的鏈接，分析規律

            
              https://bcy.net/circle/timeline/loadtag?since=0&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26499.779&grid_type=timeline&tag_id=1482&sort=hot
https://bcy.net/circle/timeline/loadtag?since=26497.945&grid_type=timeline&tag_id=1482&sort=hot

發現只有一個參數在變，而且這變化好像沒有任何規律可以尋找，沒事，看數據，你就可以發現其中的奧妙了

這個網站的原理很簡單，就是通過不斷獲取每次數據的最后一條的 since 然后獲取接下來的數據，那么我們按照它的規律實現代碼就可以了，不要多線程了，這種規律是沒有辦法進行實操的。
這次的數據我把它存儲到 mongodb 里面，因為沒有辦法一次全部獲取到，所以可能需要下次在繼續使用

            
              if __name__ == '__main__':
    ###  mongodb 的一些基本操作   
    DATABASE_IP = '127.0.0.1'
    DATABASE_PORT = 27017
    DATABASE_NAME = 'sun'
    start_url = "https://bcy.net/circle/timeline/loadtag?since={}&grid_type=timeline&tag_id=399&sort=recent"
    client = MongoClient(DATABASE_IP, DATABASE_PORT)

    db = client.sun
    db.authenticate("dba", "dba")
    collection  =  db.bcy  # 準備插入數據
    #####################################3333
    get_data(start_url,collection)
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視頻，這里是Python學習者的聚集地，零基礎，進階，都歡迎

獲取網頁數據這個地方，由我們前面的經驗就變得很簡單了

            
              ## 半次元COS圖爬取-獲取數據函數  
def get_data(start_url,collection):
    since = 0
    while 1:
        try:
            with requests.Session() as s:
                response = s.get(start_url.format(str(since)),headers=headers,timeout=3)
                res_data = response.json()
                if res_data["status"] == 1:
                    data = res_data["data"]  # 獲取Data數組
                    time.sleep(0.5)
                ## 數據處理
                since = data[-1]["since"]  # 獲取20條數據的最后一條json數據中的since
                ret = json_handle(data)   # 代碼實現在下面
                try:
                    print(ret)
                    collection.insert_many(ret)   # 批量出入數據庫
                    print("上述數據插入成功！！！！！！！！")
                except Exception as e:
                    print("插入失敗")
                    print(ret)

                ##
        except Exception as e:
            print("!",end="異常，請注意")
            print(e,end=" ")
    else:
        print("循環完畢")

網頁解析代碼

            
              # 對JSON數據進行處理
def json_handle(data):
    # 提取關鍵數據
    list_infos = []
    for item in data:
        item = item["item_detail"]
        try:
            avatar = item["avatar"] # 用戶頭像
            item_id = item["item_id"] # 圖片詳情頁面
            like_count = item["like_count"] # 喜歡數目
            pic_num = item["pic_num"] if "pic_num" in item else 0 # 圖片總數
            reply_count =item["reply_count"]
            share_count =item["share_count"]
            uid = item["uid"]
            plain = item["plain"]
            uname = item["uname"]
            list_infos.append({"avatar":avatar,
                               "item_id":item_id,
                               "like_count":like_count,
                               "pic_num":pic_num,
                               "reply_count":reply_count,
                               "share_count":share_count,
                               "uid":uid,
                               "plain":plain,
                               "uname":uname})
        except Exception as e:
            print(e)
            continue
        return list_infos
Python資源分享qun 784758214 ,內有安裝包，PDF，學習視頻，這里是Python學習者的聚集地，零基礎，進階，都歡迎

到現在就實現了，代碼跑起來

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義