1、在 Google 瀏覽器 輸入:https://www.bilibili.com/video/av60604193
2、右鍵,查看網頁源代碼 ,查找 cid :
3、在 Google 瀏覽器 輸入:https://comment.bilibili.com/105487088.xml
4、彈幕數據所在的標簽參數內容解讀
?
參數 | 解析 |
138.20700 | 彈幕出現的時間(以秒為單位) |
4 | 彈幕類型(1-跑馬燈,4-底部) |
25 | 字體 |
16711680 | 顏色 |
564226963 | Unix時間戳,基準時間為 1970.01.01,日期=(Unix時間戳+83600)/86400+70365+閏天 |
0 | 彈幕池(0-普通池 1-字幕池 2-特殊池) |
1b4df62a | 用戶ID |
19443109448384516 | 唯一標識 |
5、參考代碼:?
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd
url = 'https://comment.bilibili.com/105487088.xml' # 彈幕文檔地址
r = requests.get(url) # 網頁的請求
r.encoding = 'utf-8' #設置編碼,以防中文亂碼
soup = BeautifulSoup(r.text,'lxml') #解析網址
ds = soup.find_all('d') # 查找所有的 d 標簽
data_list = []
for d in ds:
dic = {}
dic['內容'] = d.text #獲取彈幕內容
dic['時間'] = datetime.fromtimestamp(int(d['p'].split(',')[4])) # 把時間戳 轉換為 當時發彈幕的時間
data_list.append(dic)
df = pd.DataFrame(data_list) # 轉換為 DataFrame 格式
df.to_csv('彈幕內容.csv') #保存數據到本地
6、可查看保存到本地的數據
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
