Python爬蟲實現（偽）球迷速成

系統 2019-09-27 17:38:33 1958 0

還有4天就世界杯了，作為一個資深（偽）球迷，必須要實時關注世界杯相關新聞，了解各個球隊動態，這樣才能在一堆球迷中如（大）魚（吹）得（特）水（吹），迎接大家仰慕的目光!

給大家分享一個快速了解相關信息的辦法：刷論壇！我們來一起做個虎撲論壇的爬蟲吧！

抓包獲取虎撲論壇相關帖子內容，逐條顯示！

先來觀察下網頁，打開論壇首頁，選擇國際足球

然后往下拉，找到世界杯相關內容

這里就是我們的目標了，所有相關的新聞都會在這里顯示，用F12打開“開發者工具”然后往下瀏覽看看數據包

注意箭頭指向的那幾個地方！

這就是剛才瀏覽的新聞所在的json包，來看看具體數據是什么

ok，標題、地址、發布時間包括來源都已經出現了!我們可以直接抓取json數據然后取出相關內容！

再進入具體新聞頁面看看

世界杯快到了，看我用Python爬蟲實現（偽）球迷速成！?

所有的文本內容，都在


        
          這個標簽下的
          
          
          標簽內，我們可以用xpath直接取div下的所有文本內容!
          
          
          
            這里就不一 一說明了，直接上代碼，并錄個小的GIF圖片給大家看看效果
          
          
                          
#Q群542110741
# -*- coding:utf-8 -*-
import requests
from lxml import etree

header = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
  'Host':'soccer.hupu.com',
  'Referer':'https://soccer.hupu.com/'}
i = 0
while 1:
  #構建循環頁面翻頁
  url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
  i += 1
  #獲取json數據，一頁20個
  html = requests.get(url+str(i),headers=header).json()['result']
  for info in html:
    time_r = info['time']#發布時間
    title = info['title']#標題
    url_r = info['url']#新聞鏈接
    origin = info['origin']#來源
    print(title)
    print('發布時間:',time_r,' '*5,'來自：',origin)
    head = header
    head['Host'] = 'voice.hupu.com'#更改header中Host參數
    html_r = requests.get(url_r,headers=head)#獲取新聞詳情
    html_r.encoding = 'utf-8'#編碼格式指定
    #獲取div下的所有文本
    datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
    print('\n'+'內容：'+'\n'*2,datas,'\n')
    #可由用戶手動退出循環
    if input('任意鍵繼續，“q”退出') in ['q', 'Q']:
      exit()
            
          
          
            
              
                總結
              
            
          
          
            以上所述是小編給大家介紹的Python爬蟲實現（偽）球迷速成，希望對大家有所幫助，如果大家有任何疑問歡迎給我留言，小編會及時回復大家的！


 
 	
	
	
	
	
			
	
		
			
				
					更多文章、技術交流、商務合作、聯系博主
					
						微信掃碼或搜索：z360901061
					
					
						
					
					
						微信掃一掃加我為好友
						
							QQ號聯系：  360901061
						
					
				
			
		
	
	
		
			
				
					您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。
					
						【本文對您有幫助就好】元
					
					
						
					
					
						
							 2元
						
						
							 5元
						
						
							 10元
						
						
							 20元
						
						
							 自定義





	
	您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧，站長會非常 感謝您的哦！??！
	
		
		 
		
	
 


	 Python中用Decorator來簡化元編程的教程 基于Python Shell獲取hostname和fqdn釋疑 




	
		
					
		發表我的評論
		
	
	
		
			
			
			
				
				
				表情
			
		
	


	
		最新評論 總共0條評論


		
		


	
		
			站內搜索
		
		
			
					
						 
						
					
				
		
	
	
	
	
	
		
			加入交流
		
		
			1. 手機QQ掃左側二維碼2. 搜Q群：542395358 3. 點擊
				
			1. 手機QQ掃左側二維碼2. 搜Q群：922215567 3. 點擊
				
			1.手機微信掃左側二維碼
				2. 微信中搜索：上海加盾信息科技有限公司
			1.手機微信掃左側二維碼
				2. 微信搜索小程序：張軍博客
				
			1.手機微信掃左側二維碼
				2. 微信搜索小程序：上海加盾信息科技有限公司
			關注企業釘釘
				
			關注企業微信
				
			微信掃一掃添加張軍網站微信群
				
			微信掃一掃加我為好友
				
		
	
	
	
		
			標簽云
		
		
			金融業務 (4)教育資料 (10)Java (901)C++ (86)C# (215)Python (9022)Oracle (911)SqlServer (681)MySql (600)DB2 (33)PostgreSql (23)Tomcat (825)Weblogic (12)Windows (214)Linux (647)VMware (32)Ubuntu (194)ASP.NET (198)Android (681)IOS (75)Hive (45)Hadoop (50)Hbase (9)Spark (4)redis (78)PHP (145)Jquery (174)Javascript (168)NoSQL (6)CSS (127)資料下載 (25)交易系統 (9)java工具類 (32)其它 (7)秕處理 (4)		
	
	
	
		
			友情鏈接
申請友鏈
		
		
			
			
				張軍博客
			
			
			上海加盾信息科技有限公司
股票002162悅心健康資金分析
張軍博客
張軍博客-網址導航
張軍java工具類
快手號出售
張軍博客-SpringBoot入門
		
	
	
	
		
			51鏈網站
		
		
			51鏈首頁
			51鏈注冊頁
			廣告出售頁
			友鏈出租頁
			軟文出售頁
			友鏈交換頁