黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法

系統(tǒng) 2005 0

最近遇到個(gè)任務(wù),需要將高考志愿信息保存成Excel表格,BOSS丟給我一個(gè)網(wǎng)址表格之后就讓我自己干了。雖然我以前也學(xué)習(xí)過(guò)Python編寫(xiě)爬蟲(chóng)的知識(shí),不過(guò)時(shí)間長(zhǎng)了忘了,于是摸索了一天之后終于完成了任務(wù)。不得不說(shuō),Python干這個(gè)還是挺容易的,最后寫(xiě)完一看代碼,只用了50行就完成了任務(wù)。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第1張圖片

準(zhǔn)備工作

首先明確一下任務(wù)。首先我們要從網(wǎng)址表格中讀取到一大串網(wǎng)址,然后訪問(wèn)每個(gè)網(wǎng)址,獲取到頁(yè)面上的學(xué)校信息,然后將它們?cè)趯?xiě)到另一個(gè)Excel中。顯然,我們需要一個(gè)爬蟲(chóng)庫(kù)和一個(gè)Excel庫(kù)來(lái)幫助我們完成任務(wù)。

第一步自然是安裝它們, requests-html 是一個(gè)非常好用的HTML解析庫(kù),拿來(lái)做簡(jiǎn)單的爬蟲(chóng)非常優(yōu)雅;而openpyxl是一個(gè)Excel表格庫(kù),可以輕松創(chuàng)建和處理Excel數(shù)據(jù)。

            
pip install requests-html openpyxl 
          

然后就是網(wǎng)址表格,大概長(zhǎng)這樣,總共大概一千七百多條數(shù)據(jù)。其中有少量網(wǎng)址是錯(cuò)誤的,訪問(wèn)會(huì)得到404錯(cuò)誤,所以在編寫(xiě)代碼的時(shí)候還要注意錯(cuò)誤處理。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第2張圖片

任務(wù)分析

任務(wù)的核心自然就是分析和獲取網(wǎng)頁(yè)內(nèi)容了。首先現(xiàn)在瀏覽器里面打開(kāi)一個(gè)網(wǎng)址,看看網(wǎng)頁(yè)上的內(nèi)容是什么。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第3張圖片

可以看到這個(gè)網(wǎng)頁(yè)格式很亂,學(xué)校名字什么的都是混在一起的,一點(diǎn)也不規(guī)整,這給我們提取數(shù)據(jù)造成了不少的麻煩。不過(guò)仔細(xì)分析之后,其實(shí)問(wèn)題也并不難。

首先要提取的是學(xué)校名字,可以看到學(xué)校名字和其他文字混在一起,例如"本科一批普通文科627集美大學(xué)報(bào)考情況"。本來(lái)我準(zhǔn)備用正則表達(dá)式提取,然后發(fā)現(xiàn)用正則表達(dá)式好像很難。之后我多訪問(wèn)了幾個(gè)網(wǎng)頁(yè),發(fā)現(xiàn)學(xué)校代碼基本上都是數(shù)字,如果有字母的話也出現(xiàn)到第一位,所以我采用了以下的算法,首先將字符串從數(shù)字處分隔,右邊的一個(gè)部分就包含了學(xué)校名字和“報(bào)考情況”幾個(gè)字,然后刪除“報(bào)考情況”即可得到學(xué)校名字。這個(gè)算法唯一的缺點(diǎn)就是,假如出現(xiàn)了字母在中間的代號(hào),就沒(méi)辦法獲取到學(xué)校名字了,不過(guò)實(shí)際運(yùn)行之后,我幸運(yùn)的發(fā)現(xiàn)并沒(méi)有出現(xiàn)這種情況。

之后要提取的就是專業(yè)信息了,在網(wǎng)頁(yè)源代碼中這部分使用tr和td標(biāo)簽來(lái)呈現(xiàn)的。一開(kāi)始我用的是tr加上選擇器來(lái)提取,但是這個(gè)網(wǎng)頁(yè)生成的時(shí)候很有問(wèn)題,每個(gè)tr標(biāo)簽的樣式居然還根據(jù)內(nèi)容的多少而不同,導(dǎo)致我寫(xiě)死的選擇器沒(méi)法完美獲取所有行。不過(guò)后來(lái)我發(fā)現(xiàn)整個(gè)網(wǎng)頁(yè)內(nèi)容都是一個(gè)表格, 除去表頭和結(jié)尾的幾個(gè)固定行之外,剩下的恰好就是要提取的數(shù)據(jù)行,所以直接獲取tr標(biāo)簽,然后切片除去收尾即可。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第4張圖片

網(wǎng)頁(yè)基本上分析完了,下面就是編寫(xiě)代碼了。

編寫(xiě)代碼

總共50行左右代碼,我添加了注釋,相信大家應(yīng)該很容易就可以看懂。

第一部分代碼是從網(wǎng)址表格讀取所有url,一開(kāi)始編寫(xiě)的時(shí)候,表格里的url是從另一個(gè)公式生成的,所以需要在加載的時(shí)候添加data_only=True才能讀取到公式的結(jié)果,否則只能讀取到公式本身。

第二部分是創(chuàng)建輸出文件,然后編寫(xiě)表頭。順帶為了調(diào)試方便,我讓它如果檢測(cè)到已經(jīng)存在目標(biāo)文件的話就刪掉,在建立一個(gè)新的。

第三部分就是代碼的核心了。Python代碼看著可能有點(diǎn)奇怪,不過(guò)對(duì)照上面的分析,我想大家應(yīng)該很容易看懂。需要注意保存文件在最后,假如半路代碼出現(xiàn)異常,整個(gè)就白干了,而一千七百多條網(wǎng)址不可能保證都正常運(yùn)行。由于輸出格式是“學(xué)校名+專業(yè)信息”這樣的格式,所以我獲取學(xué)校名之后,還要將學(xué)校插入到每行專業(yè)信息之前。所以我這里索性直接用try-except包起來(lái),如果出錯(cuò)的話只打印一下出錯(cuò)的網(wǎng)址。

            
import os 
from requests_html import HTMLSession 
from openpyxl import Workbook, load_workbook 
# 從網(wǎng)址表格獲取urls 
def get_urls(): 
 input_file = 'source.xlsx' 
 wb = load_workbook(input_file, data_only=True) 
 ws = wb.active 
 urls = [row[0] for row in ws.values] 
 wb.close() 
 return urls 
# 輸出Excel文件,如果已存在則刪除已有的 
out_file = 'data.xlsx' 
if os.path.exists(out_file): 
 os.remove(out_file) 
wb = Workbook() 
ws = wb.active 
# 編寫(xiě)第一行表頭 
ws['a1'] = '學(xué)校' 
ws['b1'] = '專業(yè)代號(hào)' 
ws['c1'] = '專業(yè)名稱' 
ws['d1'] = '計(jì)劃數(shù)' 
ws['e1'] = '預(yù)計(jì)1:1錄取最低分(投檔分)' 
ws['f1'] = '按院校投檔比例投檔線上已報(bào)人數(shù)' 
ws['g1'] = '學(xué)費(fèi)' 
ws['h1'] = '辦學(xué)地點(diǎn)' 
ws['i1'] = '專業(yè)備注' 
# 發(fā)起網(wǎng)絡(luò)請(qǐng)求,解析網(wǎng)頁(yè)信息,并寫(xiě)入文件 
session = HTMLSession() 
urls = get_urls() 
for url in urls: 
 import re 
 page = session.get(url) 
 page.html.encoding = 'gb2312' 
 try: 
 college_info = page.html.xpath('//td[@class="report1_1_1"]/text()', first=True) 
 college = re.split('\d+', college_info)[1].replace('報(bào)考情況', '') 
 rows = page.html.xpath('//tr')[3:-2] 
 for r in rows: 
 info = [x.text for x in r.xpath('//td')] 
 info.insert(0, college) 
 ws.append(info) 
 print(info) 
 except: 
 print(url) 
 
# 保存文件 
wb.save(out_file) 
          

運(yùn)行結(jié)果

好了,費(fèi)了大半天的勁,代碼終于完成了。讓我們運(yùn)行一下看看結(jié)果。整個(gè)代碼大概需要運(yùn)行7-8分鐘,最后完成之后得到了一個(gè)500多k的Excel文件。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第5張圖片

打開(kāi)之后,可以發(fā)現(xiàn)Excel文件填的滿滿的,最后總共獲取到了大約一萬(wàn)多條數(shù)據(jù),任務(wù)圓滿完成。

50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法_第6張圖片

總結(jié)

以上所述是小編給大家介紹的50行Python代碼獲取高考志愿信息的實(shí)現(xiàn)方法,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺(jué)得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論