亚洲第九十九页,久草天堂,日本精品一区二区三区视频

最近遇到個任務，需要將高考志愿信息保存成Excel表格，BOSS丟給我一個網址表格之后就讓我自己干了。雖然我以前也學習過Python編寫爬蟲的知識，不過時間長了忘了，于是摸索了一天之后終于完成了任務。不得不說，Python干這個還是挺容易的，最后寫完一看代碼，只用了50行就完成了任務。

準備工作

首先明確一下任務。首先我們要從網址表格中讀取到一大串網址，然后訪問每個網址，獲取到頁面上的學校信息，然后將它們在寫到另一個Excel中。顯然，我們需要一個爬蟲庫和一個Excel庫來幫助我們完成任務。

第一步自然是安裝它們， requests-html 是一個非常好用的HTML解析庫，拿來做簡單的爬蟲非常優雅;而openpyxl是一個Excel表格庫，可以輕松創建和處理Excel數據。

            
pip install requests-html openpyxl

然后就是網址表格，大概長這樣，總共大概一千七百多條數據。其中有少量網址是錯誤的，訪問會得到404錯誤，所以在編寫代碼的時候還要注意錯誤處理。

任務分析

任務的核心自然就是分析和獲取網頁內容了。首先現在瀏覽器里面打開一個網址，看看網頁上的內容是什么。

可以看到這個網頁格式很亂，學校名字什么的都是混在一起的，一點也不規整，這給我們提取數據造成了不少的麻煩。不過仔細分析之后，其實問題也并不難。

首先要提取的是學校名字，可以看到學校名字和其他文字混在一起，例如"本科一批普通文科627集美大學報考情況"。本來我準備用正則表達式提取，然后發現用正則表達式好像很難。之后我多訪問了幾個網頁，發現學校代碼基本上都是數字，如果有字母的話也出現到第一位，所以我采用了以下的算法，首先將字符串從數字處分隔，右邊的一個部分就包含了學校名字和“報考情況”幾個字，然后刪除“報考情況”即可得到學校名字。這個算法唯一的缺點就是，假如出現了字母在中間的代號，就沒辦法獲取到學校名字了，不過實際運行之后，我幸運的發現并沒有出現這種情況。

之后要提取的就是專業信息了，在網頁源代碼中這部分使用tr和td標簽來呈現的。一開始我用的是tr加上選擇器來提取，但是這個網頁生成的時候很有問題，每個tr標簽的樣式居然還根據內容的多少而不同，導致我寫死的選擇器沒法完美獲取所有行。不過后來我發現整個網頁內容都是一個表格，除去表頭和結尾的幾個固定行之外，剩下的恰好就是要提取的數據行，所以直接獲取tr標簽，然后切片除去收尾即可。

網頁基本上分析完了，下面就是編寫代碼了。

編寫代碼

總共50行左右代碼，我添加了注釋，相信大家應該很容易就可以看懂。

第一部分代碼是從網址表格讀取所有url，一開始編寫的時候，表格里的url是從另一個公式生成的，所以需要在加載的時候添加data_only=True才能讀取到公式的結果，否則只能讀取到公式本身。

第二部分是創建輸出文件，然后編寫表頭。順帶為了調試方便，我讓它如果檢測到已經存在目標文件的話就刪掉，在建立一個新的。

第三部分就是代碼的核心了。Python代碼看著可能有點奇怪，不過對照上面的分析，我想大家應該很容易看懂。需要注意保存文件在最后，假如半路代碼出現異常，整個就白干了，而一千七百多條網址不可能保證都正常運行。由于輸出格式是“學校名+專業信息”這樣的格式，所以我獲取學校名之后，還要將學校插入到每行專業信息之前。所以我這里索性直接用try-except包起來，如果出錯的話只打印一下出錯的網址。

            
import os 
from requests_html import HTMLSession 
from openpyxl import Workbook, load_workbook 
# 從網址表格獲取urls 
def get_urls(): 
 input_file = 'source.xlsx' 
 wb = load_workbook(input_file, data_only=True) 
 ws = wb.active 
 urls = [row[0] for row in ws.values] 
 wb.close() 
 return urls 
# 輸出Excel文件，如果已存在則刪除已有的 
out_file = 'data.xlsx' 
if os.path.exists(out_file): 
 os.remove(out_file) 
wb = Workbook() 
ws = wb.active 
# 編寫第一行表頭 
ws['a1'] = '學校' 
ws['b1'] = '專業代號' 
ws['c1'] = '專業名稱' 
ws['d1'] = '計劃數' 
ws['e1'] = '預計1:1錄取最低分(投檔分)' 
ws['f1'] = '按院校投檔比例投檔線上已報人數' 
ws['g1'] = '學費' 
ws['h1'] = '辦學地點' 
ws['i1'] = '專業備注' 
# 發起網絡請求，解析網頁信息，并寫入文件 
session = HTMLSession() 
urls = get_urls() 
for url in urls: 
 import re 
 page = session.get(url) 
 page.html.encoding = 'gb2312' 
 try: 
 college_info = page.html.xpath('//td[@class="report1_1_1"]/text()', first=True) 
 college = re.split('\d+', college_info)[1].replace('報考情況', '') 
 rows = page.html.xpath('//tr')[3:-2] 
 for r in rows: 
 info = [x.text for x in r.xpath('//td')] 
 info.insert(0, college) 
 ws.append(info) 
 print(info) 
 except: 
 print(url) 
 
# 保存文件 
wb.save(out_file)

運行結果

好了，費了大半天的勁，代碼終于完成了。讓我們運行一下看看結果。整個代碼大概需要運行7-8分鐘，最后完成之后得到了一個500多k的Excel文件。

打開之后，可以發現Excel文件填的滿滿的，最后總共獲取到了大約一萬多條數據，任務圓滿完成。

總結

以上所述是小編給大家介紹的50行Python代碼獲取高考志愿信息的實現方法,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復大家的。在此也非常感謝大家對腳本之家網站的支持！
如果你覺得本文對你有幫助，歡迎轉載，煩請注明出處，謝謝！

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義