欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

淺談Python爬取網頁的編碼處理

系統 1738 0

背景

中秋的時候,一個朋友給我發了一封郵件,說他在爬鏈家的時候,發現網頁返回的代碼都是亂碼,讓我幫他參謀參謀(中秋加班,真是敬業= =!),其實這個問題我很早就遇到過,之前在爬小說的時候稍微看了一下,不過沒當回事,其實這個問題就是對編碼的理解不到位導致的。

問題

很普通的一個爬蟲代碼,代碼是這樣的:

            
# ecoding=utf-8
import re
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'
res = requests.get(url)
print res.text
          

目的其實很簡單,就是爬一下鏈家的內容,但是這樣執行之后,返回的結果,所有涉及到中文的內容,全部會變成亂碼,比如這樣

淺談Python爬取網頁的編碼處理_第1張圖片

            
          

這樣的數據拿來可以說毫無作用。

問題分析

這里的問題很明顯了,就是文字的編碼不正確,導致了亂碼。

查看網頁的編碼

從爬取的目標網頁的頭來看,網頁是用utf-8來編碼的。

            
          

所以,最終的編碼,我們肯定也要用utf-8來處理,也就是說,最終的文本處理,要用utf-8來解碼,也就是:decode('utf-8')

文本的編碼解碼

Python的編碼解碼的過程是這樣的,源文件 ===》 encode(編碼方式) ===》decode(解碼方式),在很大的程度上,不推薦使用

            
import sys
reload(sys)
sys.setdefaultencoding('utf8')
          

這種方式來硬處理文字編碼。不過在某些時候不影響的情況下,偷偷懶也不是什么大問題,不過比較建議的就是獲取源文件之后,使用encode和decode的方式來處理文本。

回到問題

現在問題最大的是源文件的編碼方式,我們正常使用requests的時候,它會自動猜源文件的編碼方式,然后轉碼成Unicode的編碼,但是,畢竟是程序,是有可能猜錯的,所以如果猜錯了,我們就需要手工來指定編碼方式。官方文檔的描述如下:

When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.

所以我們需要查看requests返回的編碼方式到底是什么?

            
# ecoding=utf-8
import re
import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
print res.encoding
          

打印的結果如下:

ISO-8859-1

也就是說,源文件使用的是ISO-8859-1來編碼。百度一下ISO-8859-1,結果如下:

ISO8859-1,通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符。

問題解決

發現了這個東東,問題就很好解決了,只要指定一下編碼,就能正確的打出中文了。代碼如下:

            
# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
res.encoding = ('utf8')

print res.text
          

打印的結果就很明顯,中文都正確的顯示出來了。

淺談Python爬取網頁的編碼處理_第2張圖片

另一種方式是在源文件上做解碼和編碼,代碼如下:

            
# ecoding=utf-8
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf8')

url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/'

res = requests.get(url)
# res.encoding = ('utf8')

print res.text.encode('ISO-8859-1').decode('utf-8')
          

另:ISO-8859-1也叫做latin1,使用latin1做解碼結果也是正常的。

關于字符的編碼,很多東西可以說,想了解的朋友可以參考以下大神的資料。

?《The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)》

以上這篇淺談Python爬取網頁的編碼處理就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 亚瑟天堂久久一区二区影院 | 精品国产乱码久久久久久1区2区 | 午夜在线电影 | 欧美三级视频 | 一区二区免费 | 国产视频在线看 | 四虎图库 | 欧美亚洲视频在线观看 | 成人免费毛片高清视频 | 四虎欧美在线观看免费 | 国产精品视频久久 | 午夜影院在线观看版 | 日本欧美国产精品第一页久久 | 欧美成人全部费免网站 | 锵锵锵锵锵锵锵锵锵好湿好大 | 日本不卡在线一区二区三区视频 | 国产福利不卡 | 国产成人精品一区二区三区电影 | 五月天婷婷在线视频 | 成人福利视频网站 | 精品96久久久久久中文字幕无 | 日韩一级片在线免费观看 | 欧美黄视频网站 | 色婷婷六月天 | 91久久精品国产一区二区 | 亚洲精品福利你懂 | 久久九九99热这里只有精品 | 国产精品99久久 | 波多野结衣办公室在线 | 视频一区在线观看 | 久久精品麻豆 | 久久精品视频在线观看榴莲视频 | 一本色道久久综合狠狠躁 | 三极片在线观看 | 亚洲欧美日韩精品中文乱码 | 国产在线视频一区二区 | 国产男女自拍视频 | 人阁色第四影院在线电影 | 成人欧美一区二区三区在线观看 | 日韩欧美视频一区二区在线观看 | 精品免费国产一区二区三区四区介绍 |