python urllib urlopen()對象方法/代理的補充說明
urllib 是 python 自帶的一個抓取網頁信息一個接口,他最主要的方法是 urlopen(),是基于 python 的 open() 方法的。下面是主要說明:
urllib.urlopen('網址')
這里傳入urlopen()的參數有特別說要求,要遵循一些網絡協議,比如http,ftp,也就是說,在網址的開頭必須要有http://這樣的說明,如:urllib.urlopen('http://www.baidu.com')。
要么就是本地文件,本地文件需要使用file關鍵字,比如 urllib.urlopen('file:nowamagic.py'),注意,這里的hello.py是指的是當前的classpath所指定的內容,如果對hello.py這里有什么疑問那一定是python尋找classpath的順序不是很清楚了,當然也可以直接寫全部路徑,urllib.urlopen('file:F:\pythontest\nowamagic.py')。
打開 ftp 文件也是可以的,寫法 urllib.urlopen(url='ftp://用戶名:密碼@ftp地址/') 等。
示例程序:
import urllib f = urllib.urlopen('file:F:\pythontest\nowamagic.py') a = f.read() print a
如果傳入的參數正確,比如該網站可以訪問,沒有特殊情況(比如需要代理,被墻等),那么將返回一個類似于文件對象的對象。即上面代碼中的f,f對象有的方法一些操作方法,使用dir(f):
['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'fileno', 'fp', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url']
使用read()方法會將所有內容讀取出來,并且同時f對象類似于先入先出的數據,在使用f.read()將得不到任何數據,也就是說,得到的數據在這個時候如果想在后面進行任何處理操作的話,需要另外定義一個對象來進行存儲。如上例中的a。而info(),geturl()方法,也是基于f這個文檔對象的,所以,使用
>>>f.geturl() 'F://pythontest//nowamagic.py'
接下來是urllib的代理設置:
import urllib proxies = {'http':'http://***.***.***.***:1984'} filehandle = urllib.urlopen('http://www.需要代理才能訪問的網站.com/',proxies = proxies) a = filehandle.read() print a
以上是最基本代理,即代理訪問到該網站,并且能夠獲得該網站的內容。但是如果遇到需要登錄,或者需要cookie等的網站呢?
查看urllib的源碼:
def urlopen(url, data=None, proxies=None): """urlopen(url [, data]) -> open file-like object""" global _urlopener if proxies is not None: opener = FancyURLopener(proxies=proxies) elif not _urlopener: opener = FancyURLopener() _urlopener = opener else: opener = _urlopener if data is None: return opener.open(url) else: return opener.open(url, data)
由上面urllib的urlopen的源碼,可以看出,還可以傳入一個data參數,data參數也應該是一個字典,因為在使用瀏覽器向服務器發送數據的時候,我們發送的就是字典類型的數據。
還有一點,就是代理支持是 python 2.3 以后加入的。
感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
