前提:python3.4windows作用:通過搜狗的微信搜索接口http://weixin.sogou.com/來搜索相關微信文章,并將標題及相關鏈接導入Excel表格中說明:需xlsxwriter模塊,另程序編寫時間為2017/7/11,以免之后程序無法使用可能是網站做過相關改變,程序較為簡單,除去注釋40多行。正題:思路:打開初始Url-->正則獲取標題及鏈接-->改變page循環第二步-->將得到的標題及鏈接導入Excel爬蟲的第一步都是先手工操作
系統 2019-09-27 17:54:31 1956
關卡二:1.練習題1面向對象的理解要求:在類內定義一個可以重新設置私有屬性name的函數條件為字符串長度小于10,才可以修改.答:defSetName(self,newname):iflen(newname)<10:self.__name=newnameelse:print("error:名字太長!")在創建一個類之后需要調用什么函數?答:應調用__del__()函數.del()方法是手動調用還是類默認調用?答:手動調用如何訪問對象的屬性?答:使用(.)來
系統 2019-09-27 17:54:18 1956
fromrandomimportrandintdata=[randint(-10,10)for_inxrange(10)]printdatae=filter(lambdax:x>=0,data)printe或者使用列表解析速度快[xforxindataifx>=0]對字典的篩選d={x:randint(60,100)forxinxrange(1,21)}printdprint{k:vfork,vind.iteritems()ifv>90}對集合的篩選找出被
系統 2019-09-27 17:54:14 1956
安裝方法pipinstallScrapy如果順利的話不用管直接一路下來就OK驗證是否安裝成功安裝成功不順利的情況1)lxml安裝不成功使用whl進行安裝,不過需要先安裝whlpipinstallwheel安裝完成后下載lxml的whl文件網址:http://www.lfd.uci.edu/~gohlke/pythonlibs/whl版本挑選進入cmd――>importpip――>printpip.pep425tags.get_supported(),按照截
系統 2019-09-27 17:54:03 1956
Python高級專用類方法的實例詳解除了__getitem__和__setitem__之外Python還有更多的專用函數。某些可以讓你模擬出你甚至可能不知道的功能。下面的例子將展示UserDict一些其他專用方法。def__repr__(self):returnrepr(self.data)(1)def__cmp__(self,dict):(2)ifisinstance(dict,UserDict):returncmp(self.data,dict.dat
系統 2019-09-27 17:53:44 1956
一般用xlml但遇到過解析出來的內容不一樣。有誤用另一種方法得到正確的,有誤應該只是極少問題。這種方案備用html=browser.page_sourcehtm=bs(html,'html.parser')
系統 2019-09-27 17:53:29 1956
這里爬取的是http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html網站獻上歐美美女!!!!fromlxmlimportetreeimporturllib.request,os,timeclassOuMeiSpider(object):def__init__(self,start_page,end_page):self.start_page=start_pageself.end_page=end_pageself.fi
系統 2019-09-27 17:53:14 1956
三大相關系數:pearson,spearman,kendall統計學中的三大相關性系數:pearson,spearman,kendall,他們反應的都是兩個變量之間變化趨勢的方向以及程度,其值范圍為-1到+1。0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。1.personcorrelationcoefficient(皮爾森相關性系數)皮爾遜相關系數通常用r或ρ表示,度量兩變量X和Y之間相互關系(線性相關)(1)公式皮爾森相關性
系統 2019-09-27 17:53:11 1956
案例:爬取使用搜狗根據指定詞條搜索到的頁面數據(例如爬取詞條為‘周杰倫'的頁面數據)importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰倫''''2.發起請求:使用urlopen函數對指定的url發起請求,該函數返回一個響應對象,urlopen代表打開url'''response=urllib.request.urlopen(url=url)#3.獲取響應對象中的頁面數據:r
系統 2019-09-27 17:53:11 1956
Python爬蟲之selenium高級功能原文地址表單操作元素拖拽頁面切換彈窗處理表單操作表單里面會有文本框、密碼框、下拉框、登陸框等。這些涉及與頁面的交互,比如輸入、刪除、點擊等。前提是找到頁面中的元素。例如下面有一個表單輸入框:"text"name="passwd"id="passwd-id"/>獲取這個元素的方法:element=driver.find_element_by_id("passwd-id")element=driver.find_ele
系統 2019-09-27 17:53:02 1956