較小文件處理方法:importhashlibimportosdefget_md5_01(file_path):md5=Noneifos.path.isfile(file_path):f=open(file_path,'rb')md5_obj=hashlib.md5()md5_obj.update(f.read())hash_code=md5_obj.hexdigest()f.close()md5=str(hash_code).lower()returnmd
系統(tǒng) 2019-09-27 17:57:00 1624
前言在K近鄰的原始算法中,沒有對K近鄰的方法進行優(yōu)化,還是遍歷訓練集,找到與輸入實例最近的K個訓練實例,統(tǒng)計他們的類別,以此作為輸入實例類別的判斷。具體的模型理論見:統(tǒng)計學習方法——K近鄰法(原始方法)1.K近鄰算法的實現(xiàn)在算法實現(xiàn)的過程中,利用的是歐氏距離進行點與點之間的距離度量。在進行數(shù)據(jù)運算的時候,沒有利用numpy,而是利用Python中自帶的list來進行數(shù)據(jù)的計算。defknn(x,dataSet,labels,k):distanceMemor
系統(tǒng) 2019-09-27 17:56:59 1624
首先要分析一下電影天堂網(wǎng)站的首頁結構。在這里插入圖片描述從上面的菜單欄中我們可以看到整個網(wǎng)站資源的總體分類情況。剛剛好我們可以利用到它的這個分類,將每一個分類地址作為爬蟲的起點。①解析首頁地址提取分類信息#解析首頁defCrawIndexPage(starturl):print"正在爬取首頁"page=__getpage(starturl)ifpage=="error":returnpage=page.decode('gbk','ignore')tree=
系統(tǒng) 2019-09-27 17:56:58 1624
前言我在使用mac安裝virtualwrapper的時候遇到了問題,搞了好長時間,才弄好,在這里總結一下分享出來,供遇到相同的問題的朋友使用,少走些彎路。問題說明:Mac默認系統(tǒng)的python2,而我自己用的是brew安裝的python3下面是我安裝過程中出現(xiàn)的問題1.安裝virtualwrapper打開終端,輸入如下的命令pip3installvirtualenvpip3installvirtualenvwrapper2.在配置文件~/.bash_pro
系統(tǒng) 2019-09-27 17:56:58 1624
如下所示:#返回一個列表中第二大的數(shù)defsecond(ln):max=0s={}foriinrange(len(ln)):flag=0forjinrange(len(ln)):ifln[i]>=ln[j]andi!=j:flag=flag+1s[i]=flagifflag>max:max=flagprint(s)foriins:ifs[i]==max-1:breakprint(ln[i])second([1,2,7,4,5,6,8,5,3,3,9,9,1
系統(tǒng) 2019-09-27 17:56:57 1624
圖蟲網(wǎng)-寫在前面經(jīng)歷了一頓噼里啪啦的操作之后,終于我把博客寫到了第10篇,后面,慢慢的會涉及到更多的爬蟲模塊,有人問scrapy啥時候開始用,這個我預計要在30篇以后了吧,后面的套路依舊慢節(jié)奏的,所以莫著急了,100篇呢,預計4~5個月寫完,常見的反反爬后面也會寫的,還有fucklogin類的內容。圖蟲網(wǎng)-爬取圖蟲網(wǎng)為什么要爬取這個網(wǎng)站,不知道哎~莫名奇妙的收到了,感覺圖片質量不錯,不是那些妖艷賤貨可以比的,所以就開始爬了,搜了一下網(wǎng)上有人也在爬,但是基本
系統(tǒng) 2019-09-27 17:56:55 1624
獲取制定標簽內容,以及HTML全部文本代碼#-*-coding:utf-8-*-importrehtml="崗位職責:完成推薦算法、數(shù)據(jù)統(tǒng)計、接口、后臺等服務器端相關工作必備要求:良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動、結果導向"#獲得全部文本dr=re.compile(r'<[^>]+>',re.S)dd=dr.sub('',html)print(dd)print("*"*20)#取出p標簽中的文本html_regex=r".*?(.*?)"resul
系統(tǒng) 2019-09-27 17:56:47 1624
封裝面向對象三大特性:繼承封裝多態(tài)隱藏對象的屬性和實現(xiàn)細節(jié),僅對外提供公共訪問方法廣義上的封裝:把方法和變量都封裝在類中狹義上的封裝:在類的外部干脆不能調用了優(yōu)點將變化隔離便于使用提高復用性提高安全性封裝原則:將不需要對外提供的內容隱藏起來把屬性都隱藏,提供公共方法對齊訪問私有變量和私有方法在python中用雙下劃線開頭的方式將屬性隱藏起來(設置成私有的)代碼實例#其實這僅僅這是一種變形操作#類中所有雙下劃線開頭的名稱如__x都會自動變形成:_類名__x的
系統(tǒng) 2019-09-27 17:56:45 1624
python腳本自動生成需要文件在工作中我們經(jīng)常需要通過一個文件寫出另外一個文件,然而既然是對應關系肯定可以總結規(guī)律讓計算機幫我們完成,今天我們就通過一個通用文件生成的python腳本來實現(xiàn)這個功能,將大家從每日重復的勞動中解放!定義一個函數(shù)defproduceBnf(infilename,outfilename):List=[]withopen(infilename,'r')asinf:forlineininf.readlines():List.appe
系統(tǒng) 2019-09-27 17:56:45 1624
本文實例講述了Python中實現(xiàn)兩個字典(dict)合并的方法,分享給大家供大家參考。具體方法如下:現(xiàn)有兩個字典dict如下:dict1={1:[1,11,111],2:[2,22,222]}dict2={3:[3,33,333],4:[4,44,444]}合并兩個字典得到類似:{1:[1,11,111],2:[2,22,222],3:[3,33,333],4:[4,44,444]}方法1:dictMerged1=dict(dict1.items()+di
系統(tǒng) 2019-09-27 17:56:41 1624