直方圖是用于展示數(shù)據(jù)的分組分布狀態(tài)的一種圖形,用矩形的寬度和高度表示頻數(shù)分布,通過直方圖,用戶可以很直觀的看出數(shù)據(jù)分布的形狀、中心位置以及數(shù)據(jù)的離散程度等。
在python中一般采用matplotlib庫的hist來繪制直方圖,至于如何給直方圖添加擬合曲線(密度函數(shù)曲線),一般來說有以下兩種方法。
方法一:采用matplotlib中的mlab模塊
mlab模塊是Python中強大的3D作圖工具,立體感效果極佳。在這里使用mlab可以跳出直方圖二維平面圖形的限制,在此基礎(chǔ)上再添加一條曲線。在這里,我們以鳶尾花iris中的數(shù)據(jù)為例,來舉例說明。
import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt import pandas # Load dataset url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names = ['sepal-length', 'sepal-width','petal-length', 'petal-width', 'class'] dataset = pandas.read_csv(url, names=names) print(dataset.head(10)) # descriptions print(dataset.describe()) x = dataset.iloc[:,0] #提取第一列的sepal-length變量 mu =np.mean(x) #計算均值 sigma =np.std(x) mu,sigma
以上為通過python導(dǎo)入鳶尾花iris數(shù)據(jù),然后提取第一列的sepal-length變量為研究對象,計算出其均值、標準差,接下來就繪制帶擬合曲線的直方圖。
num_bins = 30 #直方圖柱子的數(shù)量 n, bins, patches = plt.hist(x, num_bins,normed=1, facecolor='blue', alpha=0.5) #直方圖函數(shù),x為x軸的值,normed=1表示為概率密度,即和為一,綠色方塊,色深參數(shù)0.5.返回n個概率,直方塊左邊線的x值,及各個方塊對象 y = mlab.normpdf(bins, mu, sigma)#擬合一條最佳正態(tài)分布曲線y plt.plot(bins, y, 'r--') #繪制y的曲線 plt.xlabel('sepal-length') #繪制x軸 plt.ylabel('Probability') #繪制y軸 plt.title(r'Histogram : $\mu=5.8433$,$\sigma=0.8253$')#中文標題 u'xxx' plt.subplots_adjust(left=0.15)#左邊距 plt.show()
以上命令主要采用mlab.normpdf基于直方圖的柱子數(shù)量、均值、方差來擬合曲線,然后再用plot畫出來,這種方法的一個缺點就是畫出的正態(tài)分布擬合曲線(紅色虛線)并不一定能很好反映數(shù)據(jù)的分布情況,如上圖所示。
方法二:采用seaborn庫中的distplot繪制
Seaborn其實是在matplotlib的基礎(chǔ)上進行了更高級的API封裝,從而使得作圖更加容易,在大多數(shù)情況下使用seaborn就能做出很具有吸引力的圖,而使用matplotlib就能制作具有更多特色的圖。應(yīng)該把Seaborn視為matplotlib的補充,而不是替代物。
import seaborn as sns sns.set_palette("hls") #設(shè)置所有圖的顏色,使用hls色彩空間 sns.distplot(x,color="r",bins=30,kde=True) plt.show()
在這里主要使用sns.distplot(增強版dist),柱子數(shù)量bins也設(shè)置為30,kde=True表示是否顯示擬合曲線,如果為False則只出現(xiàn)直方圖。
在這里注意一下它與前邊mlab.normpdf方法不同的是,擬合曲線不是正態(tài)的,而是更好地擬合了數(shù)據(jù)的分布情況,如上圖,因此比mlab.normpdf更為準確。
進一步設(shè)置sns.distplot,可以采用kde_kws(擬合曲線的設(shè)置)、hist_kws(直方柱子的設(shè)置),可以得到:
import seaborn as sns import matplotlib as mpl sns.set_palette("hls") mpl.rc("figure", figsize=(6,4)) sns.distplot(x,bins=30,kde_kws={"color":"seagreen", "lw":3 }, hist_kws={ "color": "b" }) plt.show()
其中,lw為曲線粗細程度。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
