欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

python數據預處理之數據標準化的幾種處理方式

系統 2128 0

何為標準化:

在數據分析之前,我們通常需要先將數據標準化(normalization),利用標準化后的數據進行數據分析。數據標準化也就是統計數據的指數化。數據標準化處理主要包括數據同趨化處理和無量綱化處理兩個方面。數據同趨化處理主要解決不同性質數據問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標數據性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。數據無量綱化處理主要解決數據的可比性。

幾種標準化方法:

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x',其公式為:

新數據=(原數據-最小值)/(最大值-最小值)

這種方法能使數據歸一化到一個區域內,同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x'。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。

新數據=(原數據-均值)/標準差

這種方法適合大多數類型數據,也是很多工具的默認標準化方法。標準化之后的數據是以0為均值,方差為以的正太分布。但是Z-Score方法是一種中心化方法,會改變原有數據的分布結構,不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征,表現為標準差小,很多元素值為0,最常見的稀疏數據集是用來做協同過濾的數據集,絕大部分數據都是0。對稀疏數據做標準化,不能采用中心化的方式,否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化(MaxAbs)即根據最大值的絕對值進行標準化,假設原轉換的數據為x,新數據為x',那么x'=x/|max|,其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1],也不破壞原數據結構的特點,因此也可以用于稀疏數據,一些稀疏矩陣。

針對離群點的RobustScaler

有些時候,數據集中存在離群點,用Z-Score進行標準化,但是結果不理想,因為離群點在標準化后喪失了利群特性。RobustScaler針對離群點做標準化處理,該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

python實現

            
import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
%matplotlib inline

# 導入數據
data = make_moons(n_samples=200, noise=10)[0]

#Z-Score標準化
#建立StandardScaler對象
zscore = preprocessing.StandardScaler()
# 標準化處理
data_zs = zscore.fit_transform(data)

#Max-Min標準化
#建立MinMaxScaler對象
minmax = preprocessing.MinMaxScaler()
# 標準化處理
data_minmax = minmax.fit_transform(data)

#MaxAbs標準化
#建立MinMaxScaler對象
maxabs = preprocessing.MaxAbsScaler()
# 標準化處理
data_maxabs = maxabs.fit_transform(data)

#RobustScaler標準化
#建立RobustScaler對象
robust = preprocessing.RobustScaler()
# 標準化處理
data_rob = robust.fit_transform(data)

# 可視化數據展示
# 建立數據集列表
data_list = [data, data_zs, data_minmax, data_maxabs, data_rob]
# 創建顏色列表
color_list = ['blue', 'red', 'green', 'black', 'pink']
# 創建標題樣式
title_list = ['source data', 'zscore', 'minmax', 'maxabs', 'robust']

# 設置畫幅
plt.figure(figsize=(9, 6))
# 循環數據集和索引
for i, dt in enumerate(data_list):
  # 子網格
  plt.subplot(2, 3, i+1)
  # 數據畫散點圖
  plt.scatter(dt[:, 0], dt[:, 1], c=color_list[i])
  # 設置標題
  plt.title(title_list[i])
# 圖片儲存 
plt.savefig('xx.png')
# 圖片展示
plt.show()


          

python數據預處理之數據標準化的幾種處理方式_第1張圖片

參考:
《python數據分析與數據化運營》 宋天龍

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 一区二区三区在线播放 | 国产一毛片 | 国产一起色一起爱 | 日韩不卡视频在线 | 欧美大码毛片在线播放 | 婷婷久久综合九色综合九七 | 又爽又黄axxx片免费观看 | 亚洲线精品一区二区三区 | 开心网五月色婷婷综合图片 | 久久乐国产精品 | 中文字幕国产日韩 | 亚洲精品久久久中文字幕 | 久久国产这里只精品免费 | 四虎天海翼 | 欧美电影免费观看 | 欧美日韩xxx | 欧美日韩一区二区中文字幕视频 | 日本理论片好看理论片 | 奇米色在线 | 久久中文字幕2021精品 | 日本簧片在线观看 | 韩国福利影院 | 高清一区二区亚洲欧美日韩 | 九九爱这里只有精品 | 色撸网| 日韩免费一级片 | 极色影院| 亚洲欧洲精品成人久久奇米网 | 天天更新天天久久久更新影院 | 精品96久久久久久中文字幕无 | 日本中文字幕在线视频 | 91精品国产91久久综合 | 中文字幕欧美在线 | 日本一本久草 | 免费一区 | 99这里只有精品视频 | 欧美性狂猛bbbbbxxxxx | 久久人人爽人人爽人人 | 国产福利不卡视频在免费播放 | 久久午夜影视 | 久久精品蜜芽亚洲国产a |