欧美三区_成人在线免费观看视频_欧美极品少妇xxxxⅹ免费视频_a级毛片免费播放_鲁一鲁中文字幕久久_亚洲一级特黄

隨機森林來進行特征選擇(Python代碼實現)

系統 1758 0

參考來源:https://www.toutiao.com/a6644771438534328836/

當數據集的特征過多時,容易產生過擬合,可以用隨機森林來在訓練之后可以產生一個各個特征重要性的數據集,利用這個數據集,確定一個閾值,選出來對模型訓練幫助最大的一些特征,篩選出重要變量后可以再訓練模型;

本文所用數據集是從kaggle網站上下載的lend club數據,通過隨機森林篩選出對預測是否逾期的重要性變量:

            
              # 首先導入數據,查看數據集的基本情況:
df = pd.read_csv('loan.csv')
df.head()
df.shape
數據集共887379行,74列
            
          

隨機森林來進行特征選擇(Python代碼實現)_第1張圖片

            
              #然后轉換目標值,將Charged Off和Late (31-120 days歸為壞客戶1,其余歸為0
df['loan_status'].unique()
df['y'] = df['loan_status'].map(lambda x: int((x == 'Charged Off') | (x == 'Late (31-120 days')))
df.drop('loan_status', axis=1,inplace=True)
            
          

隨機森林來進行特征選擇(Python代碼實現)_第2張圖片

接下來處理特征變量,先剔除一些對預測無關的貸后和貸中變量:

            
              df.drop(['id', 'member_id', 'url','next_pymnt_d','last_pymnt_d',
 'pymnt_plan','last_credit_pull_d','total_rec_prncp',
 'total_rec_int','out_prncp','last_pymnt_amnt',
 'installment','total_pymnt_inv', 'total_rec_prncp',
 'total_rec_int'], axis=1,inplace=True)
            
          

再刪除缺失值大于90%的變量:

            
              df.dropna(thresh = len(df) * 0.1 , axis=1,inplace=True)
            
          

接下來補全缺失值,對缺失值較多變量,將缺失值作為一種狀態,對缺失值較少的變量,數值型用平均值補全,類別型用眾數補全:

            
              #對于desc有描述的標為1,空值標為0
def Desc(x):
 if type(x).__name__ == 'float':
 return 0
 else:
 return 1
df['desc']= df['desc'].map(Desc)
#emp_title空值用“空值”補全
df['emp_title'] = df['emp_title'].fillna('missing')
'''mths_since_last_delinq,mths_since_last_record ,
mths_since_last_major_derog ,tot_coll_amt,tot_cur_bal,
total_rev_hi_lim 用-1代替'''
for col in ['mths_since_last_delinq','mths_since_last_record',
 'mths_since_last_major_derog','tot_coll_amt',
 'tot_cur_bal','total_rev_hi_lim']:
 df[col].fillna(-1,inplace=True)
#剩余缺失值較少的,數值型變量用平均值代替
for col in ['annual_inc','acc_now_delinq',
 'collections_12_mths_ex_med','total_acc',
 'pub_rec','open_acc','inq_last_6mths','delinq_2yrs',
 'revol_util']:
 df[col].fillna(df[col].mean(), inplace=True)
            
          

另外再構造一個衍生變量,算申請時間issue_d和第一次借貸時間earliest_cr_line之間的月份差值

            
              import datetime
def ConvertDate(x):
 mth_dict = {'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 
 'Jun': 6, 'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10,
 'Nov': 11, 'Dec': 12}
 yr = int(x[4:6])
 mth = mth_dict[x[:3]]
 return datetime.datetime(yr, mth, 1)
df['issue_d'] = df['issue_d'].map(lambda x :ConvertDate(x))
df['earliest_cr_line'] = df['earliest_cr_line'].map(lambda x :ConvertDate(x))
from dateutil.relativedelta import relativedelta
def MonthGap(earlyDate, lateDate):
 if lateDate > earlyDate:
 gap = relativedelta(lateDate, earlyDate)
 yr = gap.years
 mth = gap.months
 return yr*12 + mth
 else:
 return 0
df['earliest_cr_to_app'] = df.apply(lambda x : MonthGap(x.earliest_cr_line, x.issue_d),axis=1)
df.drop(['issue_d', 'earliest_cr_line'],axis=1, inplace=True)
            
          

因為決策樹只能處理數值型和標稱型變量,所以轉換一下類別變量

            
              '''因為本文只運用隨機森林來判斷變量的重要性,而樹模型不需要One-Hot編碼,
所以只對類型型變量LabelEncoding就可以'''
#term ,將months替換成空值
df['term']= df['term'].apply(lambda x :int(x.replace("months" , "")))
cols = df.select_dtypes(include=['O']).columns.tolist()
for col in cols:
 df[col] = preprocessing.LabelEncoder().fit_transform(df[col])
            
          

訓練模型

            
              #訓練模型,這里隨機森林模型參數都用默認值
y = df['y']
x = df.drop('y', axis=1)
clf = RandomForestClassifier()
clf.fit(x, df['y'])
            
          

隨機森林來進行特征選擇(Python代碼實現)_第3張圖片

篩選變量:

            
              importance = clf.feature_importances_
indices = np.argsort(importance)[::-1]
features = x.columns
for f in range(x.shape[1]):
 print(("%2d) %-*s %f" % (f + 1, 30, features[f], importance[indices[f]])))
            
          

隨機森林來進行特征選擇(Python代碼實現)_第4張圖片

現在各變量對是否逾期的重要性就計算出來了,如果接下來運用這些變量預測是否逾期的模型是樹模型或者樸素貝葉斯模型,就可以直接通過重要性大于某個閾值或者重要性排名大于某個某個閾值來篩選出變量訓練模型了,如果是接下來用回歸模型或者線性模型,還需要考慮各個變量之間的共線性


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 成人国产一区二区三区 | 9191精品国产免费不久久 | 天天澡天天碰天天狠伊人五月 | 小泽玛丽娅| 黄色电影在线免费观看 | 午夜影院a | 日本瑟瑟 | 97爱爱爱| av一级毛片 | 免费看污成人午夜网站 | 欧美久久一区二区三区 | 狠狠综合久久av一区二区小说 | 国产精品男人的天堂 | 超碰人人操 | 欧美激情视频二区三区 | 欧美日韩一区二区高清视 | 亚洲九九 | 东京久久 | 久久视频在线免费观看 | 黄色aaa视频 | 午夜伦4480yy私人影院 | 中文在线观看免费视频 | 欧美偷拍自拍视频 | 国产精品视频在线播放 | 三级黄色网址 | 欧美日韩在线一区二区三区 | 最新国产网址 | 久久综合玖玖爱中文字幕 | 国产精品成人av | 午夜在线观看视频 | 九九久久精品这里久久网 | 韩漫重考生漫画画免费读漫画下拉式土豪漫 | 欧美色综合 | 男女啪啪免费视频 | 欧美视频大全 | 一级毛片看真人在线视频 | 久久大胆视频 | 国产成人精品在线观看 | 日韩 欧美 国产 亚洲 中文 | 日本理论片中文在线观看2828 | 91av在线免费 |