scikit-learn中提供了用于特征选择的模块feature_selection,主要方法包括方差移除法,卡方检验法,基于L1的特征选择和基于树的特征选择。开始前的准备工作首先导入所需的库文件,这里只导入numpy和pandas,后面在过程中会陆续导入所需的库文件。#导入所需的库文件
import numpy as np
import pandas as pd#读取并设置数据表
data=pd.DataFrame(pd.read_excel('fs.xlsx'))
#设置特征和目标
X = np.array(data[['loan_amnt', 'funded_amnt_inv', 'installment', 'annual_inc', 'dti','inq_last_6mths', 'open_acc', 'revol_bal', 'revol_util', 'total_acc','total_pymnt', 'total_rec_prncp',
'total_rec_int']])
y = np.array(data['loan_status'])特征数据标准化导入数据预处理库对特征进行标准化处理。#导入数据预处理库
from sklearn import preprocessing
#范围0-1缩放标准化
min_max_scaler = preprocessing.
...
继续阅读
(7)