K-Means是聚类算法的一种,以距离来判断数据点间的相似度并对数据进行聚类。前面的文章中我们介绍过K-Means聚类算法的原理及实现。本篇文章使用scikit-learn库对数据进行聚类分析。准备工作开始之前先导入要使用的各种库文件,首先是scikit-learn库,然后是数值计算numpy和科学计算pandas库,以及用于绘制图表的matplotlib库文件。from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt读取并查看数据表读取用于聚类的数据并创建名为loan_data的数据表,用于后续的聚类分析。#读取用于聚类的数据,并创建数据表
loan_data=pd.DataFrame(pd.read_csv('loan_data.csv',header=0))#查看数据表
loan_data.head()#查看表中的各列的名称
loan_data.columns
Index(['member_id', 'loan_amnt', 'term', 'grade', 'emp_length', 'annual_inc',
'issue_d', 'loan_status', 'total_pymnt_inv', 'total_rec_
...
继续阅读
(19)