IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    使用R进行数据清洗

    蓝鲸发表于 2016-10-16 14:28:40
    love 0

    数据清洗是整个数据分析过程中一个非常重要的环节。数据清洗的目的有两个,第一是通过清洗让数据可用。第二是让数据变的更适合进行后续的分析工作。本篇文章将介绍几种简单的使用R进行数据清洗的方法。


    hazmat team inspecting a hard drive

    读取并创建数据表

    首先将数据读取到R中,并创建名为loan的数据表。后面我们将对这个数据表进行清洗。

    
    #读取并创建数据表
    loan=data.frame(read.csv('loan.csv',header = 1))
    
    

    使用head函数查看数据表的前5行。

    
    #查看数据表前5行
    head(loan)
    
    

    %e6%9f%a5%e7%9c%8b%e6%95%b0%e6%8d%ae%e8%a1%a8

    数据清洗

    重复值

    使用duplicated函数查看数据表中的用户ID列是否存在重复值,duplicated函数返回该字段每一行的检查结果,重复的标记为TURE,不重复的值标记为FALSE。在下面的结果中可以看到数据表的用户ID列最后四个值为重复值。

    
    #查看特定列是否有重复
    duplicated(loan$member_id)
    
    

    [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
    [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE

    对于包含重复值的数据表,可以使用unique函数提取数据表中的唯一值,并用唯一值覆盖原有数据,达到去除重复值的目的。下面的代码提取了loan数据表中的唯一值,并重新赋给loan数据表。此时loan数据表中就不包含重复值了。

    
    #删除重复值,返回唯一值列表
    loan=unique(loan)
    
    

    去除完重复值后,再次使用duplicated函数查看,返回的结果中都为FALSE,已经没有重复值了。

    
    #查看重复值
    duplicated(loan$member_id)
    
    

    [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
    [23] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

    查找空值

    使用is.na函数查看数据表中的空值,和重复值一样,空值在结果中显示为TURE,非空值显示为FALSE。下面是对loan数据表检查空值的代码和结果。

    
    #查找数据表中的空值
    head(is.na(loan),n = 10)
    
    

    %e6%9f%a5%e6%89%be%e6%95%b0%e6%8d%ae%e8%a1%a8%e4%b8%ad%e7%9a%84%e7%a9%ba%e5%80%bc

    除了对数据表查看空值以外,还可以对表中特定的列检查空值,在is.na函数中输入表和列的名称,就会看到该列中空值的情况,TRUE为空值,FALSE为非空值。

    
    #查看特定列中的空值
    is.na(loan$loan_amnt)
    
    

    [1] FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
    [23] TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE

    填充空值

    对于数据表中的空值,有两种处理方法,第一种是用0进行填充,第二种是删除包含空值的行。下面是第一种方法,将loan表中的空值填充为0.

    
    #将空值填充为0
    loan[is.na(loan)] <- 0
    
    &#91;/code&#93;
    
    
    第二种方法使用 删除loan表中包含有空值的行。
    
    
    &#91;code lang="r"&#93;
    
    #删除空值所在行
    loan<-na.omit(loan)
    
    &#91;/code&#93;
    
    <h2>
    大小写转换</h2>
    英文字母的大小写和字符间的空格是影响数据统计的一个常见原因。例如下面我们使用table函数对数据表按贷款状态进行汇总时,相同的贷款状态由于大小写和空格被分割成多种状态。造成统计数据不可用。下面我们对这个字段进行大小写转换和去除空格的清洗。
    
    
    
    
    #按贷款状态进行汇总
    table(loan$loan_status)
    
    

    Fully Paid charged off Charged Off Charged Off Current fully paid fully Paid Fully paid Fully Paid
    1 1 8 1 1 2 1 1 15

    将英文字母转换为小写的函数是tolower,下面的代码中我们将贷款状态列统一转化为小写字母,然后重复赋给数据表中的贷款状态列。

    
    #将贷款状态转换为小写
    loan$loan_status=tolower(loan$loan_status)
    
    

    转化完成后,再次使用table函数按贷款状态进行汇总,下面下面的结果中可以看到分类从之前的8个减少到了4个,并且的分类都为小写字母。下面我们在继续进行空格清洗。

    
    #按贷款状态进行汇总
    table(loan$loan_status)
    
    

    fully paid charged off charged off current fully paid
    1 9 1 1 19

    去除两侧空格

    去除字符间的空格比大小写转换要复杂一些,首先我们将需要去除空格的列单独拿出来。

    
    #提取贷款状态列
    loan_status=as.vector(loan$loan_status)
    
    

    然后使用trim函数去除该列中的空格,trim函数在raster包中,因此需要先安装raster的包。

    
    #安装raster包
    install.packages('raster')
    
    

    安装完成后加载raster包。

    
    #加载raster包
    library(raster)
    
    

    加载完raster包后,使用trim函数去除贷款状态字符中的空格。

    
    #去除贷款状态字段中的空格
    loan_s=trim(loan_status)
    
    

    使用去除完空格的贷款状态覆盖数据表中原有的贷款状态列。

    
    #覆盖原有贷款状态字段
    loan$loan_status=loan_s
    
    

    去除完空格后,再次按贷款状态进行汇总,结果从5个减少为3个,恢复正常。

    
    #按贷款状态进行汇总
    table(loan$loan_status)
    
    

    charged off current fully paid
    10 1 20

    查看数据类型

    使用typeof函数可以查看数据表中字段的数据类型,下面的代码对数据表中的用户收入字段进行数据类型查看,结果为double型。

    
    #查看用户收入字段的数据类型
    typeof(loan$annual_inc)
    [1] "double"
    
    

    更改数据类型

    使用as.integer函数将用户收入字段的数据类型由double型转化为integer型。

    
    #将用户收入字段更改为integer
    loan$annual_inc=as.integer(loan$annual_inc)
    
    

    转化后再次使用typeof函数查看数据类型,此时已经显示数据类型为integer。

    
    #查看用户收入字段
    typeof(loan$annual_inc)
    
    

    [1] "integer"

    数据预处理

    数据分列

    很多时候我们需要对一列数据进行分裂处理,在excel中直接使用分列功能就可以完成,在R中,使用strsplit函数也可以实现。首先将需要分列的列单独提取出来。这里我们需要对贷款期限进行分裂。

    
    #提取贷款期限字段
    term=as.vector(loan$term)
    
    

    [1] " 36 months" " 60 months" " 36 months" " 36 months" " 60 months" " 36 months" " 60 months" " 36 months" " 60 months" " 60 months"
    [11] " 60 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months"
    [21] " 60 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 36 months" " 60 months" " 36 months" " 36 months"
    [31] " 36 months" " 60 months" " 36 months" " 36 months"

    然后使用strsplit函数对贷款期限进行分列,分列的依据是空格。具体代码和分列的结果如下所示。

    
    #使用空格对字段进行分裂
    strsplit(term,' ')
    
    

    [[1]]
    [1] "" "36" "months"
    [[2]]
    [1] "" "60" "months"
    [[3]]
    [1] "" "36" "months"

    除了分列以外,还可以对一个字段中的某些信息进行提取,并单独形成一列进行分析。下面我们对贷款日期中的月份进行提取,并合并到原数据表中。提取月份所使用的函数为substr。下面的代码中对贷款日期字段的4-6位进行提取,这部分对应着月信息。

    
    #提取贷款日期字段中的月信息(4-6位)
    month=substr(loan$issue_d,4,6)
    #查看提取的月信息
    month
    
    

    [1] "Jun" "Sep" "Jun" "Apr" "Jun" "Jan" "May" "Dec" "Aug" "Mar" "Dec" "Aug" "Nov" "Jun" "Mar" "Jun" "Apr" "May" "Jul" "Feb" "Jun" "Jun"
    [23] "Jun" "Mar" "Mar" "Sep" "Jun" "May" "Jun" "Dec" "Jun" "May" "Jun" "Dec"

    将提取出来的月信息与原数据表合并,并查看前5行数据,从下面的结果中可以看出第一列是新增加的月信息。

    
    #将月信息与原贷款表合并并查看前5行
    head(cbind(month,loan))
    
    

    %e5%90%88%e5%b9%b6%e6%95%b0%e6%8d%ae
    —【所有文章及图片版权归 蓝鲸(王彦平)所有。欢迎转载,但请注明转自“蓝鲸网站分析博客”。】—



沪ICP备19023445号-2号
友情链接