IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]RHadoop搭建(HDFS+MapReduce)

    book_mmicky发表于 2014-05-13 15:22:34
    love 0
    *实验环境:
    *********************************************************************************
    hadoop集群(virtualBox虚拟机,CentOS6.4)
    hadoop1 192.168.100.171(hadoop master、secondaryname、zookeeper、hbase HMaster)
    hadoop2 192.168.100.172(zookeeper、hbase HRegion、Hive Shell)
    hadoop3 192.168.100.173(hadoop slave、zookeeper、hbase HRegion)
    hadoop4 192.168.100.174(hadoop slave、zookeeper、hbase HRegion)
    hadoop5 192.168.100.175(hadoop slave、zookeeper、hbase HRegion)
    dataserver 192.168.100.141(Hive metastore、MySQL Server、Oracle)
    安装文档:hadoop2.2.0测试环境搭建
    *********************************************************************************
    本次测试在dataserver进行


    1:下载RHadoop相关软件包,放置在/mnt/mydisk/R/目录下
    http://www.r-project.org/
    R语言包
    https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads
    rhdfs     R使用HDFS相关软件包
    rmr    R使用MapReduce相关软件包
    rhbase    R使用Hbase相关软件包
    RHadoop搭建(HDFS+MapReduce) - mmicky - mmicky 的博客
     
    2:安装R语言
    [root@dataserver app]# tar zxf /mnt/mydisk/soft/R/R-3.0.2.tar.gz
    [root@dataserver app]# cd R-3.0.2
    [root@dataserver R-3.0.2]# yum install readline-devel
    [root@dataserver R-3.0.2]# yum install libXt-devel
    [root@dataserver R-3.0.2]# ./configure --enable-R-shlib
    [root@dataserver R-3.0.2]# make
    [root@dataserver R-3.0.2]# make install
    其中readline-devel、libXt-devel在编译R的时候需要,而--enable-R-shlib是安装R的共享库,在安装Rstudio需要。

    3:确认Java环境变量
    RHadoop依赖于rJava包,安装rJava前确认已经配置了Java环境变量,然后进行R对jvm建立连接。
    [root@dataserver R-3.0.2]# cat /etc/profile
    export JAVA_HOME=/usr/lib/jdk1.7.0_21
    export JRE_HOME=/usr/lib/jdk1.7.0_21/jre
    export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib/tools.jar
    export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:$PATH

    [root@dataserver R-3.0.2]# R CMD javareconf

    4:安装相关的依赖包,确保RHadoop软件包能正常使用
    [root@dataserver R-3.0.2]# R
    > install.packages("rJava")
    > install.packages("reshape2")
    > install.packages("Rcpp")
    > install.packages("iterators")
    > install.packages("itertools")
    > install.packages("digest")
    > install.packages("RJSONIO")
    > install.packages("functional")
    > install.packages("bitops")
    > quit()

    5:安装RHadoop软件包
    [root@dataserver R-3.0.2]# export HADOOP_CMD=/app/hadoop/hadoop220/bin/hadoop
    [root@dataserver R-3.0.2]# export HADOOP_STREAMING=/app/hadoop/hadoop220/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar
    [root@dataserver R-3.0.2]# R CMD INSTALL /mnt/mydisk/soft/R/rhdfs_1.0.8.tar.gz
    [root@dataserver R-3.0.2]# R CMD INSTALL /mnt/mydisk/soft/R/rmr2_2.3.0.tar.gz

    **************************************************************************************************
    export HADOOP_CMD=/app/hadoop/hadoop220/bin/hadoop
    export HADOOP_STREAMING=/app/hadoop/hadoop220/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar
    加入/etc/profile或用户的.bashrc中
    **************************************************************************************************

    6:使用RHadoop软件包
    [root@dataserver R-3.0.2]# R
    > library(rhdfs)
    > hdfs.init()
    > hdfs.ls("/")
    RHadoop搭建(HDFS+MapReduce) - mmicky - mmicky 的博客
     
    7:安装Rstudio
    [root@dataserver R-3.0.2]# cd ..
    [root@dataserver app]# rm -rf R-3.0.2
    [root@dataserver app]# tar -zxf /mnt/mydisk/soft/R/rstudio-0.98.484-x86_64-fedora.tar.gz

    8:TIPS
    A:R相关的软件包安装在/usr/local/lib64/R/library下,可以在该目录下查看是否已经安装了相应的软件包。
    B:如果安装的时候不是用root身份安装,则R安装的软件包会在用户目录上,其他用户将使用不了软件包。
    C:如果使用的hadoop集群是hadoop1.2.0,则配置参数为:
    export HADOOP_CMD=/app/hadoop/hadoop120/bin/hadoop
    export HADOOP_STREAMING=/app/hadoop/hadoop120/contrib/streaming/hadoop-streaming-1.2.0.jar
    D:在安装rhbase软件需要安装thrift,在后面章节介绍。


沪ICP备19023445号-2号
友情链接