RHadoop环境搭建

2014年11月28日

Rhadoop环境搭建

在集成R和hadoop之前需要将hadoop以及R运行环境安装好,hadoop的安装可参见hadoop2.4.1安装笔记.
1.下载相关安装包:

$wget https://raw.githubusercontent.com/RevolutionAnalytics/rhdfs/master/build/rhdfs_1.0.8.tar.gz
$wget https://raw.githubusercontent.com/RevolutionAnalytics/rmr2/3.1.0/build/rmr2_3.1.0.tar.gz 
$wget https://raw.githubusercontent.com/RevolutionAnalytics/rhbase/master/build/rhbase_1.2.0.tar.gz

2.安装R包:

$R
>install.packages(c("rJava", "Rcpp", "RJSONIO", "bitops", "digest", "functional", "stringr", "plyr", "reshape2", "caTools"))
>install.packages(pkgs="rhdfs_1.0.8.tar.gz")
>install.packages(pkgs="rmr2_3.1.0.tar.gz")

3.启动hadoop后测试安装是否成功

>library(rhdfs)
>hdfs.init()
>hdfs.ls("/")
>library(rmr2)
>from.dfs(to.dfs(1:100))
>from.dfs(mapreduce(to.dfs(1:100)))

eclipse上搭建R开发环境

eclipse上通过StatET来开发R程序,可以通过安装StatET直接在eclipse上建立R项目并执行R语言程序. R与Java语言的交互是通过JRI来完成的,需要在eclipse中安装RJava Eclipse Plugin和加载jri包来完成.jri的包的位置在rjava包的安装目录下面

eclipse上搭建hadoop开发环境

安装hadoop eclipse插件来开发hadoop环境下的mapreduce程序:
具体插件安装方式可以参见hadoop2x-eclipse-plugin

eclipse上WTP插件的安装

WTP方便在eclipse上开发J2EE程序,可以通过添加源地址方便的安装:
源地址的一般格式为http://download.eclipse.org/webtools/repository/kepler(eclipse version)
Spark结合R语言开发…

参考:

Install RHadoop with Hadoopn 2.2
RHadoop wiki
eclipse安装StatET
JRI的问题
R语言学习资料
combine Hadoop with R