• RHadoop实践系列文章

RHadoop实践系列文章

rhadoop

RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。

RHadoop实践是一套系列文章,主要包括”Hadoop环境搭建”,”RHadoop安装与使用”,R实现MapReduce的协同过滤算法”,”HBase和rhbase的安装与使用”。对于单独的R语言爱好者,Java爱好者,或者Hadoop爱好者来说,同时具备三种语言知识并不容 易。此文虽为入门文章,但R,Java,Hadoop基础知识还是需要大家提前掌握。

R语言和Hadoop

R语言为Hadoop注入统计血脉        [视频购买]  [试看]

读书笔记 Big Data Analytics with R and Hadoop

用R解析Mahout用户推荐协同过滤算法(UserCF)

RHadoop实践系列文章

RHadoop实践系列之一:Hadoop环境搭建

RHadoop实践系列之二:RHadoop安装与使用

RHadoop实践系列之三 R实现MapReduce的协同过滤算法        [视频购买]  [试看]

RHadoop实践系列之四 rhbase安装与使用

RHadoop实验 – 统计邮箱出现次数

解决RHadoop错误:PipeMapRed.waitOutputThreads(): subprocess failed with code 1

RHadoop活动

COS沙龙第九期:RHadoop分享会来袭        [视频购买]  [试看]

ChinaHadoop大会 2103: R语言为Hadoop注入统计血脉

RHadoop培训

RHadoop培训 之 Linux基础课

RHadoop培训 之 Java基础课

RHadoop培训 之 R基础课

RHive实践

R利剑NoSQL系列文章 之 Hive

用RHive从历史数据中提取逆回购信息

打赏作者

0 0 votes
Article Rating
Subscribe
Notify of
guest

This site uses Akismet to reduce spam. Learn how your comment data is processed.

41 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments

[…] 本次沙龙提醒: 1、建议预先阅读张丹嘉宾的《RHadoop实践系列》,可以先尝试下搭环境,如果有问题,可现场咨询嘉宾。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,R利剑NoSQL系列文章, […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

[…] RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题,可能会一去不复返了。 […]

anuean

作者你好,我现在想开始学习一下r语言,可是看你的文章,似乎跟hadoop分不开,想问一下,如果想学好r,一定要学hadoop吗?

Conan Zhang

R和Hadoop没什么关系。如果想学好R,一定要有数学基础。

anuean

有点迷茫,现在不知道学r好还是hadoop好,研究生这3年想学好一个,丹哥有好建议么?

Conan Zhang

看你自己的方向,计算方向是hadoop,数据分析方向是R

Hattie

作者您好,我 想结合使用R和Hadoop来进行学习行为特征分析的研究(大数据的前提下),您觉得可行吗?

Conan Zhang

可行,很适合做这个事情。

吴镇城

博主您好,请问现在有Rhadoop应用的成功案例吗?

Conan Zhang

国内已经有公司在实施这个技术,但没公开案例。

zhangyt

博主好,请问RHadoop能够对分析结果进行可视化吗

Conan Zhang

可视化用其他工具做,比如ggplot2

luckywind

丹哥你好! 我不知道怎么下载rhdfs-1.0.5,用的rhdfs-1.0.8运行mapreduce(input = small.ints, map = function(k, v) cbind(v, v^2))时出现下面的错误,请帮忙看下怎么解决,多谢!

luckywind

就是这个

Conan Zhang

看起来是环境没有装好,先单独运行hadoop试一下,是否正常。

学者

丹哥:rhdfs-1.0.5&rhdfs-1.0.8在哪里下载啊,https://github.com/RevolutionAnalytics/RHadoop/wiki这里下载不到啊,急死个人

Conan Zhang

https://github.com/RevolutionAnalytics/RHadoop/wiki

这里有最新版本的介绍,历史版本找git的tag,手动下载。

笑对人生

请问博主,刚刚安装了Hadoop2.7.0后,再安装R语言的哪个版本呢?

Conan Zhang

我只在hadoop 1.x 做的应用, hadoop2.x要自己尝试。

xiaoxu

请问,用了Hadoop2.7之后,你试的那一个R版本和RHadoop成功了。我用的Hadoop2.5.2,R3.2.1,RHadoop是最新的,可是出现了很多问题。如果你也在常识Hadoop2.x与R结合,希望可以讨论下。

luckywind

丹哥,因为之前安装的R版本不对,重装出现下面错误:

apt-get install r-base
正在读取软件包列表… 完成
正在分析软件包的依赖关系树
正在读取状态信息… 完成
有一些软件包无法被安装。如果您用的是 unstable 发行版,这也许是
因为系统无法达到您要求的状态造成的。该版本中可能会有一些您需要的软件
包尚未被创建或是它们已被从新到(Incoming)目录移出。
下列信息可能会对解决问题有所帮助:

下列软件包有未满足的依赖关系:
r-base : 依赖: r-base-core (>= 3.2.1-4vivid0) 但是它将不会被安装
依赖: r-recommended (= 3.2.1-4vivid0) 但是它将不会被安装
推荐: r-base-html 但是它将不会被安装
E: 无法修正错误,因为您要求某些软件包保持现状,就是它们破坏了软件包间的依赖关系。

网上找了半天解决不了,你有什么解决办法吗?

Conan Zhang

需要手动去下载这些包的旧版本,手动安装。

Jerome Cao

丹哥,我想跟着你混了~~O(∩_∩)O~·~~有想过把你的文章翻译成英文吗?

Jerome Cao

谢谢~~英文版好贵,我还是看中文吧,哈哈~~

Conan Zhang

哈哈

Conan Zhang

http://item.jd.com/11731967.html
最近正在翻译第二本,你的英文怎么样?我正在写第三本书。

Jerome Cao

我的英文一般般~~只是想看看英文版 😛

41
0
Would love your thoughts, please comment.x
()
x