R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。
R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。
要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。
关于作者:
- 张丹,分析师/程序员/Quant: R,Java,Nodejs
- blog: http://blog.fens.me
- email: bsspirit@gmail.com
转载请注明出处:
http://blog.fens.me/r-book-statistics-and-data-visualization/
前言
R语言从小众语言,一度成为了是一门活跃度较高的语言。在数据分析领域,已经稳稳的站住了脚。有越来越多的R语言优秀的图书出版发行,让使用者能感受到R语言的强大。我也很荣幸收到了电子工业出版社博文视点的慧敏老师的邀请,为本书作序。虽然各种原因,没有实际加到书中。
推荐语
大数据时代的到来,让各行各业都积累了大量的数据。有了数据,如何利用,如何发现价值,是当前面临的难题。以统计学为基础的数据分析方法,上手难度大,需要专业的知识作为支撑,并不能普及到每一个数据分析师 ;以 Excel 为工具的数据分析方法,虽然容易掌握,但又很难做到深度挖掘,大都只能停留在一些简单的统计概览,算算总数、平均数、中位数等上面,发现不了底层的数据规律。
那么有没有一种方法,既能让学习和使用高效,又能挖掘出数据中的规律呢?《R统计与数据可视化 :数据分析的艺术与实践》这本书就提出了一种解决方案。以 R 为工具,用可视化的图表来展示数据,借助不同类型的可视化效果图,让数据分析师看到同一数据的不同角度,通过维度变换来感知数据规律。
本书以 R 中的 ggplot2 包为核心工具,ggplot2 由 R 界大神 Hadley Wickham 开发,是制作专业的高质量静态图的 R 扩展包。本书不同于 ggplot2 的技术手册,不是单纯地介绍 ggplot2 的使用和枯燥的 API 功能点,而是以数据分析案例为出发点,叙述每个场景中数据的故事,到了什么阶段,自然而然地就要使用什么样的图表来描述数据的特点。这种方法与我在实际工作中做数据探索的方法是完全一致的。
为了降低统计学专业知识的上手难度,作者用了同样的方法。引入了大量案例作为铺垫,不需要像统计学的专业课那样按部就班地来学,而是跟着作者的每一步思路,一点一点地被引导,利用 R 语言的编程,通过函数调用的方式来完成复杂的统计学公式计算过程,最后通过可视化输出来展示整个分析过程和分析结果。
R 是非常善于做数据分析的,可能短短 20~30 行代码,就能让我们建立一个算法模型,做一个金融交易策略,实现一个顶级论文的算法思路,发现数据中蕴藏的规律,通过可视化来展示数据的模样。在数据分析领域 R 是王者,是让我们挖掘数据价值的“金铲子”。
如何从未知的数据中找到问题并挖掘价值,本书作者给出了一套方法流程 :①描述数据并形成假设 ;②构建与估计模型 ;③诊断 ;④提出下一个问题。作者提供的过程与我们实际做数据分析项目的过程几乎是一致的 :从一个不确定的需求开始,然后提出假设,观察数据,统计概览分析,数据建模,数据验证,数据可视化,输出报告,再进入下一步问题 ;重复这个过程,最后数据落地形成系统。这个过程就是把需求从不确定到一步一步明确,把宏观大目标通过数据分析缩小细化,最后找到数据中的规律,就是数据分析的核心要点。
我本是一个重度 R 用户,从开始接触 R 到今天已经 10 年了,编写了《R 的极客理想》系列图书,在博客中也贡献了很多 R 的使用案例。我的职业生涯从程序员开始到系统架构师,到量化投资 Quant,再到数据分析师。技术栈也从 Java 到全栈Node.js,再到 R。现在一直停在了 R,坚持在一线用 R 解决实际问题。我自己的学习过程,是从不断的试错和转型中摸索出来的,学习曲线非常陡峭。本书通过案例巧妙地运用 R 编程跳过复杂的统计学知识,并结合可视化的表达方式,把数据分析的整个过程淋漓展现。在国家数字化转型的大背景下,数据分析的人才严重缺乏,本书正好符合当下的环境需求,解决用户痛点,是一本提升数据分析师技能的优秀图书。
本书既可以让 R 的开发用户,提升自己在数据分析方面的能力 ;又可以让有统计学基础的用户,快速上手,把专业知识在实战中落地,看到效果 ;之前以 Excel 为数据分析工具的用户,也可以拓展新的思路,借助 R 对统计学的强大支持,挖掘更深层的数据规律。
感谢作者,戴维 S · · 布朗(David S. Brown),给我们带来了一本贴近真实场景的数据分析图书。感谢译者李嘉平对本书的翻译,让国内用户了解到数据分析领域、国外的先进思想和教学实践。感谢电子工业出版社对本书的引进,这势必会推进 R语言数据分析在国内的流行。
转载请注明出处:
http://blog.fens.me/r-book-statistics-and-data-visualization/