• Posts tagged "量化"
  • (Page 2)

Blog Archives

2016天善智能交流会第22场: R语言为量化而生

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹(Conan), 程序员Java,R,Nodejs
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-hellobi-20160701/

meeting-hellobi

前言

感谢天善智能社区的邀请,有幸参加每周一期的跟数据有关的行业、工具、技术的交流盛宴,活动的口号是“Friday BI Fly 周五BI飞起来”。

目录

  1. 我的分享主题:R语言为量化而生
  2. 会议体验
  3. 自由讨论

1. 我的分享主题:R语言为量化而生

本次分享的主题 R语言为量化而生,主要内容来自我的一篇博客文章:R语言为量化而生。希望能够解释清楚,在量化投资中为什么要用R语言。从程序员的角度看,C++,Java,Python, C#都是可行方案;从数据人员的角度看,Excel, SAS, Matlab更是不错的。那么为什么是R语言呢,R语言的优势在哪里体现?

这类的问题,总是会被问到。那么答案,就在于你对量化这件事情的了解,和对各种编程语言的理解。最近3年,互联网在量化领域的大发展,以Quantopian为代表的在线策略研发平台,用Python做为核心语言,国内同样支持Python的平台也有 优矿聚宽米筐。这些平台主是面向程序员群体的平台,希望通过挖掘草根明星,来推动量化的发展。传统的量化交易软件,像文华MC, TB, TS 都有自己一套的脚本化的编程语言。有实力的专业团队,通常会自成体系的独立开发一套自己的系统。如果面向更广泛的人群,最常用的方法就是Wind导数据,Excel中拉个表出来。

所以,其实用什么语言不重要,关键是怎么理解做量化这件事情。那么R语言的天生优势就是数学计算,数据处理,免费开源,大量支持库。试试吧,你一定会喜欢的。

2. 会议体验

本次分享受天善智能社区的邀请,我真的非常高兴。天善智能是新一代的商业智能和大数据的垂直社区,聚集了大量的数据分析从业人员。活动介绍,https://ask.hellobi.com/blog/tianshansoft/4229。 本次活动同时有30个微信群进行直播,参加的人员,至少有2000人以上。可以天善智能社区,在行业的影响力是非常大的。

发个截图,体会一下微信同步直播的震撼吧!

wx

本此的分享基于微信的直播,我也第一次体验,要用纯文字的方式来进行介绍。想把一个事情说清楚,又增加了不少的难度。由于不能分享屏幕,代码部分会通过图片截屏。

本次活动的总结,https://ask.hellobi.com/blog/tianshansoft/4271,感谢天善社区的工作人员进行整理。

远程分享,就是没能与大家合照,有点遗憾!!贴张自己的照片吧。

01

3. 自由讨论

分享后,很多朋友都对于R语言都是非常的好奇,提了很多的问题,用户的参与性非常强。下列直接贴出用户的问题和我的回复。

1、替新手问一个,请教一下,R语言的数据分析应该从哪方面入手练习啊?因为目前工作上不是用R的,看完书之后想具体去试一下。

张丹: R其实上手很快,找一本书,认真操作练习一遍就上手了。

2、玉琴:不建议用for loop的原因是考虑到性能问题吗

张丹:for loop是调用的R的循环库,apply是调用C的循环库,性能差距还是很大的

3、来自20群的提问:提个问题,微软对R的收购会对R语言的发展产生什么影响?

张丹:我觉得这是正向发展的,是好事情。大公司看到了R的潜力!

4、尚林栋:R语言金融建模的具体步骤能说一下吗

金融建模的具体步骤,你可以参考这篇文章,http://blog.fens.me/finance-stock-ma/

5、刘嘉丰Alan:丹哥,现在有很多量化平台,提供打包好的函数,在线回测,和自己造轮子拿R语言相比,您觉得各有什么优势呢?

张丹:R的优势就是在数学计算,数据处理上。行业标准还没有统一,所以不一定在线平台的轮子就一定好用。但另外,我们从开发或使用的角度,更多的用到的R包,都是RStudio公司的产品,我觉得是RStudio在推动R的整个的进化过程。

6、我也觉得r语言不错,但经常想不到商业场景,到现在,我只是用它统计考勤,各种绩效kpi,每月算一次奖金,已经这样过去2年了,r语言路在何方哪?

张丹: 你所说的统计,只能说简单计数。比如,你要预测下个月的考勤情况,从而设计预算方案。你可能就需要做个回归分析,这时R就能给你很大的帮助了。生活和工作中,随处都是数据分析的场景。

7、Allen:r在拟合上感觉比python用起来更爽一些,其返回的结果较多

张丹:那么R和python比,R更面向数据,特别是对于没有编程基础的人。PYTHON,还是程序语言,还要了解程序结构,程序架构,代码量不会少。

有IT背景程序员,可能更倾向于PYTHON;如果没有IT背景,R更容易上手。

8、越中女儿:请教一个问题:quantmod对美股的实时接口很好用,对A股不支持,且A股基本面数据才更新到2013.09,请问有好用的ETL包么,类似于python的tushare那样对A股友好的,各种etl啊清洗的脏活累活感觉python更好啊,R就是安安静静做做统计,玩玩图形。

张丹: quantmod使用的是yahoo等国外的数据源,这些数据源本身没有A股数据,如果需要A股数据,用tushare还是不错的。 R特有的data.frame,matrix 等类型和操作方法,在python也需要单独去实现。

9、柠檬味的香草:最近想研究一些互联网文本数据与指数或各股走势的关系,但是在使用R语言处理文本数据不是很方便,丹哥可有一些强大的library推荐,对于非结构,文本数据的处理。

张丹:“尽量使用向量计算或矩阵计算的计算方法”,可以这样理解,对于一个二维结构,for需要2次,0(N^2)的时间复杂度。如果我们把数据,直接就按矩阵存储, 你让矩阵里的每个点都加1, 只需要算一次。Hadley提供的包,源代码我都看过,写很棒,也很实用。

r在拟合上感觉比python用起来更爽一些,其返回的结果较多

其实R有很多的第三方的包,已经有了大量的算法包,而其他语言相对较少。只是我们平时接触的不多,所以觉得用不到。R有大量的统计包,你可以从官方网站找到,输出的结果,大部分也都是统计的结果。

R所支持的行业领域,非常广泛。而工程的语言,不会做细粒度的区分,只是通用的解决方法。

10、郑州—金融数据:python有pandas.DataFrame,pandas应该是第三方的数据库结构吧?R的data.frame是内置的。

张丹:pandas.DataFrame,在底层处理,还需要对原PYTHON的数据结构做映射。当然他可以解决的很好,但你看到的内存结构,可能并不是真正的内存结构。

R内置数据类型,就可以理解是内存结构。不需要再考虑转换了。找一个自己熟悉的语言,大多数的功能,每种语言都是能实现。只有很细的领域,才会进一步区分。

11、RHaoop采用分布式并行计算,那请问如何解决需要嵌套循环的算法。

张丹:对于基于hadoop大数据的MR计算,建议做数学变成,通过数学的角度处理。我写过2个例子,一个是pagerank, 一个是itemcf。

12、@柠檬味的香草:想听听丹哥对传统数据挖掘转量化投资的建议。比如前景?竞争力?

张丹:量化投资,其实是IT人都想转的行业。你写的代码,不是通过工资来赚钱,而直接通过交易赚钱,代码的效用是最大化的。但这个行业竞争很大,聪明人都在这里,要么你的技术牛,要么你了解市场,要么的算法是独特的,不然也很难。

JhT: 做量化交易和策略的都是高智商的

越中女儿:我觉得量化对金融市场的理解比对技术本身更重要,R的需求应该会很快凸显出来。因为数据基础都有了,后面就是差会分析的人了。通常懂数据分析的程序员,比纯程序员待遇高。

13、老师,有好的spark或者hadoop入门的书吗,计算机能力弱和java不懂啊

张丹:hadoop有很多书了,我当初看的是 权威指南。spark的书不了解,我的是网上文档。

14、@Mia.W 学RHadoop需要对Hadoop或Mapreduce了解到什么程度,需要从头学hadoop或java吗

张丹:hadoop的MR的原理要了解,找到懂JAVA的同事,帮你把环境搭好。

15、@JhT 我是刚进来的,R的优势是什么?

张丹:R是免费开源的,CRAN上有8000多个包,遍布各行各业。R语言的3个特性,数学计算,数据建模,可视化。

16、@郑州—金融数据个人感觉商业上matlab比R和python支持度都要好,不管是分析,统计,挖掘还是量化方便,收费的毕竟是收费的

张丹:有商业推动,当然要比免费的好了。不过,像SAS和Matlab也在打通和R的接口,毕竟由全球第三方贡献包,要比一家公司提供的包要多很多的。

17、@越中女儿 有用R做过实盘风控么

张丹:有做,其实不太复杂。你把需要的实时数据,都同步存到redis中,用R在秒级调reids取数据,计算完成再写回去。

18、@Jason.k计算机8g内存,数据虽然行数不多,但是很多列,所以数据csv格式大小会高达几个G,这个规模数据量,内存应该是不够的。

张丹:R的机制,会把数据一次性加载到内存中。就算能读到内存,每次计算时,也会有中间变量,所以你的基础内存是不够的。而且对于win性能会更差。

最后,再次感谢 天善社区的小伙伴们的努力,谢谢大家!

转载请注明出处:
http://blog.fens.me/meeting-hellobi-20160701/

打赏作者

2015lopdev生态联盟开发者大会:股市中的R语言量化算法模型

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹(Conan), 程序员Java,R,Javascript
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-lopdev-20150922/

lopdev

前言

记得10年前还在上学的时候,总是参加IBM的大会,看着各种新技术从实验室创造,特别地神奇。今天我也有机会站在了IBM大会的讲台上,给大家分享我所研究的R语言技术,对我来说也是一件非常有纪念意义的事情。

感谢IBM主办方的邀请,也真心希望有机会与IBM建立合作机会。

目录

  1. 我的演讲主题:股市中的R语言量化算法模型
  2. 会议体验和照片分享

1. 我的演讲主题:股市中的R语言量化算法模型

股市中的R语言量化算法模型,PPT下载,主要内容来自我的一篇博文:R语言构建追涨杀跌量化交易模型

由于本次会议邀请准备时间太短,所以沿用了在数据分析师大会上的演讲内容,但也有不样的地方,增加了况客金融云的部分,通过在线的云环境,开发,部署,可视化自己的个性化的策略模型。

本次会议,我被安排在了新技术专场,虽然R并不被程序员所了解,但是R语言其实已经24年(1993年)的历史。由于听众大多是程序员,那么演讲内容就要简单直接,要有代码有真相,代码部分可以多多演示。

其他的几位嘉宾都是纯IT的底层技术,听起来确实有点吃力。那么我正好讲一个金融应用,正好调节一下大家睡眠的神经。追涨杀跌策略就成为最好的一个金融初门策略的切入点。我一直延续了一贯的演讲风格,有内容,有图片,有代码,有互动。从 追涨杀跌 的思路开始,到市场特征检验,再到数学公式,R语言建模,再到历史数据回测。通过R语言,很简单地就实现了一个我们脑子中的投资想法。类似的投资想法其实谁都有,利用IT人的技术优势,可以真正地与实际操作结合起来,实现从IT技术到价值的转变。

2. 会议体验和照片分享

本次大会不仅结识了很多同行的高手,同时听到不同领域对于数据的声音。群贤汇聚 思想碰撞,这也是对我最大收获。会议主页:http://lopdev.csdn.net/

12

2.1 我的分享是在9月22日的新技术分论坛,第四位分享嘉宾。

贾海鹏,中科超算,副总经理,主要介绍OpenBlas的项目情况。

01

杨瑞瑞,红帽,Linux开发主管,介绍了RedHat Linux 7.1内核的新特性。

03

陈飞,IBM,中国研究院资深研究员,介绍了OpenPower引擎,软硬件结合开发的新的框架标准。

04

张丹况客创始人CTO,《R的极客理想》系列图书作者,介绍了用R语言实现追涨杀跌的交易模型。

06

03

吴文昊,北京旷视科技有限公司,云平台副总裁,介绍OpenBlas在移动平台尝试学习产品上的应用。

07

2.2 用户互动

虽然是技术的专场,我的演讲还是吸引了一些感兴趣的小伙伴。把技术变成价值,是所有学技术的人都理想。

08

有一位来自印度的友人,中国文说的很不错,也在做互联网方向的创业。

13

况客的单页展板,顿时感觉自己代表了企业形象!下一次演讲我们会准备的更好,感谢况客市场总监Ruby为本次活动的精心安排。

11

2.3 个人采访

会议虽短,在最后还有个人采访环节。采访主题就围绕着“开源重构世界,开发改变未来”展来。看得出来IBM注重技术的态度,同时也在大力推动开源项目的发展。况客,用到的所有技术都是开源的产品,我们也会在合适的时候,把况客的技术开放,反馈于开源社区。

IT人,加油!开源重构世界,开发改变未来!

09

最后,感谢IBM工作人员的辛苦劳动,希望保持高水平会议越办越好!

转载请注明出处:
http://blog.fens.me/meeting-lopdev-20150922/

打赏作者

2015CDAS中国数据分析师行业峰会:R语言量化投资数据分析应用

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹(Conan), 程序员Java,R,Javascript
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-cdas-20150912

title

前言

第一次在以数据分析为切入点的会议上做演讲,感觉还是挺不一样的。大会分为“金融数据洞察”,“医疗数据洞察”,“电商数据洞察”,“大小数据洞察”的4个部分,分别介绍了数据分析在不同行业的应用情况。当然,这次我是在“金融数据洞察”分论坛。

我非常有幸作为分享嘉宾参加2015年的中国数据分析师行业峰会,分享R语言在金融领域中的应用。

目录

  1. 我的演讲主题:R语言量化投资数据分析应用
  2. 会议体验和照片分享

1. 我的演讲主题:R语言量化投资数据分析应用

R语言量化投资数据分析应用,PPT下载,主要内容来自我的一篇博文:R语言构建追涨杀跌量化交易模型

由于本次的演讲时间为20-30分钟,所以思来想去演讲内容,要简单而且直接,才能听众听得明白。那么追涨杀跌策略就成为,最好的一个初门策略的切入点。其他的几位嘉宾,有介绍量化行业背景的,有介绍量化基础知识的,有介绍量化产品布局的,有介绍P2P征信的,那么我介绍是实现一个交易模型,真是让听众全方位的了解了量化的各个知识点,是一场有含金量的会议。

我一直延续了一贯的演讲风格,有内容,有图片,有代码,有互动。从 追涨杀跌 的思路开始,到市场特征检验,再到数学公式,R语言建模,再到历史数据回测。通过R语言,很简单地就实现了一个我们脑子中的投资想法。类似的投资想法其实谁都有,利用IT人的技术优势,可以真正地与实际操作结合起来,实现从IT技术到价值的转变。

2. 会议体验和照片分享

本次大会不仅结识了很多同行的高手,同时听到不同领域对于数据的声音。群贤汇聚 思想碰撞,这也是对我最大收获。会议主页:http://cdas.pinggu.org/index.html

05

2.1 我的分享是在9月12日的金融数据洞察分论坛,第五位分享嘉宾。

01

王安,钱方首席分析师,是本场的主持人。从事金融业定量化管理咨询工作,参与多家银行,保险公司,证券公司的定量管理咨询工作,包括数据分析挖掘,预测模型建立,管理策略发展,分析培训等工作,同时关注图表设计,演讲技巧的内容。

郑志勇(Ariszheng),北京和晶睿智执行合伙人,中国量化投资学会专家委员会成员,北京理工大学运筹学与控制论硕士,先后就职于中国银河证券、银华基金、方正富邦基金,从事金融产品研究与设计工作。十余年MATLAB编程经验,专注于产品设计、量化投资等相关领域的研究,尤其对结构化产品、分级基金产品有着深入的研究,已出版《运筹学与最优化MATLAB编程》和《金融数量分析:基于MATLAB编程》等书籍。

李洋(Faruto),中国量化投资学会专家委员会成员,MATLAB技术论坛联合创始人,北京师范大学应用数学硕士,先后就职于私募、期货公司、保险公司,从事量化投资相关工作。十年MATLAB编程经验,对机器学习、量化投资等相关领域有深入研究,已出版《MATLAB神经网络30个案例分析》和《MATLAB神经网络43个案例分析》等书籍。

薛昆,通联金融董事总经理,计算机背景,毕业进入对冲基金,这家对冲基金被UBS收购了,在2008年很不幸被关掉了,因为当时在做最复杂的相关研究,当时入行的时候,旁边同事2006年拿1亿美元的资金,好事不会再有。之后加入摩根大通做内部平台,后来又加入通联数据,做不一样的事情。

刘时斌,数信互融联合创始人,在SAS风险研发,2012—2014年在北大联合办学,北大教三个学期统计分析和商务智能课程,去年搭上互联网金融风潮下来创业,2014年12月份正式成立,到今年7月份已经到A轮融到2000多万,估值两个多亿。

张丹,R语言资深用户,系统架构师,况客联合创始人(qutke.com)。《R的极客理想-工具篇》、《R的极客理想-高级开发篇》图书作者。有10年IT程序开发和系统架构设计的经验,精通Java, R, Javascript 三种编程语言,熟悉数据挖掘、统计和金融的多种算法。目前在互联网金融量化投资方向创业中,博客(http://blog.fens.me) Alexa全球排名8万。

王吉培,中国人民银行征信中心专家,中国人民大学博士,是关于征信方面想法和一些思考在这里跟大家分享一下。我给大家介绍四部分两个方面,主要通过介绍想达到一个目的,让大家知道什么是征信?什么是征信业务?我们国家有哪些征信机构?我们国家发展什么样子、未来发展什么样?第二部分主要分享一下,在我们征信体系下,我们一些应用和案例,主要想达到这个目的。

圆桌会议:数据分析,是技术也是艺术。

王安是主持人,各位嘉宾就以下3个问题进行不同角度的回答:1. 开源数据。 2. 数据价值。 3. 学习路线。

640

照片座位排序:左1 薛昆,左2 郑志勇, 左3 李洋, 左4 张丹, 左5 王吉培,左6 刘时斌, 左7 王安。

2.2 签名售书

本此会议对于我来说还有一个不同的点,就是签名售书。我的第二本书《R的极客理想-高级开发篇》出版之际,能够近距离与读者的小伙伴们畅聊数据分析的各种技术,以及R语言与其他语言的比较,是非常有意思的一件事情。虽然一共签售了10多本书,我还是非常开心地。如果签售图书,能再降到8折-9折,估计会有更好的效果。嘿嘿!同时欢迎已购书的同学,带书前来签名。

03

最后,感谢CDAS工作人员的辛苦劳动,希望保持高水平会议越办越好!

转载请注明出处:
http://blog.fens.me/meeting-cdas-20150912

打赏作者