Blog Archives

Posted:

Jun 17, 2023

Tags:

Comments:

0 Comments

2023 R语言开发者日：用AI选基金构建自己的投资组合

跨界知识聚会系列文章，“知识是用来分享和传承的”，各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议，向大家展示我所做的一些成果。从听众到演讲感觉是不一样的，把知识分享出来，你才能收获更多。

关于作者

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/meeting-r-dev-20230617

前言

2023年的金融市场，一言难进。

量化投资大家都不陌生了，就是程序来做股票基金等的投资策略。

在R语言中开发者社区中，不仅有大量统计学和机器学习的算法支撑，还内置了多种用于指标计算和量化投资的策略算法，同时我们可以结合个人的行业知识，把自己熟悉的其他领域的算法模型借鉴过来，与基金投资组合的业务目标结合起来，形成新的策略思路，创造属于自己的交易机会。

借助R语言的能力，我们自己可以轻松地构建各种投资组合的策略。从零起步，开始构建自己的投资组合。在瞬息万变金融市场，你要不要来自己试一下呢？

本次分享不构成任何投资建议，仅从技术角度交流！

我分享的主题：用AI选基金，构建自己的投资组合
会议体验和照片分享

1. 我分享的主题：用AI选基金，构建自己的投资组合

AI技术继续引领科技创新，R语言机器学习作为可落地的技术，将帮我们利用数据向着智能化的方向前进。在金融领域，R语言也有着丰富第三方包支持，金融数据也是比较容易获得。那么，我们可以利用R语言做一些数据分析，帮助我们一手了解金融市场的情况。

本次分享的PPT：http://doc.fens.me/用AI选基金构建自己的投资组合-张丹.pdf。

我主要为分三个部分进行介绍：

基金市场总体情况
基金基本投资策略
投资策略：资本资产定价模型

FOF的概念，基金中的基金。

基金净值计算举例：

收益率曲线的详细系数。

2. 会议体验和照片分享

本次会议官方报名页：https://www.huodongxing.com/event/8706770141611

活动日志：

2.1 会议主题

本次活动由 3位MVP和一位外员参加：张丹、谢佳标、任坤、晁亚伟一起作为分享嘉宾。

晁亚伟，主题：用RMarkdown实现自动化报告模板，实现高效文档撰写。

R语言应用者，北京青萌数海科技有限公司开发工程师。R语言新人，日常工作R、Python、Vue都有涉及。经常使用RShiny和Rmarkdown技术。

自动化办公已经家喻户晓，就是用程序来简化日常工作中重复的数据处理工作，简化工作过程。R语言社区已经有很多丰富的包来实现文档中的各种功能，各种指标的计算以及图表格式的编写，以及文档格式的设定，所以我们可以通过Rmarkdown的功能和我们要实现的业务逻辑进行结合，实现上传，生成，下载等一系列操作。借助R语言的这一能力，我们自己可以轻松地构建各种自动化报告模板。

任坤，主题：R 语言的生态系统现状于展望。

微软MVP，就职于国内顶尖量化对冲基金。vscode-R 和 R Language Server 项目的主要维护/开发者，著有《Learning R Programming》，中文版为《R语言编程指南》。

R语言经过多年的发展，从一个在统计学术圈流行的数据分析、统计计算和建模以及可视化的工具，逐渐成长为了一个有更多开发者、开源贡献者和许多开源扩展包的生态。本次分享主要介绍R语言自身的发展、开发环境的优化，以及其在数据处理、统计建模、机器学习、数据可视化、报告展示等多个方面形成的最受欢迎的工具集，以及近期最新的发展动态，帮助用户和开发者更全面地了解R开源社区和众多开源项目的图景和巨大的发展潜力。

谢佳标，主题：如何使用 R 语言进行数据科学

微软MVP，资深数据挖掘专家。著有《R语言与数据挖掘》、《R语言游戏数据分析与挖掘》、《Keras深度学习：入门、实践与进阶》、《R语言数据分析与挖掘（微课版）》、《深度学习入门到精通：基于Tensorflow2》（2023年下半年出版）

数据科学涵盖数据处理、数据分析、数据挖掘、数据可视化，R语言均可轻松实现。本次分享主要介绍如何使用R语言进行数据处理、数据分析、数据建模及数据可视化各环节。包含以下内容：
1）利用R语言进行数据处理
2）利用R语言进行数据分析与挖掘
3）利用R语言进行可视化
4）利用R语言进行深度学习

张丹，主题：用 AI 选基金，构建自己的投资组合。【视频回看】

微软MVP，R语言实践者，北京青萌数海科技有限公司CTO。10年以上互联网应用架构经验，在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略，熟悉中国金融二级市场、交易规则和投研体系。熟悉数据学科方法论，在海关、外汇等监管科技领域均有落地项目。

2.2 相关照片

现场大合照

还是线下会议好啊，有互动性，能看到大家的反应，专注在技术本身。微软技术直通车，每季度都带来新的技术分享。

转载请注明出处：
http://blog.fens.me/meeting-r-dev-20230617

Posted:

Feb 15, 2017

Tags:

R 投资组合数据分析数据工程师算法量化投资

Comments:

2 Comments

算法，如何改变命运

架构师的信仰系列文章，主要介绍我对系统架构的理解，从我的视角描述各种软件应用系统的架构设计思想和实现思路。

从程序员开始，到架构师一路走来，经历过太多的系统和应用。做过手机游戏，写过编程工具；做过大型Web应用系统，写过公司内部CRM；做过SOA的系统集成，写过基于Hadoop的大数据工具；做过外包，做过电商，做过团购，做过支付，做过SNS，也做过移动SNS。以前只用Java，然后学了PHP，现在用R和Javascript。最后跳出IT圈，进入金融圈，研发量化交易软件。

架构设计就是定义一套完整的程序规范，坚持架构师的信仰，做自己想做的东西。

关于作者：

张丹(Conan), 程序员R,Nodejs,Java
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/architect-algorithm/

前言

近年来，随着大数据的飞跃式的发展，已经越来越深地开始影响到我们的生活，社交有腾讯大数据，购物有阿里大数据，搜索有百度大数据，出行有滴滴大数据等等。当数据越来越多地被积累，就需要算法来挖掘出数据的价值。特别是进入到大数据时代，算法显得越来越重要。

让死的数据变得有价值，就是算法的力量。进入到全民大数据的时代后，数据已经不再是门槛儿，最重要的是算法，算法才是真正能够创造生产力的地方。算法工程师的价值也会越来越大，但是你们真的发掘出来你们的价值了吗？

算法在各个行业的应用
投身于哪个行业好？
金融最靠谱

1. 算法在各个行业的应用

大数据的兴起冲击着各行各业，带来机遇也带来挑战，没有数据你就没有核心价值。当有了数据作为基础，你要继续需要思考如何让数据变的有价值。过去的2016年的投资市场很惨淡，唯有人工智能大火了一把。从深度挖掘(Deep Learning)技术在图像识别领域的精确识别，迭代决策树(GBDT)在数据挖掘算法比赛中频繁获奖，到AlphaGo在围棋领域打败在人类选手，百度小度机器人在最强大脑的舞台上挑战人类脑王等等，这些事件都是算法领域的突破。

算法，真的已经应用到了各行各业，在慢慢地改变着人们的生活和习惯，比如说图像识别，自动驾驶，用户行为，金融征信，量化投资等领域，都在发生着变化。

图像识别领域，深度学习算法异军突起，不仅可以进行准确的人脸识别、指纹识别，还可以进行复杂的图像对比。我深刻记得，2016年参加的光谷人工智能大会上，听西安电子科技大学公茂果教授分享的“深度神经网络稀疏特征学习与空时影像变化检测”主题，利用图像识别技术，对比汶川地震前后的卫星照片和光感照片，准确地找到了受到地震影响最严重的区域，即震前和震后地貌发生变化最大的区域，快速地为救援队定位到最需要帮助的地点，解救伤者，投放救援物资。

自动驾驶领域，可以通过识别路面的状况来实现自动驾驶、自动停车。Uber无人驾驶汽车已经在匹兹堡上路测试，自动驾驶汽车配备了各式传感器，包括雷达、激光扫描仪以及高分辨率摄像头，以便绘制周边环境的细节。自动驾驶汽车有望改善人类的生活质量，也可挽救数百万人的性命，为人们提供更多的出行方便。5年前，我在听Andrew Ng的斯坦福大学机器学习公开课的时候，就被当时的自动驾驶视频介绍所震撼，科幻电影中的世界就快变成现实了。

用户行为分析，人类有各种各样的行为和需求。衣食住行，吃喝玩乐，都是人的最基本的行为。大多数人的行为是共性的，商家可以收集这些行为数据，通过数据挖掘算法来找到人们行为共性的规律。根据用户的购物行为，商家可以为用户推荐喜欢的商品，这样就有了推荐系统；根据用户对信息的查询行为，可以发现用户对信息的需求，这样就有了搜索引擎；根据用户位置的变化，可以发现用户的出行需求，这样就有了地图应用；针对用户个性化的行为，可以给用户打上标签，用来标注用户的特征或身份，这样就有了用户画像。用户行为分析，让商家了解用户习惯，同时也让用户了解自己，有巨大的商业价值。

在金融领域也有很多，算法应用的场景。

金融征信领域，传统信贷业务都是银行核心业务，但由于中国人数众多且小客户居多，银行无法负担为小客户服务的高成本，导致民间信贷的兴起。2014年底互联网金融P2P的开始爆发，贷款需求被满足的同时，却暴露出了违约风险。征信体系缺失，导致很多P2P公司坏账率很高，到2016年底P2P跑路的多达数千家。征信需求，变得非常迫切。比如，某个人想买车但现金不够，这时就需要进行贷款。商家给用户进行贷款时，通过信用风险的评级就能判断出这个用户的还款能力，从而来决定给他贷多少钱，以什么周期还款，减少违约风险。支付宝的芝麻信用分，是目前被市场一致认可的信用评分模型。

量化投资领域，我认为这个领域最复杂的，最有挑战性的，同时也是最有意思的。可以通过量化算法模型实现赚钱，是最容易变现的一种方法。在金融投资领域中，有各式各样的数据，反应的各种金融市场的规则，有宏观数据，经济数据，股票数据，债券数据，期货数据，还有新闻数据，情绪数据等等，金融宽客(Quant)通过分析各种各样的数据，判断出国家的经济形势和个股的走势，进行投资组合算法，实现投资的盈利。

看到这里，我想问问大家，你们脑子里那些聪明的想法，有没有被金融行业的魅力撩出些许的荷尔蒙？

2. 投身于哪个行业好？

从上面各个行业的算法应用来说，都有很广阔的应用前景。作为一个算法的研究者，那我们究竟投身到哪个行业更好呢？

这个其实要从多个方面进行考虑，我们的目标是个人价值最大化。那么，你要选择一个自己能够接触到的、完全竞争的、短流程的渠道，利用你的算法技术和对业务的理解实现变现的过程。

其实，满足个人可变现的渠道其实非常有限，你很难通过一个图像识别的算法，直接面向市场进行收钱，你需要有一个承载的产品，而产品研发的过程是非常漫长的。同样地，自动驾驶算法需要汽车生产场商的实验。用户行为分析算法，需要电子商务平台的以用户购买行为进行验证。

量化投资，可以用个人账号在中国二级投资交易市场，完成交易过程。这种方式没有很多的中间环节，你获得交易所的数据，自己编写算法模型，然后用自己的钱去交易，完全自己把握。只要算法有稳定的收益率，你就可以赚到钱。这种变现方法，其实就是量化投资，从金融的角度才是最靠谱的一种变现方法。

3. 金融最靠谱

作为IT人，我们懂编程，懂算法，只要再了解金融市场的规则，就能去金融市场抢钱了。中国的金融二级投资交易市场，是一个不成熟的市场，同时又是情绪化的市场。市场中，每天都存在着大量的交易机会，每天都会有“乌龙指”。量化投资的技术，可以帮助我们发现这些由于信息不对称出现的机会，赚取超额的收益。

那么到底怎么做量化投资呢？。

下面举个例子，一个私募基金，募集了1亿资金准备杀入金融市场。基金经理决定按照投资组合的建模思路，对各类金融资产进行组合配置。下图就反应了各类资产，以均值-方差的标准来创建投资组合，符合资本资产定价模型(CAPM)的原理。关于资本资产定价模型详细介绍，请参考文章R语言解读资本资产定价模型CAPM

图中，x轴为收益率的标准差，y轴为收益率的均值，图中的点构建了可投资区域，每个点代表一个可投资产品，每条虚线连接的点的集合，就是一个有效的投资组合。

对于，图中近百个点来说，假设每次要配置5种资产做投资组合，那么就是75287520种组合方法；如果配置10种资产，可选方案就是一个非常大的数字了。

我可以用R语言来计算一下，投资组合的数量。


# 100个选5个，做组合
> choose(100,5) 
[1] 75287520

# 100个选10个，做组合
> choose(100,10) 
[1] 1.731031e+13

对于金融市场来说，有非常多的金融资产可供我们来选择。中国A股股票有3000多只，基金2000多支，债券3000多支，期货100多支，还有大综商品，货币市场产品，汇率产品，海外投资市场等。如果把这个多种的资产进行组合，将有无限多的投资组合可以进行选择，是一个无限大的计算量。我们需要利用算法进行组合优化，从而找到市场上最优的投资组合。算法本身，才是最能体现价值的部分。

那么传统的基金是如何进行投资组合的？大多都是靠投资经理的主观投资经验来完成的。在金融市场里，每支基金都配置了不同的资产做组合，我们随便找支基金看看，它的投资组合是如何配置的。比如，华夏成长(000001.OF)基金，它是股债混合型的。数据来源于万得， 2017年2月8日的数据。

从业绩表现来看，这支基金最辉煌的时代在2006-2007年，连续6个月回报101.49%，那么最低1年表现就比较差，为仅落后于沪深300指数，整体排名也都在后面。今年以来收益率0.58%，同类排名144/507；1年收益率-1.45%，同类排名400/487；3年收益11.67%，同类排名378/426；5年收益39.96%，同类排名290/352。

我们再来看一下，这支基金的组合成分，主要是股票和债券。

债券占比：

证券名称	占净值比	近3月涨跌
12石化01	2.34%↑	-0.49%
116国泰君安CP008	2.12%↑	-0.03%
116农发01	1.91%↑	-0.08%
110营口港	1.70%↑	-1.59%
109常高新	1.62%↑	-0.65%

股票占比：

证券名称	占净值比	近3月涨跌
中工国际	4.09%↑	-0.95%
中国医药	3.85%↑	0.34%
神雾环保	3.81%↑	2.56%
东方网络	2.89%↑	-13.00%
立讯精密	1.52%↑	-1.82%
高能环境	1.42%↑	-14.96%
上汽集团	1.38%↑	7.88%
田中精机	1.31%↑	-12.28%
上海医药	1.25%↑	5.39%
中牧股份	1.21%↑	-4.25%

从市场上几千支的股票和债券中进行选择，并配置不同的权重，之前都是基金经理干的活，那么我们用算法一样也可以干，说不定用算法模型构建的组合业绩会更好。如果我们用算法模型，取代了年薪几百万的基金经理，那么你就能够获得这个收益。最终实现个人价值，从而用算法改变命运。所以，通过金融变现才是最靠谱的。

转载请注明出处：
http://blog.fens.me/architect-algorithm/

打赏作者

Posted:

Dec 29, 2016

Tags:

alpha beta CAPM CML portfolio R 投资组合收益率资本资产定价模型

Comments:

Comments Off

R语言解读资本资产定价模型CAPM

用IT技术玩金融系列文章，将介绍如何使用IT技术，处理金融大数据。在互联网混迹多年，已经熟练掌握一些IT技术。单纯地在互联网做开发，总觉得使劲的方式不对。要想靠技术养活自己，就要把技术变现。通过“跨界”可以寻找新的机会，创造技术的壁垒。

金融是离钱最近的市场，也是变现的好渠道！今天就开始踏上“用IT技术玩金融”之旅！

关于作者：

张丹(Conan), 程序员R,Nodejs,Java
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/finance-capm

前言

伴随2016年中国金融交易市场的跌宕起伏，风险越来越不确定，利率持续走低，理财等无风险资产收益持续下降的情况，唯有投资组合才能让我们的资产保值、增值。根据资本资产定价模型(CAPM)，通过对金融数据的分析，构建投资组合，帮助我们在有效的市场中控制风险、稳定收益。

本文将深入浅出地介绍资本资产定价模型，从理论到建模，再到程序现实。资本资产定价模型反应的是资产的风险与期望收益之间的关系，风险越高，收益越高。当风险一样时，投资者会选择预期收益最高的资产；而预期收益一样时，投资者会选择风险最低的资产。

由于本文为非金融教材类文章，所以当出现与教课书不符的描述，请以教课书为准。本文力求用简化的语言，来介绍自资本资产定价模型的知识，同时配合R语言的实现。

故事背景
资本市场线
资本资产定价模型
用R构建投资组合模型
Beta VS Alpha

1. 故事背景

1952年，马科维茨(Markowitz)提出了投资组合选择理论，他认为最佳投资组合应当是，风险厌恶特征的投资者的无差异曲线和资产的有效边界线的交点。投资者在选择资产时会在收益和风险之间做出平衡：当风险一样时，会选择预期收益最高的资产；而预期收益一样时，会选择风险最低的资产。

图1 投资组合选择示意图

到1964年，威廉-夏普(William Sharp)，约翰-林特纳(John Lintner)与简-莫森(Jan Mossin)则在马科维茨基础上提出的单指数模型，将市场组合引入均值-方差模型，极大地简化了计算，他们认为获得了市场任意资组合的收益与某个共同因素之间是有线性关系，最终将其发展为资本资产定价模型(Capital Asset Pricing Model, CAPM)。从马科维茨的投资组合选择理论，发展到资本资产定价模型经历了一个漫长的过程。

简单一句话概括，资本资产定价模型的核心思想，资产价格取决于其获得的风险价格补偿。

假设条件

资本资产定价模型，是基于一系列假设条件而成立的。但这些条件，可能并不符合现实的标准，资本资产定价模型也一度遭到质疑。

资产可以无限分割。
不存在交易成本和个人所得税。
可以无限卖空。
存在一种无风险利率，投资者在此利率水平下，可以无限制地贷出和借入任意数额的资金。
投资者是价格接受者，市场是完全竞争的。
投资者是理智的，通过比较资产的期望收益和方差来作出投资决策，在相同预期收益下会选择风险最小的资产。
投资者在相同的投资期限出作出决策，而市场信息是公开免费的，并可以及时获得。
投资者对市场中的经济变量有相同的预期，他们对任意资产的预期收益率、市场风险的看法是一致的。

资本资产定价模型的核心假设是认为市场满足完全、无摩擦和信息完会对称的条件，市场中的投资人都是Markowitz理论中的理性经济人。

2. 资本市场线

由于涉及到金融专业领域，有几个概念是我们应该提前知道的。

风险资产：风险资产是指具有未来收益能力的资产，但收益率不确定且可能招致损失，比如股票、债券等。
无风险资产：没有任何风险或者风险非常小的资产，有确定的收益率，并且不存在违约的风险。
收益率：指从投资开始到投资结束时，所获得的投资回报率。
无风险收益率：无风险资产，所产生的投资回报率。
投资组合：由投资人或金融机构所持有的股票、债券、基金、衍生金融产品等组成的集合，目的在于分散风险。
杠杆交易：就是利用小资金来进行数倍于原始金额的投资，以期望获取相对投资标的物波动的数倍收益率的盈利或亏损。

2.1 风险资产

对于风险资产来说，我们可以用预期收益和风险，通过二维的坐标来进行描述。

对上图的解释：

X轴，为风险
y轴，为收益率
灰色区域，为金融资产可投资区域
黑色线，为有效投资边界
A和B点，为2个风险资产

A和B有相同的x值，表示具有相同的风险。B点在A点上面，表示B的收益率高于A。对于理性的投资者来说，如果只在A点和B点之间做投资选择，那么大家都会投资到B点，而不投资于A点。

2.2 无风险资产

在下图中，我们加入无风险资产，来比较无风险资产和风险资产的关系。

对上图的解释：

B点，为1个风险资产，在有效投资边界上
C点，为无风险资产，在y轴上
X轴，为风险
y轴，为收益率
灰色区域，金融资产为可投资区域
黑色线，为有效投资边界

C点为无风险资产，他的位置在图示的y轴上，这时x为0，即风险为0。我们可以把投资，分配到C点或B点上。如果都投到C点，那么我们将获得的是R0部分的无风险收益；如果都投到B点，那么我们需要承担σB的风险，同时获得RB的风险收益。如果我们把资金，一部分投资到B点对应的风险资产上，另一部分投资到C点对应的无风险资产上，那么将构成一个由B和C资产组成的投资组合，而且风险和收益部分，将体现在B和C的连线上。

2.3 最优组合

那么，有没有最优的投资组合呢？收益最大、风险最小。下面就让我们来，发现这个最优的组合M。

对上图的解释：

M点，为最优组合的风险资产
B点，为1个风险资产，在有效投资边界上
C点，为无风险资产，在y轴上
X轴，为风险
y轴，为收益率
灰色区域，金融资产为可投资区域
黑色线，为有效投资边界

假设有最优的组合，在上图中M点处，当我们把C和M进行连线，使得CM的连线与灰色区域相切。从图上看，CM的连线会比任意的C与可投资区域点的连线斜率都要大，比如C和B的连线。我们取CB的连线的延长线，在CB的延长线上找到，与M具有相同x的点B’，这时M与B’风险相同，M点在B’点的上面，所以M点的收益率大。也就是说，当风险相同的时候，我们都会选择收益率最大的资产。

不论从可投资区域中怎么选取，M点都是斜率最大的点，那么我们可以认为，M点为市场上各资产的最优的投资组合.

对于最优的投资组合，其实不管投资者的收益风险的偏好是什么样子的，只要找到了最优的风险资产组合，再加上无风险的资产，就可以为投资者获得最佳的投资方案了。那么对于理性的投资者，如果发现了最优的组合，他们只会投资于这个组合，这时与收益和风险偏好无关。

M点构建的投资组合，一般是由所有可投资证券产品组成的，每种证券资产构成的比例，为证券的相对市值。无风险资产C，并没有包括在M中，人们都会选择CM的连接线进行投资，来构建最优的投资组合。

在实际的市场交易中，金融资产的价格会发生偏离，因为价格受市场的供需关系所影响，当价格发生偏离后，市场会自动修复会回均衡价格水平。

2.4 资本市场线

对于CM的连线，就是马科维茨提出了投资组合选择理论，风险厌恶特征的投资者的无差异曲线和资产的有效边界线的交点。这条线就叫，资本市场线(Capital Market Line)。

资本市场线是指表明有效组合的期望收益率和标准差之间的一种简单的线性关系。

资本市场线决定了证券的价格。因为资本市场线是证券有效组合条件下的风险与收益的均衡，如果脱离了这一均衡，则就会在资本市场线之外，形成另一种风险与收益的对应关系。

2.5 投资组合构建

资本市场线，就是我们最优的投资组合，当我们发现这个投资组合，所有资金都会投到这个组合上。通过对无风险资产C和风险资产M分配不同的投资权重，我们可以自己配置出自己想要的风险和收益来，同时可以利用金融工具来加杠杆放大风险和收益的范围。

如果我们把投资者分成，风险厌恶型和风险激进型。

对于风险厌恶型，他们对于资金安全有非常高的要求，不追求高收益但求本金安全，这些资金通常都是用来生活的。那么在为这些资金做资产配置方案的时候，可以把一部分资金配置无风险资产上，同时少量资金配置到M点的最优组合上，保证低风险并获得少量收益。

如图中CM1点，如果配置50%的风险资产M和50%的无风险资产C，来实现投资组合。公式如下：

CM1 = 0.5C + 0.5M

对于风险激进型，他们对于资金有非常高的收益要求，本金可以部分或全部损失，这些资金通常都是“闲钱”，就是用来进行投资活动的。那么在为这些资金做资配置方案时，可以全部都投到M上，再激进点，可以通过借钱、融资的方式，增加杠杆，把资金放大进行投资。这种操作风险会随着杠杆的放大剧增，当然同时你也会有更大的收益。

如图中CM2点，落在了CM的延长线上。我们可以配置150%的风险资产M，同时用50%的钱去抵押以无风险资产C的收益率去借钱。公式如下：

CM2 = -0.5C + 1.5M

2.6 风险和收益的关系

上面我们描述风险和收益的关系，主要是从思路上定性介绍，没有进行定量描述，那么究竟风险和收益从数学上怎么进行定义呢。

对上图的解释：

M点，为最优组合的风险资产
C点，为无风险资产，在y轴上
r0，为无风险资产的收益率
rM，为M点的收益率
x轴，σp为风险资产的收益率的方差
y轴，rp为收益率

根据威廉-夏普所引入的均值-方差模型，极大地简化了计算，就是解决了公式计算的问题。用方差来刻画风险，建立收益和风险的一元线性关系。可以用下面公式来表示：

公式

E(rm) – r0 = A * σM^2

公式解释：

E(rm)：市场投资组合的预期收益率
r0：无风险收益率
E(rm)–r0, 市场投资组合的风险溢价
σM^2: 市场投资组合方差Var(rM)
A：风险厌恶水平

有了公式，我们就明确的知道了，风险和收益的定量关系，并且可以利用数据来进行计算。

3. 资本资产定价模型

对于市场的投资组合，风险溢价和市场投资组合的方差成线性关系。但对于单个资产来说，收益和风险是市场投资组合组成的一分部，受市场共同变化的影响。

3.1 单个资产风险溢价

对于单个资产的风险来说，在资本资产定价模型中，用β来进行表示。β是衡量单个金融资产与市场收益的共同变化程度，通过协方差来计算。单个资产的风险为，当前资产与投资组合收益率的协议差，除以投资组合收益率的方差。

单个资产的风险的计算公式：


βi = Cov(ri, rm) / Var(rm) 
   = Cov(ri, rm) /  σm^2

单个资产的风险溢价的计算公式：


E(ri) – rf = （Cov(ri, rm) / σm^2）*[E(rm) – rf] 
           =  βi  *  [E(rm) – rf]

对公式的解释：

E(ri)，为风险资产i的预期收益
E(rm)，为市场投资组合的预期收益
rf，为无风险资产收益
Cov(ri, rm)，为风险资产收益率和市场投资组合收益率的协议差
Var(rm)，为市场投资组合的收益率的方差

从公式可以看出，单个资产的风险溢价与市场投资组合M的风险溢价成正比，受β影响。

3.2 资本资产定价模型

资本资产定价模型，是现化金融学中的基石理论。在上述假设条件下，可以推到出资本资产定价模型的具体公式。整个和推到过程，就是上面文章介绍的过程，从后人学习的角度看，这个理论比较简单的，仅用到了简单地统计学知识，但是前人却花了很长的时间研究和探索。

判断单个资产的风险时，当β=1时，则说明当前资产与整个市场的趋势是完全保持一致的；当β为2时，代表高风险，其回报的变化将大于市场大盘的变化幅度；当β为0.5时，代表是低风险的资产配置。

3.3 2种风险

在资本资产定价模型，定义了2种风险，即系统性风险和非系统性风险。

系统性风险，就是由外部因素引起的风险，比如：通货膨胀，GDP，重大政治事件等等。这一类事件对于资产收益率的影响不能通过组合本身来消除的，所以这一类风险对于投资者来说是无法回避的。

非系统性风险，就是组合内部结构引起的风险，比如：A股与B股高度相关，A股的收益率出现大幅波动的时候，B股也会出现相似幅度的波动，波峰叠加或波谷叠加，就会增加整个组合的风险；反之，如果A与B为负相关，则A与B的波动就会相互抵消。这样，风险是由组合里的资产类型决定的，所以通过多样化分散的投资策略，无论在理论还是实际上，这种风险都是可以最小化甚至消除的。而这个消除的过程中，整个投资组合的收益率是不会下降的。

3.4 2种收益

与风险相对应是收益，我们承受了2种风险的同时，也获得了风险所带来的收益。一部分是与市场完全相关收益部分，即beta(β)收益；另一部分与市场不相关的收益部分，即alpha(α)收益。

beta收益，相对容易获得，例如，你看好一个市场，可以持有成本低廉的对应市场的指数基金，等待市场上涨。
alpha收益，比较难获得，alpha是体现投资水平的策略收益。

alpha是，投资组合的实际期望收益与预期收益之间的差。计算alpha的公式为：


E(ri) – rf = αi + βi  *  [E(rm) – rf]
αi         = [E(ri) – rf] -  βi * [E(rm) – rf]

alpha是衡量投资人投资水平的，我们举个例来说明。比如：市场收益率为14%，A证券的β=1.2，短期国债利率6%，投资者对这只股票的进行了交易，获得的实际收益为17%，那么我们怎么判断投资人的水平呢？

首先，先求出A证券的预期收益率 = 6% + 1.2*(14-6)% = 15.6%，再用投资者实际收益减去A证券预期收益 17% – 15.6% = 1.4%。最后获得的1.4%就是alpha，表示投资者能力，可以额外获得1.4%的收益。

3.5 资本资产定价模型的应用场景

进行组合投资分散风险：投资者可以按市场组合的构成比例分散持有多种风险资产，使持有的风险资产组合最大限度地接近市场组合，以达到消除非系统风险的目的。

调整收益风险比例：将无风险资产与风险资产市场组合进行再组合，以获得所希望的个性化的风险收益组合。

指数化投资：将资产配置在与某一指数相同的权重的投资方法，通过微调权重或成分，获得比指数更好的alpha。

资产定价：资本资产定价模型可以用来判断有价证券或其他金融资产的市场价格是否处于均衡水平，是否被高估或低估，以便通过套利活动获取超额收益。

基金购买：举一个贴近市场的例子，当我们要购买基金时，也可以用到资本资产定价模型帮我们分析。比如，基金A的期望收益率12%，风险β=1，基金B期望收益率13%，β=1.5。市场期望收益率11%，无风险资产收益率r0 = 5%。那么哪只基金更值得买？

当你每天打开支付宝，看到里面的各种基金推荐。你就会发现这是一个实际的问题。如果你懂学了本文，按照资本资产定价模型的思路，其实就是求alpha，哪个基金的alpha高，就买哪个。

求alpha，我们就直接套用公式。


αA = 12 – 5 – 1 * [11 - 5] = 1%
αB = 13 – 5 – 1.5* [11 -5 ] = -1%

基金A的alpha为1%，而基金B的alpha为-1%。结论就很明显，基金A的管理人能力很好，超额收益1%；而基金B的管理人，就差一些，盈利低于市场1%。所以，我们会投资基金A，而不会投资基金B。

4. 用R构建投资组合模型

花了大量的篇幅介绍了资本资产定价模型的原理，对于程序实现其实是相当简单地。因为R语言中，已经把资本资产定价模型相关的计算函数都封包好了，我们仅仅是调用就能完成整个的计算过程。

R语言程序实现，我们主要会用到2个包，quantmod和PerformanceAnalytics。对于为什么要用R语言，可以参考文章R语言为量化而生

quantmod，用于下载数据。
PerformanceAnalytics，用于进行各种评价指标计算。

我们设计一个应用场景，假如我有10万美金想投资于美国的股市，我想获得比标普好(SP500)的投资收益，那么我应该如何购买股票。

首先，我们先想清楚，我的最终的目标是“比标普好的投资收益”。其次，我们基于资本资产定价模型理论基础，从投资组合角度思考投资策略，而不是技术指标的角度。比标普好，那么我们就需要以标普指数做为理想投资组合。然后，我们去市场上选择几个股票，分别计算出收益率，beta，alpha等指标，判断是否符合的预期，反复测试，直到找到合适的股票或股票组合。

本文只是案例介绍，用于说明投资思路和方法，不购成任何的股票推荐。

本文的系统环境

Win10 64bit
R version 3.2.3 (2015-12-10)

从yahoo下载IBM,GE(通用电器),YHOO(Yahoo)的3只股票，从2010年01月01日的日行情数据，同时下载标普指数(SP500)的日行情数据。

下面代码并不完整，但思路已经给出，请大家不要太随意地张嘴要数据和代码，毕竟写一篇文章非常辛苦。如果你想直接用我的代码，请扫文章下面二维码，请作者喝杯咖啡吧。 :_D

执行R语言程序。


# 加载程序包
> library(quantmod) 
> library(PerformanceAnalytics)

# 从yahoo下载3只股票的数据，和SP500的数据
> getSymbols(c('IBM','GE','YHOO','^GSPC'), from = '2010-01-01')

# 打印前6行和后6行数据
> head(GSPC)
              open    high     low   close     volume adjusted
2010-01-04 1116.56 1133.87 1116.56 1132.99 3991400000  1132.99
2010-01-05 1132.66 1136.63 1129.66 1136.52 2491020000  1136.52
2010-01-06 1135.71 1139.19 1133.95 1137.14 4972660000  1137.14
2010-01-07 1136.27 1142.46 1131.32 1141.69 5270680000  1141.69
2010-01-08 1140.52 1145.39 1136.22 1144.98 4389590000  1144.98
2010-01-11 1145.96 1149.74 1142.02 1146.98 4255780000  1146.98

> tail(GSPC)
              open    high     low   close     volume adjusted
2016-12-20 2266.50 2272.56 2266.14 2270.76 3298780000  2270.76
2016-12-21 2270.54 2271.23 2265.15 2265.18 2852230000  2265.18
2016-12-22 2262.93 2263.18 2256.08 2260.96 2876320000  2260.96
2016-12-23 2260.25 2263.79 2258.84 2263.79 2020550000  2263.79
2016-12-27 2266.23 2273.82 2266.15 2268.88 1987080000  2268.88
2016-12-28 2270.23 2271.31 2249.11 2249.92 2392360000  2249.92

# 画出SP500的K线图
> barChart(GSPC)

把4个品种的调整后的价格进行合并。


> # 改列名
> names(IBM)<-c("open","high","low","close","volume","adjusted")
> names(GE)<-c("open","high","low","close","volume","adjusted")
> names(YHOO)<-c("open","high","low","close","volume","adjusted")
> names(GSPC)<-c("open","high","low","close","volume","adjusted")

# 数据合并
> dat=merge(IBM$adjusted,GE$adjusted,YHOO$adjusted,GSPC$adjusted)
> names(dat)<-c('IBM','GE','YHOO','SP500')

# 打印前6行
> head(dat)
                IBM       GE  YHOO   SP500
2010-01-04 112.2859 12.27367 17.10 1132.99
2010-01-05 110.9295 12.33722 17.23 1136.52
2010-01-06 110.2089 12.27367 17.17 1137.14
2010-01-07 109.8274 12.90920 16.70 1141.69
2010-01-08 110.9295 13.18724 16.70 1144.98
2010-01-11 109.7680 13.31435 16.74 1146.98

计算每日收益率，合并收益率到dat_ret


> dat_ret=merge(IBM_ret,GE_ret,YHOO_ret,SP500_ret)
> names(dat_ret)<-c('IBM','GE','YHOO','SP500')
> head(dat_ret)
                    IBM           GE         YHOO        SP500
2010-01-04  0.009681385  0.015111695  0.009445041 0.0147147759
2010-01-05 -0.012079963  0.005177994  0.007602339 0.0031156762
2010-01-06 -0.006496033 -0.005151320 -0.003482298 0.0005455205
2010-01-07 -0.003461515  0.051779935 -0.027373267 0.0040012012
2010-01-08  0.010034759  0.021538462  0.000000000 0.0028817272
2010-01-11 -0.010470080  0.009638554  0.002395150 0.0017467554

定义无风险收益率为4%，计算4个资产的平均年化收益率。


# 无风险收益率
> Rf<-.04/12

# 计算平均年化收益率，平均年化标准差，平均年化Sharpe 
> results<-table.AnnualizedReturns(dat_ret,Rf=Rf)
> results
                               IBM      GE    YHOO   SP500
Annualized Return           0.0345  0.1108  0.1257  0.1055
Annualized Std Dev          0.1918  0.2180  0.3043  0.1555
Annualized Sharpe (Rf=84%) -2.8892 -2.3899 -1.6911 -3.3659

统计指标分析，每个资产有1760个样本点，没有NA值。日最小收益率，YHOO最小为-0.0871。日最大收益率，在GE为0.1080。算数平均，几何平均，方差，标准差都是YHOO最大。


# 计算统计指标
> stats
                      IBM        GE      YHOO     SP500
Observations    1760.0000 1760.0000 1760.0000 1760.0000
NAs                0.0000    0.0000    0.0000    0.0000
Minimum           -0.0828   -0.0654   -0.0871   -0.0666
Quartile 1        -0.0060   -0.0065   -0.0098   -0.0039
Median             0.0002    0.0004    0.0005    0.0005
Arithmetic Mean    0.0002    0.0005    0.0007    0.0004
Geometric Mean     0.0001    0.0004    0.0005    0.0004
Quartile 3         0.0067    0.0077    0.0112    0.0053
Maximum            0.0567    0.1080    0.1034    0.0474
SE Mean            0.0003    0.0003    0.0005    0.0002
LCL Mean (0.95)   -0.0004   -0.0001   -0.0002    0.0000
UCL Mean (0.95)    0.0008    0.0012    0.0015    0.0009
Variance           0.0001    0.0002    0.0004    0.0001
Stdev              0.0121    0.0137    0.0192    0.0098
Skewness          -0.5876    0.3084    0.0959   -0.3514
Kurtosis           4.6634    4.7294    2.9990    4.0151

画出IBM股票，日收益和月收益的图，4个资的累积收益率图，并对4个资产做相关性分析。

IBM股票，每日收益图

IBM股票，每月收益图

4个品种的累积收益率图

从上图中可以看出，红线(GE)和蓝线(SP500)的走势基本稳合，说明GE在从2010开始在跟着美国经济持续发展。绿线(YHOO)从2013初到2015年初大幅拉升，领先于SP500很多，说明这段时期YHOO所处的互联网行业，带来了非常大的市场红利；从2015年到2016年，又下跌很大，大起大落，受市场影响非常敏感。黑线(IBM)大部分时间都处于SP500的下方，说明美国经济这几年的高速发展，并没有给IBM带来很大的发展空间。如果从我们的目标来说，”比标普好的投资收益”那么我们只能选择GE或YHOO。

5. Beta VS Alpha

最后，补充一些Alpha和Beta的说明。Alpha和Beta的认知最早是一个股市起源的概念，是一个关于投资组合的收益率分解的问题

Alpha:一般被认为是投资组合的超额收益，也既管理人的能力；
Beta:市场风险，最初主要指股票市场的系统性风险

Alpha是平均实际回报和平均预期回报的差额。

α>0，表示一基金或股票的价格可能被低估，建议买入。
α<0，表示一基金或股票的价格可能被高估，建议卖空。
α=0，表示一基金或股票的价格准确反映其内在价值，未被高估也未被低估。

Beta反映了单个证券与整体市场组合的联动性。

β>1，攻击性，市场上升时涨幅大。
β<1，防御性，市场下跌时跌幅小。
β=1，中立性，与市场波动一致。

从资本资产定价模型开始发展到现今，已经有很长的时间了。金融理论在一直发展，继资本资产定价模型之后又一重要的理论突破是套利定价理论，我将在下一篇文章中进行介绍。

本文中，我详细地介绍了资本资产定价模型的金融理论、推到过程、以及R语言实现，用我自己的理解进行阐述。希望能给走在量化道路上的朋友带来入门的指引和帮助，也希望找到像我一样，通过IT转金融的人，让我一起用IT技术+金融的思维在金融市场抢钱吧。

转载请注明出处：
http://blog.fens.me/finance-capm

打赏作者

Posted:

Dec 21, 2016

Tags:

R 投资组合招商银行摩羯智投数据分析智能投顾金融

Comments:

0 Comments

用数据解读摩羯智投

金融是离钱最近的市场，也是变现的好渠道！今天就开始踏上“用IT技术玩金融”之旅！

关于作者：

张丹(Conan), 程序员R,Nodejs,Java
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/finance-mojie

前言

进入2016年，伴随世界经济危机的到来，中国互联网创业，也在经历长时间的寒冬，有不少的公司都因资金链断裂，停止了运营。与寒冬反差很大的是，AI技术却火了起来，受到资本的追捧。智能投顾作为金融领域的AI热点，一直在持续升温。

到2016年底，招商银行发布了一个名为“摩羯智投”的应用，一下子吸引了众多人的眼球，打开了银行进军智能投顾领域的大门。本文将用数据来解读“摩羯智投”的到底是怎么玩的。

摩羯智投介绍
数据收集
数据建模分析
结论

1. 摩羯智投介绍

摩羯智投，是招商银行在2016年12月6日发布的一款手机端应用，嵌入在招商银行的APP中，加入了FinTech理念，把金融和人工智能进行了结合。

按招商银行发布的文章中介绍，摩羯智投是运用机器学习算法，构建的以公募基金为基础的、全球资产配置的“智能基金组合配置服务”。在客户进行投资期限和风险收益选择后，摩羯智投会根据客户自主选择的“目标—收益”要求、构建基金组合，由客户进行决策、“一键购买”并享受后续服务。

摩羯智投并非一个单一的产品，而是一套资产配置服务流程，它包含了目标风险确定、组合构建、一键购买、风险预警、调仓提示、一键优化、售后服务报告等，涉及基金投资的售前、售中、售后全流程服务环节。比如，摩羯智投会实时进行全球市场扫描，根据最新市场状况，去计算最优组合比例，如果客户所持组合偏离最优状态，摩羯智投将为客户提供动态的基金组合调整建议，在客户认可后，即可自主进行一键优化。

摩羯智投的开机画面。

看完招商银行官方的介绍，接下来我们从数据进行分析，看看“摩羯智投”到底有多智能。

2. 数据收集

要做数据分析，我们就要以数据来思考。我的思路，要先收集数据，把应用所有的输入项和输出项的数据进行整理，然后我们通过统计的方法和金融知识来找到数据之间的关系。

注：由于应用中没有明确的字段定义，下面字段我按照字面意思进行解读。

数据输入项只有2个字段，包括

大致投资期限：从投资开始到投资结束的期限。
风险承受能力：承担多大的风险，以及风险带来的损失。

数据输出项，字段就比较多，包括

模拟历史年化收益（%)：对历史数据回测，所获得的年化收益率。
模拟历史年化波动率（%)：对历史数据回测，所获得的年化波动率。
模拟历史收益(元)：在投资10000元，并持有一年，所获得的收益金额。
95%的概率下亏损(元)：在95%概率下最大亏损金额。
固定收益（%)：固定收益类基金的配置比例。
现金及货币（%)：现金货币类基金的配置比例。
股票类（%)：股票类基金的配置比例。
另类及其他（%)：另类投资的类基金的配置比例。
投资组合收益率曲线：按比例构成的组合，生成的收益率曲线。
投资组合配置详情：4类资产对应的具体基金品种和配置比例

对应到“摩羯智投”的操作界面上，我标出了输入数据和输出数据的提取点。

根据界面来收集到的数据，整理为CSV格式，便于之后的分析。数据收集，我分别存储到了3个CSV文件中。

a.csv:用于收集第1-2个界面的数据，用户直接输入和输出数据，包括：大致投资期限(term)，风险承受能力(rick)，模拟历史年化收益(ret)，模拟历史年化波动率(vol)，模拟历史收益(gains)，亏损(loss)，固定收益(fixed)，现金及货币(cash)，股票类(stock)，另类及其他(alter)
b.csv:用于收集所有标的基金所对应的市场数据，从wind中采集，包括：基金名称(name)，基金代码(code)，基金成立时间(create)，基金类型(type)，净值20140101(first2014)，净值20150101(first2015)，净值20160101(first2016)，净值20161208(last)
c.csv:用于收集第3个界面的数据，每个组合的标的基金的配置比例，包括：大致投资期限(term)，风险承受能力(rick)，基金类型(type)，基金代码(code)，配置比例(weight)

a.csv的数据样例前10条，如下：

b.csv的数据样例前10条，如下：

c.csv的数据样例前20条，如下：

这里还需要特别说明的事，由于应用的数据，可能会动态的发生变化，我是采集的2016年12月8日的“摩羯智投”应用中的数据。

多说一句，数据花点时间谁都可以在应用中拿到，虽然我已经整理了数据，但请大家不要太随意地张嘴要数据和代码，毕竟写一篇文章非常辛苦。如果你想直接用我的数据和代码，请扫文章下面二维码，请作者喝杯咖啡吧。 :_D

3. 数据建模分析

收集好了数据，接下来就可以进行数据分析了。当然，分析的角度有很多种，可以从金融、统计、数据挖掘等专业方向，也可以计算一些简单的指标，最大值，最小值，平均值等等。我思考的出发点，主要在金融和统计上面，如果存在片面性，还请大家给予指正。

下面将从6个知识点，对“摩羯智投”进行分析。

3.1 分析一：只有2个输入项。

由于只有2个输入项，大致投资期限和风险承受能力。大致投资期限有3个选项，风险承受能力有10个选项，那么实际的组合个数就是3*10=30个。对于只有30个组合来说，并不能完全实现个性化，当有31个用户使用产品时，就会有2个人购买的组合是是重复的。

3.2 分析二：只有17只标的基金

我们对30个组合进行配置尝试后，发现详细持仓方案中，只有17只基金，配置比例不同而矣。标的过少，可能导致风险不能足够的分散化，遇到极端行情会导致大的回撤。17只基金分别是


> paste(dfb$name,"(",dfb$code,")",sep="")
 [1] "工银纯债B(OF000403)"     "易增强回报B(OF110018)"   "建信稳定增利C(OF530008)"
 [4] "工银天颐B(OF485014)"     "南方量化成长(OF001421)"  "中欧潜力价值(OF001810)" 
 [7] "大成500(OF096001)"       "黄金接连C类(OF000217)"   "亚洲美元债C(OF002401)"  
[10] "大摩收益C(OF233013)"     "博时信用债C(OF050111)"   "兴权可转债(OF340001)"   
[13] "创金多因子(OF002210)"    "招商现金增值A(OF217004)" "富国中小盘(OF100061)"   
[16] "工银瑞信全球(OF486002)"  "南方成份(OF202005)"

3.3 分析三：相关性分析

直接利用a.csv的数据集，查看输入项和输出项的相关性，发现相关关系。

通过R语言程序实现


# 加载数据
> dfa<-read.csv(file="a.csv")
> names(dfa)<-c("term","risk","ret","vol","fixed","cash","stock","alter","gains","loss")

# 画出配对示意图
> pairs(df)

把数据变成可视化来显示，对于我们理解数据非常有帮助。

term列，和其他列的散点图，完全呈现离散的分布，说明term列与其他列并没有相关性的关系。
risk列，除了和alter列没有线性关系，和其他列呈现明显的线性关系。

我们把上面相关性图，再加上一些元素，如相关系数、拟合曲线、分布图等，重新画出相关性图，如下所示。

这样就清晰了多了。

risk列，与模拟历史年化收益(ret)，模拟历史年化波动率(vol)，拟历史收益(gains)，呈现极度正相关，输出项的数字完全受risk值影响。
risk列，与固定收益(fixed)和现金及货币(cash)，极度负相关；与股票类(stock)，极度正相关；另类及其他(alter)，负相关。这种情况，与资产的风险收益属性是匹配。
vol列，与亏损(loss)，是100%线性相关。
ret列，与拟历史收益(gains)，是100%线性相关，这里可以获得公司：gains = 10000 * ret 。

3.4 分析四：线性回归

通过相关性的检查，我们可以发现risk与很多列都是极度相关的。

那么我们可以用线性回归的方法，把risk与有相关性的列的参数估计出来。如果不太了解，一元线性回归的可以参考文章，R语言解读一元线性回归模型。

由于vol和loss是100%线性相关，以vol为x，loss为y，构建一元线性回归方程。


# 回归方程
> lv<-lm(loss~vol,data=dfa)
> summary(lv)
Call:
lm(formula = loss ~ vol, data = dfa)

Residuals:
    Min      1Q  Median      3Q     Max 
-36.119 -31.491  -6.621  27.884  67.305 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -447.514     13.056  -34.28   <2e-16 ***
vol          149.109      1.707   87.34   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 34.2 on 28 degrees of freedom
Multiple R-squared:  0.9963,	Adjusted R-squared:  0.9962 
F-statistic:  7629 on 1 and 28 DF,  p-value: < 2.2e-16

进行线性回归的统计检查：T检查，F检查都非常显著，同时R-squared为0.9963，具有极度相关性。


# 画出散点图和拟合曲线
> plot(loss~vol,data=dfa)
> abline(lv)

从图中看到，拟合效果非常好，可以整理出公式：loss = -447.514 + 149.109*vol。

另外，由于risk决定vol，再让我们算一下risk和loss的关系，以risk为x，loss为y，构建一元线性回归方程。


# 构建一元线性回归方程
> lm(loss~risk,data=dfa)
Call:
lm(formula = loss ~ risk, data = dfa)

Coefficients:
(Intercept)         risk  
     -435.8        180.0 

# 详细指标
> summary(lr)
Call:
lm(formula = loss ~ risk, data = dfa)

Residuals:
    Min      1Q  Median      3Q     Max 
-219.88 -136.93  -59.26  100.69  508.31 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -435.84      72.38  -6.021 1.73e-06 ***
risk          179.95      11.67  15.426 3.23e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 183.5 on 28 degrees of freedom
Multiple R-squared:  0.8947,	Adjusted R-squared:  0.891 
F-statistic:   238 on 1 and 28 DF,  p-value: 3.232e-15

T检查和F检查，非常显著；R-squared 也比较高。

下面进行残差检查，发现30号点，是偏离比较大，可能是离群值。

我们把30号点去掉，再做显著性检查和残差分析。


> dfa2<-dfa[-30,]
> lr2<-lm(loss~risk,data=dfa2)
> summary(lr2)
Call:
lm(formula = loss ~ risk, data = dfa2)

Residuals:
    Min      1Q  Median      3Q     Max 
-203.00 -100.98  -58.98   83.53  327.46 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -397.55      62.23  -6.389 7.64e-07 ***
risk          169.51      10.32  16.431 1.39e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 155.3 on 27 degrees of freedom
Multiple R-squared:  0.9091,	Adjusted R-squared:  0.9057 
F-statistic:   270 on 1 and 27 DF,  p-value: 1.391e-15

在去掉30号点后，R-squared为0.9091，比之前的0.8947，有所提升。

从残差图中，我们看到没有明显的离群值点，所以去掉30号点，是符合统计提升标准的。

3.5 分析五：关于30号点的金融思考

从数据中，我们发现30号点的最大亏损已经超过了收益，也就是说你可能承担了过大了风险，但是没有获得风险所给你带来的收益。

按照资本资产定价模型的理解，我们投资组合的收益来自2部分，无风险收益和风险收益。无风险收益可以用现金或货币类的基金获得，风险收益主要来自股票基金，债券基金，另类投资最基金。直观上理解，风险收益比至少是1:1，即损失100元时，要获得100元风险补偿。对于私募业务来说，投资人可能会要求更高，比如风险:收益=1:2。

从另外一个角度分析，上面我所说的风险收益比并没有涉及到概率的部分，我猜95%是通过VaR值来做的概率计算。

3.6 分析六：通过标的基金计算收益率

在“摩羯智投”的应用中，我们可以获得各个基金的配置比例，基金净值的数据又可以在公开市场中获得，所以对于预期收益率，我们也可以自己计算一下，看看是不是与“摩羯智投”提供的结果是一致的。

接下来，就利用到上文介绍的数据集，b.csv和c.csv。


# 加载数据
> dfb<-read.csv(file="b.csv",encoding="utf-8",fileEncoding = "utf-8")
> names(dfb)<-c("name","code","create","type","first2014","first2015","first2016","last")

# 分别计算2014，2015，2016收益率
> dfb$ret2014<-(dfb$first2015-dfb$first2014)/dfb$first2014
> dfb$ret2015<-(dfb$first2016-dfb$first2015)/dfb$first2015
> dfb$ret2016<-(dfb$last-dfb$first2016)/dfb$first2016

# 把非法值赋值为0
> dfb$ret2014[c(which(is.na(dfb$ret2014)),which(is.infinite(dfb$ret2014)))]<-0
> dfb$ret2015[c(which(is.na(dfb$ret2015)),which(is.infinite(dfb$ret2015)))]<-0
> dfb$ret2016[c(which(is.na(dfb$ret2016)),which(is.infinite(dfb$ret2016)))]<-0

# 打印前6条
> head(dfb)
          name     code   create  type first2014 first2015 first2016   last    ret2014     ret2015      ret2016
1      工银纯债B OF000403 20140516 fixed    0.0000    1.0850    1.2200 1.2520 0.00000000  0.12442396  0.026229508
2    易增强回报B OF110018 20080319 fixed    1.4403    1.8124    2.1180 2.1693 0.25834896  0.16861620  0.024220963
3  建信稳定增利C OF530008 20080625 fixed    1.4529    1.8030    2.0304 2.0608 0.24096634  0.12612313  0.014972419
4      工银天颐B OF485014 20110810 fixed    1.2090    1.7300    1.9740 1.9680 0.43093466  0.14104046 -0.003039514
5   南方量化成长 OF001421 20150629 stock    0.0000    0.0000    1.2300 1.3400 0.00000000  0.00000000  0.089430894
6   中欧潜力价值 OF001810 20150930 stock    0.0000    0.0000    1.1010 1.2170 0.00000000  0.00000000  0.105358765

由于基金中，招商现金增值A(OF217004)为现金类基金，所以收益率需要直接取年化收益，而不是按上面的计算方法。


#现金类，收益率从wind查年化收益率，进行赋值
dfb[which(dfb$code=='OF217004'),]$ret2014<-0.0452
dfb[which(dfb$code=='OF217004'),]$ret2015<-0.036
dfb[which(dfb$code=='OF217004'),]$ret2016<-0.0237

再加载c.csv基金的详细配置方案。


> dfc<-read.csv(file="c.csv")
> names(dfc)<-c("term","risk","type","code","weight")

# 查看数据
> head(dfc)
  term risk  type     code weight
1    1    1 fixed OF000403   0.20
2    1    1 fixed OF110018   0.14
3    1    1 fixed OF530008   0.11
4    1    1 fixed OF233013   0.10
5    1    1 fixed OF050111   0.05
6    1    1 fixed OF485014   0.05

把数据变型，以type列转置为横表，去掉code列，以weight值进行填充，得到新数据集为r1。


> head(r1)
  term risk  alter   cash  fixed  stock
1    1    1 0.1000 0.2000 0.6500 0.0500
2    1    2 0.1500 0.1965 0.5491 0.1044
3    1    3 0.1562 0.1842 0.4881 0.1715
4    1    4 0.1011 0.1490 0.5162 0.2337
5    1    5 0.1137 0.1416 0.4943 0.2504
6    1    6 0.1143 0.1208 0.4655 0.2994

我们生成plan1的配置方案，当term=1，risk=1时。


# 只保留term=1，risk=1时数据
> plan1<-dfc[dfc$term==1 & dfc$risk==1,]

# 合并plan1数据集和dfb数据集
> plan1m<-merge(plan1[,c("term","risk","code","type","weight")],dfb[,c("code","ret2014","ret2015","ret2016")],by="code")

# 按分配比例计算收益率
> plan1m$ret2014w<-plan1m$weight*plan1m$ret2014
> plan1m$ret2015w<-plan1m$weight*plan1m$ret2015
> plan1m$ret2016w<-plan1m$weight*plan1m$ret2016

# plan1的，各基金分别在2014,2015,2016贡献的收益率
> plan1m
       code term risk  type weight    ret2014     ret2015      ret2016     ret2014w     ret2015w      ret2016w
1  OF000217    1    1 alter   0.05 0.01590909 -0.06711409  0.194844125 0.0007954545 -0.003355705  0.0097422062
2  OF000403    1    1 fixed   0.20 0.00000000  0.12442396  0.026229508 0.0000000000  0.024884793  0.0052459016
3  OF001810    1    1 stock   0.05 0.00000000  0.00000000  0.105358765 0.0000000000  0.000000000  0.0052679382
4  OF002401    1    1 alter   0.05 0.00000000  0.00000000  0.000000000 0.0000000000  0.000000000  0.0000000000
5  OF050111    1    1 fixed   0.05 0.87631433  0.12603844  0.034050727 0.0438157167  0.006301922  0.0017025363
6  OF110018    1    1 fixed   0.14 0.25834896  0.16861620  0.024220963 0.0361688537  0.023606268  0.0033909348
7  OF217004    1    1  cash   0.20 0.04520000  0.03600000  0.023700000 0.0090400000  0.007200000  0.0047400000
8  OF233013    1    1 fixed   0.10 0.24233716  0.20354665  0.047405509 0.0242337165  0.020354665  0.0047405509
9  OF485014    1    1 fixed   0.05 0.43093466  0.14104046 -0.003039514 0.0215467328  0.007052023 -0.0001519757
10 OF530008    1    1 fixed   0.11 0.24096634  0.12612313  0.014972419 0.0265062977  0.013873544  0.0016469661

把数据进行合并，分别计算plan1方案的收益率，和plan1方案不同资产的收益率贡献。


# plan1方案的收益率
> plan1r<-ddply(plan1m,.(term,risk),summarise,ret2016=sum(ret2016w),ret2015=sum(ret2015w),ret2014=sum(ret2014w))
> plan1r
  term risk    ret2016    ret2015   ret2014
1    1    1 0.03632506 0.09991751 0.1621068

#计算3年的累积收益率曲线
> plan1r$cumret<-sum(c(plan1r$ret2016,plan1r$ret2015,plan1r$ret2014))
> plan1r
  term risk    ret2016    ret2015   ret2014    cumret
1    1    1 0.03632506 0.09991751 0.1621068 0.2983493

# plan1方案不同资产的收益率贡献
> plan1rm<-ddply(plan1m,.(term,risk,type),summarise,ret2016=sum(ret2016w),ret2015=sum(ret2015w),ret2014=sum(ret2014w))
> plan1rm
  term risk  type     ret2016      ret2015      ret2014
1    1    1 alter 0.009742206 -0.003355705 0.0007954545
2    1    1  cash 0.004740000  0.007200000 0.0090400000
3    1    1 fixed 0.016574914  0.096073214 0.1522713174
4    1    1 stock 0.005267938  0.000000000 0.0000000000

用我计算的结果，分别对比“摩羯智投”中，近1年和近3年的收益率曲线。

近1年对应plan1r$ret2016=0.03632506=3.63%，近3年对应plan1r$cumret=0.2983493=29.83%。我发现计算结果存在差异，从最终结果的数字上来看差异并不大。但对于近3年的收益率曲线的走势来看，差异还是非常明显的。“摩羯智投”给出的近3年收益率曲线是，均匀平稳上升的，而我算出来的，3年数据2014年涨了16%，2015年涨了9%，2016年涨了3%，逐年收益率在递减。所以不应该呈现均匀平稳上升的形状。

究其原因，再来看plan1的组合数据，发现股票基金只有配了一只中欧潜力价值(OF001810)，而这只基金在2015年09月30日才成立，所以并不能构建出该基金在2014，2015的年度收益率组合。以此来判断，这个组合势必存在着中间调仓的过程，而“摩羯智投”的收益率曲线，并没有展示出调仓过程的数据，所以收益率曲线是不透明的，不能够直接做为用户购买决策的依据。

接下来，我们把30种组合的收益率，都计算出来。再与“摩羯智投”给出的收益率进行比较。

上图中，ret列为“摩羯智投”界面上采集的数据；ret2016,ret2015,ret2014分别为我们根据基金的公开市场的数据，计算出来的百分比结果；mean为ret2016,ret2015,ret2014算数平均数。从数据上看，ret列和mean列，有部分值接近。我们再做一次相关性分析。

这样解读结果就容易多了，ret与2016年的收益率是线性相关的，而mean与2014年的收益率是线性相关的，我猜2014底的“股债双牛”使均值发生了偏离。所以，ret和mean没有关系，“摩羯智投”对于收益率的预期，对于近1年的组合收益可能有更大的权重分配。

所以对于“摩羯智投”给出预期收益和净值曲线，我们并不能通过已知的数据计算出来，这些可能就涉及到它背景的算法，我们就无从知晓了。

4. 结论

以上从数据的角度给对“摩羯智投”进行了分析，首先摩羯构建的组合是线性组合，符合风险收益为基础资本资产定价模型(CAPM)。但由于组合数量有限，基金标的有限，算法不够透明、无法利用已知数据重现结果，缺少客户持续跟踪等部分，所以我把“摩羯智投”理解为是基于金融专业性架构，结合快速上线为目标的试水。可以实现对散户的简单、高效的财富管理体验，部分解放理财经理的压力。但对于专业的投资经理来说，这还仅仅是个玩具，还有相当大的提升空间。

本文只是人个出于兴趣，对“摩羯智投”应用的从数据角度的分析，不代表任何公司或其他第三方机构的立场。由于所获得数据有限，以及个人知识能力有限，如有片面的理解，还指大家指正。

转载请注明出处：
http://blog.fens.me/finance-mojie

打赏作者

Posted:

Dec 14, 2016

Tags:

alpha beta CAPM meeting R 投资组合资本资产定价模型马克维茨

Comments:

0 Comments

2016中国软件技术大会:用R语言进行投资组合管理

关于作者

张丹, 程序员R,Nodejs,Java
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/meeting-softcon-20161210

前言

很荣幸能够参加中国软件技术大会，我已经有很久没有参加软件技术的大会了。因为我目前更多精力，放在了金融方面的研究工作，通过R语言来实现我对金融的探索。金融研究很有意思也很令人兴奋，就像当初着迷想着用JAVA改变世界一样。

本次会议包括了5个专场，大数据企业级应用，云计算平台构建与实践，移动互联&应用创新，产品设计思维，IT运维&IT运营专场。嘉宾主要以一线工程师为主，讲的很干，很接地气，让IT人把技术讲给IT人，收货满满。

我非常有幸参加2016中国软件技术大会，作为创新应用专场的分享嘉宾，分享R语言在金融领域中的应用。

我的演讲主题：用R语言进行投资组合管理
会议体验和照片分享

1. 我的演讲主题：用R语言进行投资组合管理

用R语言进行投资组合管理，PPT下载，主要内容来自我的一篇博文：用R语言解读资本资产定价模型。

我本次的分享主要介绍了奠定现代金融学基础的理论资本资产定价模型(CAPM)，与上个月在武汉的人工智能大会是一个题目，人工智能大会的链接。

分享的目录大纲如下：

故事开始
资本市场线
资本资产定价模型
Beta VS Alpha
用R构建投资组合模型
总结

在2次大会中分享了同样的内容，确实不是我的风格。但由于时间太紧，加上最近比较忙，身体略显疲惫，还请同时出席两次会议的听众谅解。（应该没有遇到2场都听了的朋友吧？如果有小窗联系，线下聚聚。）

2. 会议体验和照片分享

本次会议给我感觉，就是“一线”和“干货”。分享嘉宾多是一线工程师，给大家分享踩坑的经历，无比激动人心。我在听朱琳同学讲的时候，深刻能够体会到，她对于编程的热爱，和对踩坑、填坑过程的享受。

中国软件技术大会http://www.softcon.cn/，由中国科学院软件研究所、中科软科技联合主办,北京中科凯亚科技有限公司承办的中国软件技术交流平台,自2003年创办以来，秉承“弘扬个性、促进创新、引爆争鸣、激发活力”的宗旨，大会一直专注于促进和传播企业级软件技术的创新，致力于为软件行业和各行业用户搭建中立的、解析最新企业级软件技术、交流前沿技术和发展趋势、分享最佳实践和应用经验的交流平台。大会以演讲嘉宾技术水平高、技术领域涵盖面广、技术观点领先客观，得到了社会和行业的广泛认可，每年吸引了“1000＋”软件业专业技术精英参会，已成为国内软件技术领域影响巨大的年度盛会。