• Posts tagged "指数"

Blog Archives

2017猎奇金融大数据:用R语言开始量化投资

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹, 程序员R,Nodejs,Java
  • weibo:@Conan_Z
  • blog:http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-cda-20170521

前言

很高兴能够参加由CDA主办的数据分析师线下沙龙的活动,虽然活动规模不大,但是场子很棒,氛围很好。刚好这次沙龙是金融大数据的主题,也是为了给我的新书《R的极客理想-量化投资篇》预热,给大家分享一下R语言在量化投资领域的应用。

本次所分享的内容为我的新书开篇内容,干货多多,错过沙龙的同学,可以在CDA的网站上找到分享的内容。

目录

  1. 我的演讲主题:用R语言开始量化投资
  2. 会议体验和照片分享

1. 我的演讲主题:用R语言开始量化投资

用R语言开始量化投资,PPT下载,主要内容来自我的一篇博文:用R语言开始量化投资

分享主题的目录大纲如下:

  1. 为什么用R语言?
  2. 跨界结合的思维模式
  3. R语言量化工具包
  4. 量化策略实战应用
  5. 有理想的极客

分享结束后,和几个现场的朋友,在聊R语言的大方向,大家都觉得R语言有很大的机会,只是R语言应该如何落地呢?我觉得有很多的点和方向可以做。比如:培训教育,用R来替换SAS,R的企业服务,R的SAAS的个人服务等。

我就在致力于推动R语言在中国金融领域的发展,让R可以给更多的用户使用,培养出更多的数据分析师。也希望让我们中国人的技术能够走出去到世界的舞台。希望多能认识志同道合的朋友,一起做一些事情。

2. 会议体验和照片分享

本次由4个主题组成,主要介绍了金融大数据在国内的应用情况。本次的场地是由科技寺提供的,忍不住还要再说一够场面很棒,如果再能配上咖啡就更好了。

本次猎奇金融大数据专场4位嘉宾:

鲁四海,主题:大数据风控。
中国新一代IT产业推进联盟技术分委会秘书长、首席数据官联盟发起人。主要研究方向为大数据,参与编写了《影响中国大数据产业进程100人》,在中国新IT联盟、北达软讲授大数据技术应用课程。

张丹,主题:如何用R语言开始量化投资。
《R的极客理想》系列图书作者,前况客创始人兼CTO。10年IT编程背景,精通R ,Java, Nodejs 编程,获得10项SUN及IBM技术认证。

于洋,主题:金融大数据运营增长创新案例。
TalkingData增长部门总监,曾加入金山从事游戏数据分析及运营,2012年加入TalkingData,历任游戏业务咨询总监,金融业务咨询总监,现从事在零售,金融,航旅等方向的数据营销,运营及增长创新业务。

李金霞,主题:实战案例:数据驱动下的互联网营销。
神策数据数据分析师,曾就职于民生银行、百度人才、飞信,负责数据处理相关工作。2016年加入神策数据,主导客户包括纷享销客、网易七鱼、ofo、拉钩云人事、多盟等。

嘉宾在分享的照片。

曹鑫,主持人。

张丹,《R的极客理想》系列图书作者

鲁四海,

于洋,

李金霞,美女分析师

2.2 会议相关照片

本次分享的场地,很有特色,宽敞、明亮、很有创意、很舒服,像是咖啡厅,开放式的办公环境,很棒!

很意外地获得了一个CDA给的奖杯,收藏一下。

沙龙很成功,感谢工作人员的辛苦劳动组织。在北京以数据为主题的沙龙,并不是太多,祝CDA的活动能一直坚持品质,越办越好!

转载请注明出处:
http://blog.fens.me/meeting-cda-20170521

打赏作者

用R语言开始量化投资

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。

要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。

关于作者:

  • 张丹(Conan), 程序员Java,R,PHP,Javascript
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/r-quant-start/

前言

做数据分析的朋友,一定知道R语言。R语言是一门统计语言,在数据分析领域优势是非常明显的。金融本身是玩数据行业,R的最大的优势就是数据分析,所以把R语言与金融结合,用R来做量化投资的策略,真的很配,不仅顺手而且方便,用了你就会知道。

本文以“用R语言开始量化投资”做为新书《R的极客理想-量化投资篇》的开篇,主要强调了R语言在量化投资领域有着广阔的应用场景,而且是重要的量化投资工具。

公开课:Hellobi Live | 5月23日如何用R语言开始量化投资

目录

  1. 为什么用R语言?
  2. 跨界结合的思维模式
  3. R语言量化工具包
  4. 量化策略实战应用
  5. 有理想的极客

1. 为什么用R语言?

R语言是一门面向数据的编程语言,早期只是在统计领域,被统计学家所使用。

近年来随着大数据技术的发展,以及R语言自身生态的快速壮大,R语言已经不仅在统计领域,在各大行业领域中都能看到R语言的身影,包括了互联网,数据科学,人工智能,机器学习,生物医疗,游戏,电子商务,全球地理科学,数据可视化等等。

下图是R语言的任务列表,这些任务都是面向具体业务的。截图不全,请大家去R官方网站,查看完整的任务列表。

从R语言的任务列表,我们就能明显看出,R语言和其他编程语言的区别。R语言第三方包所提供的支持,都是对于各种行业的数据操作和算法的支持,而不仅仅纯IT系统开发功能的支持。

R语言不仅能把数据分析做好,而且能够让我们能够有更多地思考,通过数据连接到我们每个人的日常生活。比如,我们去超市购物,你购买的东西会记录在你的购物小票中,如果把这些购物小票都收集起来,通过Apriori关联规则的频繁项集算法,就可以分析出自己的购物习惯。

我们每天都会收到各种推销的骚扰电话,有时候是卖房的,有时候是银行贷款,有时候是股票推荐,有时候是代开发票,有的是猜猜我是谁,处处都体现了中国的国情。那么我们可以收集自己通话记录,通过电话号码、号码注册位置、通话时长来分析一下,哪些是有用通话,哪些是浪费时间的通话,从而计算出我们每一天会浪费多少时间,通过Bayes算法来把有效通话和无效通话进行二元分类,从而阻止骚扰电话的入侵。

如果我们不仅能够收集自己的通话记录,把亲戚朋友的或更多人的通话记录都收集起来,组建一个数据库。再把统计出来的骚扰电话统一标记,做成黑名单,然后把黑名单公开出来,就可以让更多的人面受骚扰电话的影响。

人们的衣食住行都会产生数据,产生数据的地方,就需要做数据分析。通过数据分析,提高生活的效率,为我们节约宝贵的个人时间。

在人类社会中,除了衣食住行的基本需求外,更多的是对钱的需求。我们每天都会跟钱打交道,会有消费的需求,月底会有工资收入,当收入大于消费,资金积累到一定阶段的时候,我们就会有投资的需求。中国人的投资一般就几种,买房,买黄金,买股票,买保险,买理财。投资时,大部分人是不理性的,心血来潮就买了,也不仔细观察行情,买完就被套住,像 “中国大妈抢购黄金”,“中国大妈是救市的主力军” 都一度被新闻媒体热炒。

在金融市场中最不缺的就是机会,不管投资什么,如果能在交易的时候能多思考一下,说不定结果就会不样。运用我们数据分析的知识,和对于金融市场规则的理解,通过R语言进行数据分析,抓住机会,让我们把辛辛苦苦赚到的钱保值和增值。

2. 跨界结合的思维模式

R语言与其他编程语言最大不同在于,R语言是面向数据的,这一点很重要,甚至影响了思维模式。

我写了10多年的JAVA程序,程序员思路在我的脑子里根深地固。我习惯用于面向对象思想来建模,把世界中的物体、行为、连接都用面向对象的方法来表达。我也习惯了IT项目,从架构设计到开发的自上而下的设计思路,或完全由需求驱动的敏捷开发,为业务随需而变的的开发路径。作为程序员,我有理想,我自认为技术能改变世界。这一切都是程序化思维在影响着我。如果你还不熟悉啥是面向对象,请参考《R的极客理想-高级开发篇》第四章面向对象编程。

后来,当我接触了R语言,通过另一扇门理解世界的时候,我发现世界是不一样的。在没有程序的世界里,你可以通过文字来表达你的做事的方法,你可以感性地认识世界,你也可以让数据来说出这个世界意义。你可以天天看新闻联播,了解国家大事;也可以看微博、朋友圈的爆料,及时了解身边的消息。这并不是程序员的思维,而大众化的社会。这个社会里,程序员只是小众。

改变世界的方法,除了技术还有别的,比如,政策、资本、市场、法律、人事等,从公司运作的层面看,似乎哪个都比技术更重要。也许程序员更不关心这些,但面对市场时,再牛技术也会被其他因素所制约。

我经历过创业,一个很深刻的教训就是,要让自己跳出原有的思维定式,通过多维的视角看世界、看自己。通过R语言,帮我打开了通过数据看世界的窗口。我的能力提升不再是,如何把程序把写得多得漂亮,在时间复杂度上用O(log(N))解决O(N^2)的问题,而变成了怎么收集数据,怎么提高数据质量,用于解决实际的业务问题。当然,作为程序员的职业强迫性,我也会要求自己熬夜一晚上把50行代码优化成40行。

问题被转化了,术业要有专攻,但作为一个有理想的极客,全面掌握跨领域的知识才是我们的目标。我创业时,经常被投资人问到,做量化投资的项目有多难?招几个金融背景的,再招几个IT背景的,捣鼓个项目,很快就做出来了。其实不然,不同背景的人是很难交流和沟通,尤其是金融和IT,一种是封闭不愿意分享,一种是开放毫无保留;一种是先把话说出来,一种是先把事情做起来;一种是所有人都要为我服务,一种是只专注于自己的兴趣。所以,如果没有能够跨界通吃的人,是做不好量化的项目的。

我们就要立志做个跨着学科的人,这才是最核心的点,是不可被替代的。从IT技术出发,你需要扎实的编程功底架构思想,科学的项目管理方法,严谨的产品设计逻辑;你还需要统计、数学等基础学科的知识,数据挖掘与机器学习的数据处理经验;最重要的,你要能结合业务,不管是量化投资或其他的领域,理解市场的规则。

听起来很难,而且是真的很难!虽然很难,但不光是对你,对所有人都是这么难。但是只要能坚持的走下来,一定能通过知识改变命运的。

3. R语言量化工具包

做量化投资,R语言的优势在哪?R语言可以帮助我们从多种维度去理解量化投资。

  • R语言本身就是我们需要掌握的IT的技术,是一个需要编程的技术活,但极大的降低了对编程的要求,短短20-30行R语言代码,已经能干很多事情了。
  • R语言是面向数据的,有方便数据处理操作,对于数学、统计等基础学科有丰富的函数支持,同时提供多种数据挖掘和机器学习的算法库,让我们可以直接使用。
  • 在量化领域更是R语言的强项,有针对投资研究的包,有做回测分析的包,有做金融产品定价的包,有做投资组合优化的包,还有风险管理的包,涵盖了量化投资的方方面面,只是有些包的使用要针对中国市场特点进行改进和优化。

R语言为量化投资提供了丰富的工具包,我做了分类列在下面。再也没有哪种语言会做到这种的支持了。R包,投资研究包,回测分析包,金融产品定价包,投资组合优化包,风险管理包,涵盖了量化投资的方方面面。

完整的量化投资工具包,请参考文章R语言量化投资常用包总结。在《R的极客理想》系列图书的3本书中,分别对于这些包做了介绍。请大家对照包名,进行查看和使用。

4. 量化策略实战应用

利用R语言的便利性,我们可以很容易的通过上面介绍的这些工具包,做一个交易模型。构建一个简单的投资策略,甚至都不需要有太多的代码。

接下来,我就举例说明一下,怎么把R语言提供的程序包合在一起使用。按照下面的步骤做一个简单的交易策略,基于移动平均线MACD,针对全球指数的投资方案。如果你还是金融新手,不了解MACD策略,那么请请参考《R的极客理想-高级开发篇》书中,2.3节二条均线打天下。

本文所使用的系统环境

  • Win10 64bit
  • R: 3.2.3 x86_64-w64-mingw32/x64 b4bit

下面是一个简化的量化策略的研究过程,分为如下的6步进行。

  1. 用quantmod包下载数据。
  2. 用zoo包和xts包进行数据格式标准化。
  3. 用TTR包进行模型计算。
  4. 用PerformanceAnalytics包进行指标风险。
  5. 用ggplot2包进行可视化输出。
  6. 最后,进行结果分析。

首先,我们要获取数据,个人玩可以通过互联网免费下载数据,专业机构通常都是买专业数据库。这里我们通过quantmod包,从Yahoo财经下载数据的。

我选择了全球的5个市场的指数进行比较,代码和名称对应关系。

指数名称指数代码(Yahoo财经代码)简称
标普500^GSPCGSPC
日经225^N225N225
恒生指数^HSIHSI
富时新加坡STI^STISTI
上证综指000001.SSSSE

下面通过R语言代码,我们来完成这个交易策略模型的构建。当然,这里只是为了说明整个过程,给大家一个直观的感觉,这里会省略对于策略的细节处理。


# 加载程序库
> library(quantmod)
> library(TTR)
> library(PerformanceAnalytics)
> library(ggplot2)
> library(scales)

# 从Yahoo财经下载各全球指数数据
> options(stringsAsFactors = FALSE) 
> symbols<-c("^GSPC","^N225","^HSI","^STI","000001.SS")
> suppressWarnings(getSymbols(symbols,src = "yahoo",from="2012-01-01"))
[1] "GSPC"      "N225"      "HSI"       "STI"       "000001.SS"

# 取指数价格调整后的数据,合并数据集
> df<-merge(GSPC$GSPC.Adjusted,HSI$HSI.Adjusted,N225$N225.Adjusted,STI$STI.Adjusted,`000001.SS`$`000001.SS.Adjusted`)

# 对列重命名
> names(df)<-c("GSPC","HSI","N225","STI","SSE")

接下来,让我看数据是什么样子的,并画出全球指数。


# 查看数据前6行
> head(df)
              GSPC      HSI    N225     STI     SSE
2012-01-03 1277.06 18877.41      NA 2688.36      NA
2012-01-04 1277.30 18727.31 8560.11 2711.02 2169.39
2012-01-05 1281.06 18813.41 8488.71 2713.02 2148.45
2012-01-06 1277.81 18593.06 8390.35 2715.59 2163.40
2012-01-09 1280.70 18865.72      NA 2691.28 2225.89
2012-01-10 1292.08 19004.28 8422.26 2719.83 2285.74

# 查看数据最后6行
> tail(df)
              GSPC      HSI     N225     STI     SSE
2017-02-24 2367.34 23965.70 19283.54 3117.03 3253.43
2017-02-27 2369.73 23925.05 19107.47 3108.62 3228.66
2017-02-28 2363.64 23740.73 19118.99 3096.61 3241.73
2017-03-01 2395.96 23776.49 19393.54 3122.77 3246.93
2017-03-02 2381.92 23728.07 19564.80 3136.48 3230.03
2017-03-03 2383.12 23552.72 19469.17 3122.34 3218.31

# 查看数据类型,为xts
> class(df)
[1] "xts" "zoo"

整个数据集是从2012年01月03日到2017年03月03日之间数据,数据为xts类型,xts类型是R语言中专用的时间序列类型。 关于xts的详细介绍,可以参考《R的极客理想-工具篇》书中,2.2节可扩展的时间序列xts。

画出全球指数,曲线图。

由于各国指数成立时间不同,成份股也不同,所以指数值有的很大有的相对比较小,我们不能用指数大小来判断好坏。 通常情况下,我们会转换成收益率进行比较,通过收益率进行度量后,这样所有的标的都是在同一个维度了。

画出全球指数的每日累计收益率,曲线图。

收益率越高,说明指数在这期间是表现越多的,我们越应该去投资。上图中日经225(N225)指数大幅超越了其他指数,中国的上证综指(SSE)一起一落波动非常大,标普500(GSPC)走势稳健。

计算指数的平均年化收益率,如果我们把钱一直投资在这些看指数上面,那么我们每年的平均回报是多少呢?


> Return.annualized(ret_df)
                       GSPC       HSI      N225        STI        SSE
Annualized Return 0.1133813 0.0619811 0.1927681 0.03696703 0.04817027

这里日经指数(N225)年化回报率是最高的,有每年平均有19.28%的年化收益率,与图1-3的累计收益率走势相符。 而中国的上证综指(SSE)仅有4.82%的年化收益率,回报不算高,但波动太大了。 综合来看,标普500(GSPC)其实是投资的首选,11.34%年化收益率,平均波动率也不是太高,所以风险和收益都是相对不错的。

接下来,我们构建一个简单的MACD模型,通过MACD策略再对上面5个指数构建交易策略。


> # MACD 策略模型
> MACD<-function(dt,n=30){ #代码省略
> }

# MACD策略,年化收益率
> lapply(df, function(col) MACD(col,30))
           GSPC       HSI      N225        STI       SSE
close 0.2137435 0.2406476 0.2261996 0.01869112 0.2817241

我们写了一个MACD的策略函数,就相当于是建模的过程,函数的输出为策略的收益率。 然后,我们把指数数据传给MACD()函数,经过计算输出策略收益率。 最后,把策略收益率与纯指数率,放到一起来进行对比。

策略GSPCHSIN225STISSE
指数收益0.11338130.06198110.19276810.036967030.04817027
策略收益0.21374350.24064760.22619960.018691120.2817241

我们可以很明显的看出,用一根均线的MACD策略,平均年收益率会大幅优于纯指数的收益率,如果我们这样交易就可以赚到更多的钱。 其实,这就是量化投资的思想,从数据中发现规律。 可能上面的过程和代码,会让你觉得很迷惑,怎么就能赚到钱了?别着急,本节只是本书的开篇,等你仔细阅读了全书,你就能领悟到这里的玄机了。

一共40行左右代码,完成了很多的事情。 如果要把整个操作都细分列举出来,包括了数据采集,数据清洗,数据标准化,指标计算,数据建模,历史回测,投资组合构建,组合优化,计算结果评价,数据可视化等组成部分。

要搭建一套量化交易的系统,主要就是完成这些部分。对于个人玩家来说,按照上面R语言代码的思路,就已经可以实现了。 如果你想做的更好,不仅是个人玩,通过成立公司把系统做大做强,为更多的用户提供量化服务,那么你还需要有一整套的平台架构方案,同时配合你要做的金融业务。

5. 有理想的极客

本文是新书《R的极客理想-量化投资篇》的开篇内容,希望大家跟着我的思路,通过R语言入手,体会R语言建模的乐趣,并真正地把技术变现。 我认为R语言是非常好的一门语言,从量化投资的角度,我会一直推动R语言在中国的发展,当成一项事业来做。 同时,本书也会译成英文版在全球发行,让中国的技术走出去。加油!!

R语言只是一门计算机语言技术,不能独自承担改写历史的重任,但R语言确实给了我们很大的想像空间,让我们能动手去了解这个世界的规律,找到无穷无尽的交叉点,创造出新的帝国。

如果你和我一样,都能站在这个角度来学习和使用R语言,那么我们一定可以成为并肩向前的同路人。

转载请注明出处:
http://blog.fens.me/r-quant-start/

打赏作者

股指是什么?

用IT技术玩金融系列文章,将介绍如何使用IT技术,处理金融大数据。在互联网混迹多年,已经熟练掌握一些IT技术。单纯地在互联网做开发,总觉得使劲的方式不对。要想靠技术养活自己,就要把技术变现。通过“跨界”可以寻找新的机会,创造技术的壁垒。

金融是离钱最近的市场,也是变现的好渠道!今天就开始踏上“用IT技术玩金融”之旅!

关于作者:

  • 张丹(Conan), 程序员Java,R,PHP,Javascript
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/finance-index/

finance-index

前言

对于刚进股市的新手,一般都是比较盲目的选股。而中国大妈型的股民,一般都是听电视的财经节目,推荐的股票来选股的。不清楚基本面,是最容易被套死股市里的。

如果能简单地了解一下股指,从“沪深300”中选股,也许能够稍微弥补一下对基本面的知识的不足。

注:本人金融入门级,如果文章描述不对或者不准确的地方,还请专家指点。

目录

  1. 股指是什么?
  2. 中国证券市场的股指
  3. 沪深300指数
  4. 沪深300指数统计分析

1. 股指是什么?

股指是股票价格指数简称,股票价格指数即股票指数。是由证券交易所或金融服务机构编制的表明股票行市变动的一种供参考的指示数字。由于股票价格起伏无常,投资者必然面临市场价格风险。对于具体某一种股票的价格变化,投资者容易了解,而对于多种股票的价格变化,要逐一了解,既不容易,也不胜其烦。为了适应这种情况和需要,一些金融服务机构就利用自己的业务知识和熟悉市场的优势,编制出股票价格指数,公开发布,作为市场价格变动的指标。投资者据此就可以检验自己投资的效果,并用以预测股票市场的动向。

计算股票指数,要考虑三个因素:

  • 抽样,即在众多股票中抽取少数具有代表性的成份股
  • 加权,按单价或总值加权平均,或不加权平均
  • 计算程序,计算算术平均数、几何平均数,或兼顾价格与总值

股价平均数的计算

1). 简单算术股价平均数

简单算术股价平均数是将样本股票每日收盘价之和除以样本数得出的,即:
简单算术股价平均数=(P1+P2+P3+…+ Pn)/n

世界上第一个股票价格平均──道·琼斯股价平均数在1928年10月1日前就是使用简单算术平均法计算的。

现假设从某一股市采样的股票为A、B、C、D四种,在某一交易日的收盘价分别为10元、16元、24元和30元,计算该市场股价平均数。将上述数置入公式中,即得:
股价平均数=(P1+P2+P3+P4)/n=(10+16+24+30)/4=20(元)

有两个缺点:

  • 未考虑各种样本股票的权数,从而不能区分重要性不同的样本股票对股价平均数的不同影响
  • 当样本股票发生股票分割派发红股、增资等情况时,股价平均数会产生断层而失去连续性,使时间序列前后的比较发生困难。例如,上述D股票发生以1股分割为3股时,股价势必从30元下调为10元, 这时平均数就不是按上面计算得出的20元,而是(10+16+24+10)/4=15(元)。这就是说,由于D股分割技术上的变化,导致股价平均数从20元下跌为15元(这还未考虑其他影响股价变动的因素),显然不符合平均数作为反映股价变动指标的要求。

2). 修正的股份平均数
修正的股价平均数有两种:

  • 除数修正法,又称道式修正法。这是美国道·琼斯在1928年创造的一种计算股价平均数的方法。该法的核心是求出一个常数除数,以修正因股票分割、增资、发放红股等因素造成股价平均数的变化,以保持股份平均数的连续性和可比性。具体作法是以新股价总额除以旧股价平均数,求出新的除数,再以计算期的股价总额除以新除数,这就得出修正的股价平均数。即:
    新除数=变动后的新股价总额/旧的股价平均数
    修正的股价平均数=报告期股价总额/新除数

    在前面的例子除数是4,经调整后的新的除数应是:
    新的除数=(10+16+24+10)/20=3,将新的除数代入下列式中,则:
    修正的股价平均数=(10+16+24+10)/3=20(元)

    得出的平均数与未分割时计算的一样,股价水平也不会因股票分割而变动。

  • 股价修正法。股价修正法就是将股票分割等,变动后的股价还原为变动前的股价,使股价平均数不会因此变动。美国《纽约时报》编制的500种股价平均数就采用股价修正法来计算股价平均数

3). 加权股价平均数
加权股价平均数是根据各种样本股票的相对重要性进行加权平均计算的股价平均数,其权数(Q) 可以是成交股数、股票总市值、股票发行量等。

股票指数

1). 道·琼斯股票指数

道·琼斯股票指数是世界上历史最为悠久的股票指数,它的全称为股票价格平均数。它是在1884年由道·琼斯公司的创始人查理斯·道开始编制的。其最初的道·琼斯股票价格平均指数是根据11种具有代表性的铁路公司的股票,采用算术平均法进行计算编制而成,发表在查理斯·道自己编辑出版的《每日通讯》上。

其计算公式为:
股票价格平均数=入选股票的价格之和/入选股票的数量。

自1897年起,道·琼斯股票价格平均指数开始分成工业与运输业两大类,其中工业股票价格平均指数包括12种股票,运输业平均指数则包括20种股票,并且开始在道·琼斯公司出版的《华尔街日报》上公布。在1929年,道·琼斯股票价格平均指数又增加了公用事业类股票,使其所包含的股票达到65种,并一直延续至今。

道·琼斯股票价格平均指数是以1928年10月1日为基期,因为这一天收盘时的道·琼斯股票价格平均数恰好约为100美元,所以就将其定为基准日。而以后股票价格同基期相比计算出的百分数,就成为各期的投票价格指数,所以股票指数普遍用点来做单位,而股票指数每一点的涨跌就是相对于基准日的涨跌百分数。

2). 标准·普尔股票价格指数

除了道·琼斯股票价格指数外,标准·普尔股票价格指数在美国也很有影响,它是美国最大的证券研究机构即标准·普尔公司编制的股票价格指数。该公司于1923年开始编制发表股票价格指数。最初采选了230种股票,编制两种股票价格指数。到1957年,这一股票价格指数的范围扩大到500种股票,分成95种组合。其中最重要的四种组合是工业股票组、铁路股票组、公用事业股票组和500种股票混合组。从1976年7月1日开始,改为 400种工业股票,20种运输业股票,40种公用事业股票和40种金融业股票。几十年来,虽然有股票更迭,但始终保持为500种。标准·普尔公司股票价格指数以1941年至1943年抽样股票的平均市价为基期,以上市股票数为权数,按基期进行加权计算,其基点数为10。以股票市场价格乘以股票市场上发行的股票数量为分子,用基期的股票市场价格乘以基期股票数为分母,相除之数再乘以10就是股票价格指数。

3). 纽约证券交易所股票价格指数

纽约证券交易所股票价格指数。这是由纽约证券交易所编制的股票价格指数。它起自1966年6月,先是普通股股票价格指数,后来改为混合指数,包括着在纽约证券交易所上市的1500家公司的1570种股票。具体计算方法是将这些股票按价格高低分开排列,分别计算工业股票、金融业股票、公用事业股票、运输业股票的价格指数,最大和最广泛的是工业股票价格指数,由1093种股票组成;金融业股票价格指数包括投资公司、储蓄贷款协会、分期付款融资公司、商业银行、保险公司和不动产公司的223种股票;运输业股票价格指数包括铁路、航空、轮船、汽车等公司的65种股票;公用事业股票价格指数则有电话电报公司、煤气公司、电力公司和邮电公司的189种股票。

纽约股票价格指数是以1965年12月31日确定的50点为基数,采用的是综合指数形式。纽约证券交易所每半个小时公布一次指数的变动情况。虽然纽约证券交易所编制股票价格指数的时间不长,因它可以全面及时地反映其股票市场活动的综合状况,较为受投资者欢迎。

4). 日经道·琼斯股价指数(日经平均股价)

系由日本经济新闻社编制并公布的反映日本股票市场价格变动的股票价格平均数。该指数从1950年9月开始编制。

日经道·琼斯股价指数指数分为:

  • 日经225股指指数(日经225)。因此种指数延续时间较长,具有很好的可比性,成为考察日本股票市场股价长期演变及最新变动最常用和最可靠的指标,传媒日常引用的日经指数就是指这个指数。
  • 日经300股指指数(日经300)此指数是以发行量加重平均方式来计算
  • 日经综合股指指数(日经综合)此指数是以发行量加重平均方式来计算
  • 日经店头平均股票价格指数。

5). 香港恒生指数

香港恒生指数是香港股票市场上历史最久、影响最大的股票价格指数,由香港恒生银行于1969年11月24日开始发表。

这些股票占香港股票市值的63.8%,因该股票指数涉及到香港的各个行业,具有较强的代表性。

恒生股票价格指数的编制是以1964年7月31日为基期,因为这一天香港股市运行正常,成交值均匀,可反映整个香港股市的基本情况,基点确定为100点。其计算方法是将33种股票按每天的收盘价乘以各自的发行股数为计算日的市值,再与基期的市值相比较,乘以100就得出当天的股票价格指数。

由于恒生股票价格指数所选择的基期适当,因此,不论股票市场狂升或猛跌,还是处于正常交易水平,恒生股票价格指数基本上能反映整个股市的活动情况。

6). 我国内地的股票指数

上证股票指数系由上海证券交易所编制的股票指数,1990年12月19日正式开始发布。该股票指数的样本为所有在上海证券交易所挂牌上市的股票,其中新上市的股票在挂牌的第二天纳入股票指数的计算范围。

该股票指数的权数为上市公司的总股本。由于我国上市公司的股票有流通股和非流通股之分,其流通量与总股本并不一致,所以总股本较大的股票对股票指数的影响就较大,上证指数常常就成为机构大户造市的工具,使股票指数的走势与大部分股票的涨跌相背离。

深圳综合股票指数系由深圳证券交易所编制的股票指数,1991年4月3日为基期。该股票指数的计算方法基本与上证指数相同,其样本为所有在深圳证券交易所挂牌上市的股票,权数为股票的总股本。由于以所有挂牌的上市公司为样本,其代表性非常广泛,且它与深圳股市的行情同步发布,它是股民和证券从业人员研判深圳股市股票价格变化趋势必不可少的参考依据。在前些年,由于深圳证交所的股票交投不如上海证交所那么活跃,深圳证券交易所现已改变了股票指数的编制方法,采用成分股指数,其中只有40只股票入选并于1995年5月开始发布。

文字介绍,摘自:http://baike.baidu.com/view/897308.htm

2. 中国证券市场的股指

  • 上证180指数
  • 上证综指
  • 上证A股
  • 上证B股
  • 上证ADL指标
  • 上证多空指标
  • 上证50指数
  • 上证基金指数
  • 上证红利指数
  • 深证100指数
  • 深证成份
  • 深证综指
  • 深证A股
  • 深证B股
  • 深证ADL指标
  • 深证多空指标
  • 创业板指数
  • 中小企业指数
  • 沪深300指数

上证180指数

index-sh-180

  • 指数代码:000010
  • 指数名称:上证成份指数(简称上证180指数)
  • 指数类别:股票类
  • 创建人 :上海证券交易所
  • 指数基期:2002-06-28
  • 指数基点:3299.0600
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:上证成份指数(简称上证180指数)是上海证券交易所对原上证30指数进行了调整并更名而成的,其样本股是在所有A股股票中抽取最具市场代表性的180种样本股票,自2002年7月1日起正式发布.作为上证指数系列核心的上证180指数的编制方案,目的在于建立一个反映上海证券市场的概貌和运行状况,具有可操作性和投资性,能够作为投资评价尺度及金融衍生产品基础的基准指数.
  • 成份股的选择:在确定样本空间的基础上,上证180指数根据以下四个步骤进行选样. 据总市值,流通市值,成交金额和换手率对股票进行综合排名.具体方法是:第i行业样本配额=第i行业所有候选股票流通市值之和/上海市场所以候选股票流通市值之和*180
  • 指数计算:报告期指数=报告期成份股的调整市值/基日成份股的调整市值*1000

上证综指

index-sh

上证综指即“上证综合指数”-(上海证券综合指数),英文是:Shanghai(securities)composite index. 通常简称:“Shanghai composite index”(上证综指) 。“上海证券综合指数”它是上海证券交易所编制的,以上海证券交易所挂牌上市的全部股票为计算范围,以发行量为权数综合。上证综指反映了上海证券交易市场的总体走势。指数代码:999999。

上证综合指数是最早发布的指数,是以上证所挂牌上市的全部股票为计算范围,以发行量为权数的加权综合股价指数。这一指数自1991年7月15日起开始实时发布,基日定为1990年12月19日,基日指数定为100点。

新上证综指发布以2005年12月30日为基日,以当日所有样本股票的市价总值为基期,基点为1000点。新上证综指简称“新综指”,指数代码为000017。

文字介绍,摘自:http://baike.baidu.com/view/1283709.htm

上证A股

index-sh-a

  • 指数代码:000002
  • 指数名称:上证A股指数
  • 指数类别:股票类
  • 创建人 :上海证券交易所
  • 指数基期:1990-12-19
  • 指数基点:100
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:上证A股指数的样本股是全部上市A股,反映了A股的股价整体变动状况,自1992年2月21日起正式发布.
  • 成份股的选择:上证A股指数的样本股是全部上市A股股票
  • 指数计算:报告期指数=报告期成份股的总市值 / 基期 * 基期指数

上证B股

index-sh-b

  • 指数代码:000003
  • 指数名称:上证B股指数
  • 指数类别:股票类
  • 创建人 :上海证券交易所
  • 指数基期:1990-12-19
  • 指数基点:100
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:上证B股指数的样本股是全部上市B股,反映了B股的股价整体变动状况,自1992年2月21日起正式发布.
  • 成份股的选择:上证B股指数的样本股是全部上市B股
  • 指数计算:报告期指数 =报告期成份股的总市值 / 基 期 * 基期指数

上证ADL指标

2013年12月31日截图
index-sh-adl

上证ADL指标是指上海证券交易所的股票腾落指数。ADL(Advance Decline Line)中文名称为腾落指数,其实就是上升下降曲线的意思。ADL是分析趋势的。以股票市场为例,ADL利用简单的加减法,计算每天股票上涨公司数量和下降公司数量的累计结果,与综合指数相对比,对大势的未来进行预测。

ADL的计算公式为:
今日ADL=昨日ADL+Na-Nd
推出:今日ADL=∑Na-∑Nd。

  • ∑Na—从开始交易的第一天算起,每一个交易日的上涨家数的总和。
  • ∑Nd—从开始交易的第一天算起,每一个交易日的下跌家数的总和。

腾落指数与股价指数比较类似,两者均为反映大势的动向与趋势,不对个股的涨跌提供讯号,但由于股价指数在一定情况下受制于权值大的股只,当这些股只发生暴涨与暴跌时,股价指数有可能反应过度,从而给投资者提供不实的信息,腾落指数则可以弥补这一类一缺点。由于腾落指数与股价指数的关系比较密切,观图时应将两者联系起来。一般情况下,股价指数上和或,腾落指数亦上升,或两者皆跌,则可以对升势或跌势进行确认。如若股价指数大动而腾落指数横行,或两者反方面波动,不可互相印证,说明大势不稳,不可贸然入市。

具体来说有以下六种情况:

  • 股价指数持续上涨,腾落指数亦上升,股价可能仍将继续上升。
  • 股价指数持续下跌,腾落指数亦下降,股价可能仍将继续下跌。
  • 股价指数上涨,而腾落指数下降,股价可能回跌。
  • 股价指数下跌,而腾落指数上升,股价可能回升。
  • 股市处于多头市场时,腾落指数呈上升趋势,其间如果突然出现急速下跌现象,接着又立即扭头向上,创下新高点,则表示引情可能再创新高。
  • 股市处于空头市场时,ADL呈现下降趋势,其间如果突然出现上升现象,接着又回头,下跌突破原先所创低点,则表示另一段新的下跌趋势产生

文字介绍,摘自:http://baike.baidu.com/view/8321995.htm

上证多空指标

2013年12月31日截图
index-sh-bbi

多空指标英文全名为“BullAndBearIndex”,简称BBI,是一种将不同日数移动平均线加权平均之后的综合指标,属于均线型指标。

在使用移动平均线时,投资者往往对参数值选择有不同的偏好,而多空指标恰好解决了中短期移动平均线的期间长短合理性问题

在钱龙分析系统中,多空指标的原始参数值是3、6、12、24,将3日、6日、12日、24日四个平均股价(或指数)相加后除以4得出多空指标的数值,

计算公式:
BBI=(3日MA+6日MA+12日MA+24日MA)/4

文字介绍,摘自:http://baike.baidu.com/view/658748.htm

上证50指数

index-sh-50

  • 指数代码:000016
  • 指数名称:上证50指数
  • 指数类别:股票类
  • 创建人 :上海证券交易所
  • 指数基期:2003-12-31
  • 指数基点:1000
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:上证50指数是根据科学客观的方法,挑选上海证券市场规模大,流动性好的最具代表性的50只股票组成样本股,以便综合反映上海证券市场最具市场影响力的一批龙头企业的整体状况.
  • 成份股的选择:根据流通市值,成交金额对股票进行综合排名,原则上挑选排名前50位的股票组成样本,但市场表现异常并经专家委员会认定不宜作为样本的股票除外
  • 指数计算:报告期指数 =报告期成份股的调整市值 / 基 期 * 基期指数

上证基金指数

index-sh-fund

  • 指数代码:000011
  • 指数名称:上证基金指数
  • 指数类别:基金类
  • 创建人 :上海证券交易所
  • 指数基期:2000-05-08
  • 指数基点:1000
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:基金指数的成份股是所有在上海证券交易所上市的证券投资基金,反映了基金的价格整体变动状况.
  • 指数计算:报告期指数 = 报告期基金的总市值 / 基 期 * 基期指数

上证红利指数

index-sh-dvi

  • 指数代码:000015
  • 指数名称:上证红利指数
  • 指数类别:股票类
  • 创建人 :上海证券交易所
  • 指数基期:2004-12-31
  • 指数基点:1000
  • 计算价格:收盘价
  • 加权方式:派许加权方法
  • 指数简介:上证红利指数挑选在上证所上市的现金股息率高,分红比较稳定,具有一定规模及流动性的50只股票作为样本,以反映上海证券市场高红利股票的整体状况和走势.
  • 成份股的选择:对样本空间的股票,按照过去两年的平均现金股息率(税后)进行排名,挑选排名最前的50只股票组成样本股,但市场表现异常并经专家委员会认定不宜作为样本的股票除外
  • 指数计算:报告期指数 =报告期成份股的调整市值 / 基 期 * 基期指数

深证100指数

index-sz-100

  • 指数代码:399004
  • 指数名称:深证100全收益指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:2002-12-31
  • 指数基点:1000
  • 计算价格:收盘价
  • 指数简介:深证100指数由深圳市场选取100只A股作为样本编制而成,为深市多层次市场指数体系的核心指数之一,包括全收益指数(深证100R)和价格指数(深证100P).
  • 成份股的选择:计算入围个股在考察期(6 个月)的平均流通市值及平均成交金额所占市场比重,将上述指标按2:1 权重加权计算,再将结果从高到低排序,选取排名前100 名股票构成指数成份股

深证成份指数

index-sz

深证成份股指数,是深圳证券交易所编制的一种成份股指数,是从上市的所有股票中抽取具有市场代表性的40家上市公司的股票作为计算对象,并以流通股为权数计算得出的加权股价指数,综合反映深交所上市A、B股的股价走势。

深圳成份股指数(399001)的内容与发布编码。深圳交易所从于1995年1月23日正式发布,1995年5月5日正式启用。以新证券挂牌方式从行情中实时发布成份股指数,成份股指数(不含分类指数)发布名称、编码见下表:

文字介绍,摘自:http://baike.baidu.com/view/658748.htm

深证综指

index-sz

深证综合指数是深圳证券交易所编制的,以深圳证券交易所挂牌上市的全部股票为计算范围,以发行量为权数的加权综合股价指数。

深证综合指数是深圳证券交易所从1991年4月3日开始编制并公开发表的一种股价指数,该指数规定1991年4月3日为基期,基期指数为100点。综合指数以所有在深圳证交所上市的所有股票为计算范围,以发行量为权数的加权综合股价指数,其基本计算公式为:即日综合指数=(即日指数股总市值/基日指数股总市值×基日指数),每当发行新股上市时,从第二天纳入成份股计算,这时上式中的分母下式调整。

新股上市后,计算公式:
基日指数总市值=原来的基日指数股总市值+新股发行数量×上市第十个交易日收盘价

文字介绍,摘自:http://baike.baidu.com/view/21880.htm

深证A股

index-sz-a

  • 指数代码:399107
  • 指数名称:深证A股指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:1991-04-03
  • 指数基点:100
  • 成份股的选择:在深圳证券交易所主板、中小板、创业板上市的全部A股/li>
  • 指数计算:实时指数=上一交易日收市指数×[Σ(样本股实时成交价×样本股总股本)] / [Σ(样本股上一交易日收市价×样本股总股本)]

深证B股

index-sz-b

  • 指数代码:399108
  • 指数名称:深证B股指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:1992-02-28
  • 指数基点:100
  • 成份股的选择:在深圳证券交易所上市的全部B股/li>
  • 指数计算:实时指数=上一交易日收市指数×[Σ(样本股实时成交价×样本股总股本)] / [Σ(样本股上一交易日收市价×样本股总股本)]

深证ADL指标

2013年12月31日截图
index-sz-adl

同上证ADL指标。

深证多空指标

2013年12月31日截图
index-sz-bbi

同上证多空指标。

创业板指数

index-gem

  • 指数代码:399006
  • 指数名称:创业板价格指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:2010-05-31
  • 指数基点:1000
  • 指数简介:为了更全面地反映创业板市场情况,向市场各类投资者提供更多的跟踪投资目标指数,推进指数基金产品以及丰富证券市场产品品种,为了方便投资者参考,本次同步发布收益指数及价格指数,其中价格指数对样本股公司派息不作除权调整处理,任指数自然回落
  • 成份股的选择:创业板指数的初始成份股为指数发布之日已纳入深证综合指数计算的全部创业板股票。在指数样本未满100只之前,新上市创业板股票在上市后第十一个交易日纳入指数计算;在指数样本数量满100只之后,样本数量锁定为100只,并依照定期调样规则实施样本股定期调样。
  • 指数计算: 创业板指数以2010年5月31日为基日,基点为1000点。创业板指数的计算方法与深证系列其它指数相同,采用自由流通量加权,并按照派氏加权法进行计算。创业板指数调整计算方法与深证100指数等深证系列指数相同

中小企业指数

index-sme

  • 指数代码:399005
  • 指数名称:中小板价格指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:2005-06-07
  • 指数基点:1000
  • 指数简介:中小板指数是中国多层次证券市场的重要指数,由100家具有代表性的中小板公司组成.中小板指数包括价格指数(中小板指数P)和全收益指数(中小板指数R),价格指数于200
  • 成份股的选择:计算入围个股在考察期的平均流通市值及平均成交金额所占市场比重,将上述指标按2:1 权重加权计算,再将结果从高到低排序,选取排名前100 名股票构成指数成份股.

沪深300指数

index-ss-300

  • 指数代码:399300
  • 指数名称:沪深300指数
  • 指数类别:股票类
  • 创建人 :深圳证券信息公司
  • 指数基期:2004-12-31
  • 指数基点:1000
  • 指数简介:沪深300指数是由上海和深圳证券市场中选取300只A股作为样本编制而成的成份股指数. 沪深300指数样本覆盖了沪深市场六成左右的市值,具有良好的市场代表性.
  • 成份股的选择:对样本空间股票在最近一年(新股为上市以来)的日均成交金额由高到低排名,剔除排名后50%的股票,然后对剩余股票按照日均总市值由高到低进行排名,选取排名在前300名的股票作为样本股

3. 沪深300指数

沪深300指数是沪深证券交易所于2005年4月8日联合发布的反映A股市场整体走势的指数。沪深300指数编制目标是反映中国证券市场股票价格变动的概貌和运行状况,并能够作为投资业绩的评价标准,为指数化投资和指数衍生产品创新提供基础条件。

  • 沪市000300
  • 深市399300

沪深300指数是由上海和深圳证券市场中选取300只A股作为样本,其中沪市有179只,深市121只。

样本选择标准为规模大、流动性好的股票。
沪深300指数样本覆盖了沪深市场六成左右的市值,具有良好的市场代表性。

主要特点:

  • 严格的样本选择标准,定位于交易性成份指数
  • 采用自由流通量为权数
  • 采用分级靠档法确定成份股权重
  • 样本股稳定性高,调整设置缓冲区
  • 指数行业分布状况基本与市场行业分布比例一致

主要优势:

  • 沪深300成分股的盈利能力突出
  • 沪深300成分股具备较好的成长性
  • 沪深300成分股的分红与股息收益高于市场平均水平
  • 沪深300成分股估值水平低于市场平均水平
  • 沪深300成分股代表了机构投资取向

从基本面来看,沪深300指数成分股在两年的运行中体现了较好的盈利性、成长性和分红收益能力,同时,相对于市场平均水平,其估值优势也较为明显,已经逐渐成为机构投资者乃至整个市场的投资取向标杆。那么,就股指期货而言,沪深300指数有利于得到更多机构的关注,从而更有益于形成以机构投资者为主的投资者结构。

沪深300指数发布,除了要真实反映A股市场状况,为市场提供一个投资标尺外,还有一个重要目的是为了股指期货提供一个标的。有业内人士就表示,推出沪深300指数,并在沪深300指数推出运行一段时间后,如果运行状况良好,就可以推出以该指数为标的的股指期货。

文字介绍,摘自:http://baike.baidu.com/view/539529.htm

4. 沪深300指数统计分析

数据来源于:招商证券智远理财服务平台 客户端
数据采集日期:2014-01-01

个股对指数贡献度:


股票代码,股票名称,贡献点数,涨幅(%),昨日收盘,参与计算股本(W),权重,名次
601398,工商银行,1.39,0.85,3.550,26377716.00,7.18,1
600036,招商银行,1.05,2.74,10.600,2062894.38,1.68,2
601288,农业银行,1.04,0.81,2.460,29405530.00,5.55,3
601166,兴业银行,0.87,2.63,9.880,1905233.63,1.44,4
600028,中国石化,0.80,1.13,4.430,9105184.00,3.09,5
601318,中国平安,0.78,2.25,40.810,478640.94,1.50,6
600000,浦发银行,0.76,2.50,9.200,1865347.13,1.32,7
600519,贵州茅台,0.72,3.15,124.460,103818.00,0.99,8
600030,中信证券,0.71,3.32,12.340,983858.13,0.93,9
002304,洋河股份,0.71,10.00,37.110,108000.00,0.31,10
600016,民生银行,0.60,1.98,7.570,2258819.25,1.31,11
601628,中国人寿,0.55,1.00,14.980,2082353.00,2.39,12
600010,包钢股份,0.55,9.95,3.920,800259.13,0.24,13
000001,平安银行,0.52,4.34,11.740,573815.25,0.52,14
601998,中信银行,0.51,2.38,3.780,3190516.25,0.92,15
000858,五 粮 液,0.50,5.03,14.910,379596.69,0.43,16
601006,大秦铁路,0.37,1.93,7.250,1486679.13,0.83,17
600383,金地集团,0.35,7.22,6.230,447150.84,0.21,18
....

用R语言读入数据


library(ggplot2)
library(scale)

contrib<-read.table(file="contribution.csv",header=FALSE,sep=",",colClasses = "character",fileEncoding="utf-8", encoding = "utf-8")
names(contrib)<-c("股票代码","股票名称","贡献点数","涨幅","昨日收盘","参与计算股本(W)","权重","名次");

1). 选出权重>1的股票


contrib[which(as.numeric(contrib[,7])>1),]

   股票代码 股票名称 贡献点数 涨幅 昨日收盘 参与计算股本(W) 权重 名次
1    601398 工商银行     1.39 0.85    3.550     26377716.00 7.18    1
2    600036 招商银行     1.05 2.74   10.600      2062894.38 1.68    2
3    601288 农业银行     1.04 0.81    2.460     29405530.00 5.55    3
4    601166 兴业银行     0.87 2.63    9.880      1905233.63 1.44    4
5    600028 中国石化     0.80 1.13    4.430      9105184.00 3.09    5
6    601318 中国平安     0.78 2.25   40.810       478640.94 1.50    6
7    600000 浦发银行     0.76 2.50    9.200      1865347.13 1.32    7
11   600016 民生银行     0.60 1.98    7.570      2258819.25 1.31   11
12   601628 中国人寿     0.55 1.00   14.980      2082353.00 2.39   12
19   601988 中国银行     0.34 0.38    2.610     19552620.00 3.91   19
24   600104 上汽集团     0.29 1.07   13.990      1102556.63 1.18   24
26   601857 中国石油     0.29 0.13    7.700     16192208.00 9.56   26
28   601328 交通银行     0.28 1.05    3.800      3925086.25 1.14   28
63   601088 中国神华     0.09 0.19   15.790      1649103.75 2.00   63

2). 画出“涨幅”的分布图


g<-ggplot(contrib, aes(x=as.numeric(contrib$涨幅)))
g<-g+geom_histogram(binwidth=0.2,position="identity")
g<-g+xlab("涨幅(%)")+ylab("股票数量")
g

index1

3). 画出“权重”的分布图


g<-ggplot(contrib, aes(x=as.numeric(contrib$权重)))
g<-g+geom_histogram(binwidth=0.2,position="identity")
g<-g+scale_x_continuous(breaks=-5:10)
g<-g+xlab("权重(%)")+ylab("股票数量")
g

index2

4). 画出“涨幅和权重”的关系


g<-ggplot(contrib, aes(x=as.numeric(contrib$涨幅),y=as.numeric(contrib$权重)))
g<-g+geom_point()
g<-g+scale_x_continuous(breaks=-5:10)
g<-g+xlab("涨幅")+ylab("权重")
g

index3

5). 画出“涨幅和名次”的关系,并做线性回归


g<-ggplot(contrib, aes(x=as.numeric(contrib$涨幅),y=as.numeric(contrib$名次)))
g<-g+geom_point()+geom_smooth(method = lm, size = 1)
g<-g+scale_x_continuous(breaks=-5:10)+ylim(0,300)
g<-g+xlab("涨幅")+ylab("名次")
g

index4

转载请注明出处:
http://blog.fens.me/finance-index/

打赏作者