概率基础和R语言

Posted:

Jan 25, 2014

Tags:

Comments:

R的极客理想系列文章，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。

R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。

要成为有理想的极客，我们不能停留在语法上，要掌握牢固的数学，概率，统计知识，同时还要有创新精神，把R语言发挥到各个领域。让我们一起动起来吧，开始R的极客理想。

关于作者：

张丹(Conan), 程序员Java,R,PHP,Javascript
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/r-probability/

前方

R语言是统计语言，概率又是统计的基础，所以可以想到，R语言必然要从底层API上提供完整、方便、易用的概率计算的函数。让R语言帮我们学好概率的基础课。

随机变量
随机变量的数字特征
极限定理

1. 随机变量

什么是随机变量？
离散型随机变量
连续型随机变量

1). 什么是随机变量？

随机变量（random variable）表示随机现象各种结果的实值函数。随机变量是定义在样本空间S上，取值在实数载上的函数，由于它的自变量是随机试验的结果，而随机实验结果的出现具有随机性，因此，随机变量的取值具有一定的随机性。

R程序：生成一个在(0,1,2,3,4,5)的随机变量


> S<-1:5
> sample(S,1)
[1] 2
> sample(S,1)
[1] 3
> sample(S,1)
[1] 5

2). 离散型随机变量

如果随机变量X的全部可能的取值只有有限多个或可列无穷多个，则称X为离散型随机变量。

R程序：生成样本空间为(1,2,3)的随机变量X，X的取值是有限的


> S<-1:3
> X<-sample(S,1);X
[1] 2

3). 连续型随机变量

随机变量X，取值可以在某个区间内取任一实数，即变量的取值可以是连续的，这随机变量就称为连续型随机变量

R程序：生成样本在空间(0,1)的连续随机函数，取10个值


> runif(10,0,1)
 [1] 0.3819569 0.7609549 0.6692581 0.6314708 0.5552201 0.8225527 0.7633086 0.4667188 0.1883553
[10] 0.3741653

2. 随机变量的数字特征

数学期望
方差
标准差
各种分步的期望和方差
常用统计量(最大,最小,中位数,四分位数)
协方差
相关系数
矩(原点矩,中心矩,偏度,峰度)
协方差矩阵

1). 数学期望(mathematical expectation)

离散型随机变量：的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望，记为E(x)。数学期望是最基本的数学特征之一。它反映随机变量平均取值的大小。

R程序：计算样本(1,2,3,7,21)的数学期望


> S<-c(1,2,3,7,21)
> mean(S)
[1] 6.8

连续型随机变量：若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分，则称X为连续性随机变量，f(x)称为X的概率密度函数，积分值为X的数学期望，记为E(X)。

2). 方差(Variance)

方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中，方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。

设X为随机变量，如果E{[X-E(X)]^2}存在，则称E{[X-E(X)]^2}为X的方差，记为Var(X)。

R程序：计算样本(1,2,3,7,21)的方差


> S<-c(1,2,3,7,21)
> var(S)
[1] 68.2

3). 标准差(Standard Deviation)

标准差是方差的算术平方根sqrt(var(X))。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。

R程序：计算样本(1,2,3,7,21)标准差


> S<-c(1,2,3,7,21)
> sd(S)
[1] 8.258329

4). 各种分步的期望和方差

离散型分布：两点分布，二项分布，泊松分布等
连续型分布：均匀分布，指数分布，正态分布，伽马分布等

对于某一特定场景，其所符合的分布规律一般先验给出

请参考文章：http://blog.fens.me/r-density/

5). 常用统计量

众数(Mode): 一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。

R程序：计算样本(1,2,3,3,3,7,7,7,7,9,10,21)的众数


> S<-c(1,2,3,3,3,7,7,7,7,9,10,21)
> names(which.max(table(S)))
[1] "7"

最小值(minimum): 在给定情形下可以达到的最小数量或最小数值

R程序：计算样本(2,3,3,3,7,7,7,7,9,10,21)的最小值


> S<-c(2,3,3,3,7,7,7,7,9,10,21)
#最小值
> min(S)
[1] 2
#最小值的索引
> which.min(S)
[1] 1

最大值(maximum): 在给定情形下可以达到的最大数量或最大数值

R程序：计算样本(2,3,3,3,7,7,7,7,9,10,21)的最大值


> S<-c(2,3,3,3,7,7,7,7,9,10,21)
#最大值
> max(S)
[1] 21
#最大值的索引
> which.max(S)
[1] 11

中位数(Medians): 是指将统计总体当中的各个变量值按大小顺序排列起来，形成一个数列，处于变量数列中间位置的变量值就称为中位数。

R程序：计算样本(1,2,3,4,5)的中位数


> S<-c(1,2,3,4,5)
> median(S)
[1] 3

四分位数(Quartile): 用于描述任何类型的数据，尤其是偏态数据的离散程度,即将全部数据从小到大排列，正好排列在上1/4位置叫上四分位数，下1/4位置上的数就叫做下四分位数.

R程序：计算样本(1,2,3,4,5,6,7,8,9)的四分位数


> S<-c(1,2,3,4,5,6,7,8,9)
> quantile(S)
  0%  25%  50%  75% 100% 
   1    3    5    7    9 
> fivenum(S)
[1] 1 3 5 7 9

通用的计算统计函数：

R程序：计算样本(1,2,3,4,5,6,7,8,9)的统计函数


> S<-c(1,2,3,4,5,6,7,8,9)
> summary(S)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1       3       5       5       7       9

6). 协方差(Covariance)

协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。设X,Y为两个随机变量，称E{[X-E(X)][Y-E(Y)]}为X和Y的协方差，记录Cov(X,Y)。

R程序：计算X(1,2,3,4)和Y(5,6,7,8)的协方差


> X<-c(1,2,3,4)
> Y<-c(5,6,7,8)
> cov(X,Y)
[1] 1.666667

7). 相关系数(Correlation coefficient)

相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算，同样以两变量与各自平均值的离差为基础，通过两个离差相乘来反映两变量之间相关程度。当Var(X)>0, Var(Y)>0时，称Cov(X,Y)/sqrt(Var(X)*Var(Y))为X与Y的相关系统。

R程序：计算X(1,2,3,4)和Y(5,7,8,9)的相关系数


> X<-c(1,2,3,4)
> Y<-c(5,7,8,9)
> cor(X,Y)
[1] 0.9827076

8). 矩

原点矩(moment about origin): 对于正整数k，如果E|X^k|存在，称V^k=E(X^k)为随机变量X的k阶原点矩。X的数学期望是X的一阶原点矩，即E(x)=v1.

R程序：计算S(1,2,3,4,5)的一阶原点矩(均值)


> S<-c(1,2,3,4,5)
> mean(S)
[1] 3

中心矩(moment about centre): 对于正整数k，如果EX存在，且E(|X - EX|^k)也存在，则称E[X-EX]^k为随机变量X的k阶中心矩。如X的方差是X的二阶中心矩，即D(X)=E{[X-E(X)]^2}

R程序：计算S(1,2,3,4,5)的二阶中心矩(方差)


> S<-c(1,2,3,4,5)
> var(S)
[1] 2.5

距是广泛应用的一类数学特征，均值和方差分别就是一阶原点矩和二阶中心矩。

偏度(skewness): 是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。设分布函数F(x)有中心矩u2=E(X −E(X))^2, u3 = E(X −E(X))^3，则Cs=u3/u2^(3/2)为偏度系数。

当Cs>0时，概率分布偏向均值右则,Cs<0时，概率分布偏向均值左则。R语言：计算10000个正态分布的样本的偏度


> library(PerformanceAnalytics)
> S<-rnorm(10000)
> skewness(S)
[1] -0.00178084
> hist(S,breaks=100)

峰度(kurtosis): 又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。峰度刻划不同类型的分布的集中和分散程序。设分布函数F(x)有中心矩u2=E(X −E(X))^2, u4=E(X −E(X))^4，则Ck=u4/(u2^2-3)为峰度系数。

R语言：计算10000个正态分布的样本的峰度，(同偏度的样本数据)


> library(PerformanceAnalytics)
> kurtosis(S)
[1] -0.02443549
> hist(S,breaks=100)

8). 协方差矩阵(covariance matrix)

协方差矩阵是一个矩阵，其每个元素是各个向量元素之间的协方差。是从标量随机变量到高维度随机向量的自然推广。设X = (X1,X2, ... ,Xn), Y = (Y1, Y2, ..., Ym) 为两个随机变量，则Cov(X,Y)为X,Y的协方差矩阵.

R语言：计算协方差矩阵


> x=as.data.frame(matrix(rnorm(10),ncol=2))
> x
           V1          V2
1 -2.11315384 -2.55189840
2 -0.96631271 -1.36148355
3 -0.02835058 -0.82328774
4 -1.86669567 -0.07201353
5  0.27324957 -2.23835218

> var(x)
            V1          V2
V1  1.13470650 -0.09292042
V2 -0.09292042  1.03172261

> cov(x)
            V1          V2
V1  1.13470650 -0.09292042
V2 -0.09292042  1.03172261

3. 极限定理

大数定律
中心极限定理

1). 大数定律

大数定律(law of large numbers)，又称大数定理，是判断随机变量的算术平均值是否向常数收敛的定律，是概率论和数理统计学的基本定律之一。

设X1,X2,...,Xk, 是随机变量序列且E(Xk)存在(k=1,2,3...), Yn = 1/n * (X1 +X2+ ... + Xk)，对于任意给定的ε > 0, 有

则称随机变量序列{Xk}服从大数定律。

三个重要定律

Bernoulli大数定律
Chebyshev(切比雪夫)大数定律
Khintchin(辛钦)大数定律

Bernoulli(贝努力)大数定律

设Na是n次独立重复试验中A发生的次数，p是事件A在每次试验中发生的概率，则对任意的正数ε > 0,有

Bernoulli大数定律揭示了“频率稳定于概率”说法的实质。

Chebyshev(切比雪夫)大数定律

设随机变量X1,X2,...Xk相互独立，且具有相同的期望与方差：E(Xk)=μ, Var(Xk) = σ^2, (k = 1, 2, ...), 则对于任意的正数ε > 0, 有

Khintchin(辛钦)大数定律

设随机变量X1,X2...Xk相互独立，服从相同的分布，且其期望E(Xk) = μ , (k = 1, 2,...), 则对于任意的正数ε > 0, 有

若对随机变量序列X1, X2, ...Xk存在常数a, 使得对于任意的正数ε > 0, 有

成立，则称Xk依概率收敛于a，则Chebyshev大数定律和Khintchin大数定律有

大数定律定理

设随机变量X具有期望E(X)=μ,方差Var(X) = σ2, 则对于任意ε > 0, 有

R语言：假设投硬币，正面概率是0.5，投4次时，计算得到2次正面的概率？根据大数定律，如果投是10000次，计算5000次正面的概率？


#计算2次正面的的概率
> choose(4,2)/2^4 #choose组合数的计算：从4中选择2个
[1] 0.375

#计算5000次正面的的概率
> pbinom(5000, 10000, 0.5) #pbinom二向分布，5000为分位数，产生10000个随机数，每个概率0.5
[1] 0.5039893

2). 中心极限定理(central limit theorem)

中心极限定理是判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产科学实践中，一些现象受到许多相互独立的随机因素的影响，如果每个因素的影响都很小，那么部的影响可以看作是服从正太分布。中心极限定理正是从数学上论证了这一现象。

设从均值为μ、方差为σ^2;（有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。

两个最著名的中心极限宣

列维定理(Lindburg-Levy)
拉普拉斯定理(de Movire - Laplace)

列维定理(Lindburg-Levy)

即独立同分布随机变量序列的中心极限定理。它表明，独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限。

设随机变量X1，X2，......Xn，......相互独立，服从同一分布，且具有数学期望和方差：E（Xk）=μ，D（Xk）=σ^2>0(k=1,2....),则随机变量之和的标准化变量的分布函数Fn（x）对于任意x满足limFn（x）=Φ（x），n→∞　其中Φ(x)是标准正态分布的分布函数。

拉普拉斯定理(de Movire - Laplace)

即服从二项分布的随机变量序列的中心极限定理。它指出，参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。

R语言：中心极限定理模拟，从指数分布到正态分布


if (!require(animation)) install.packages("animation")
library(animation)
ani.options(interval = 0.1, nmax = 100)
par(mar = c(4, 4, 1, 0.5))
clt.ani()