• Posts tagged "统计概览"

Blog Archives

2026 微软微软技术直通车:用 Copilot 构建机器学习模型

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-direct-20260321/

前言

用大模型写程序,如今已变得愈发成熟。对于标准的程序结构,大模型生成得又快又好,确实能替代大量重复的开发时间,让我们从繁琐的代码细节中解放出来。然而,数据分析有其特殊性——它不只要求程序结构正确,更考验对业务逻辑的理解、统计学基础的掌握,以及面对不确定性的解释能力。单纯的“代码跑通”并不等同于“分析准确”。本次分享,我们将把大模型置于数据分析的真实场景中,借助GitHub Copilot,一同探索它的能力边界:哪些环节它可以成为得力助手,哪些关键节点依然离不开人的判断。这不仅是一次技术演示,更是一次对AI辅助分析范式的理性审视。

目录

  1. 分享主题:用 Copilot 构建机器学习模型
  2. 会议体验和照片分享

1. 分享主题:用 Copilot 构建机器学习模型

本次分享将聚焦一个核心问题:当大模型开始帮我们写代码,数据分析的哪些环节可以放心交给AI,哪些环节依然离不开人的判断?

我们不会绑定任何具体业务场景,而是以通用数据分析为脉络,系统性地探讨大模型的能力边界。分享将围绕五个主题展开:首先,梳理机器学习建模的标准流程,明确哪些是“确定性执行”,哪些是“不确定性判断”。接着,通过现场演示,看AI如何快速完成统计概览、机器学习建模、可视化图表三类常见任务——从数据加载到模型评估,从基础图表到交互式可视化,直观感受AI的生成效率与代码质量。在此基础上,我们将对比“大模型生成代码”与“古法手写代码”的差异:效率上,AI将分钟级工作压缩至秒级;可控性上,人类仍需对关键逻辑进行审核;思维方式上,开发者的核心能力正从“记忆语法”转向“提问与判断”。最终我们将得出一个务实结论:大模型是数据分析的“超级副驾驶”,它能极大降低编程门槛、提升开发效率,但在业务理解、统计诊断、结果解读等需要深度判断的环节,依然需要人作为主导。适合所有希望借助AI提升效率、同时又保持理性思考的数据从业者与业务分析师参与。

我主要为分三个部分进行介绍:

  • 机器学习建模关键步骤
  • 让AI生成代码:统计概览
  • 让AI生成代码:机器学习
  • 让AI生成代码:可视化工具
  • 大模型生成代码 VS 古法手写代码

2. 会议体验和照片分享

活动主题:微软技术直通车(第二十九期) 之 GitHub Copilot Dev Days 2026 | Beijing —— 代码人生的智能春天

微软技术直通车第二十九期,将于2026年3月21日面向大家。本次活动将作为全球GitHub Copilot Dev Days 2026系列活动的一部分,汇聚各开发者、爱好者和本地科技社区,通过实践体验探索GitHub Copilot的强大功能。并由微软MVP为您深度剖析案例、拆解技术架构。北京部分的活动重点采用嘉宾现场技术分享的方式进行,将为您呈现一场Github Copilot智能技术盛宴——干货满满,技术多多。这是一次引领未来的旅程,让我们一同探索如何将人工智能与当前的生产力环境相结合,创造出令人惊叹的技术创新和无限可能性。

本次活动面向所有开发者开放,由微软MVP主导,技术直通车技术社区主办,设计高度实用,重点介绍现实工作流程、动手作活动以及以GitHub Copilot人工智能辅助编码为核心的工作坊。希望本次活动能够成为您在人工智能领域学术交流和技术应用中的重要一步,给您带来无尽收获。

报名链接:https://www.huodongxing.com/event/6850835727900

官方会议纪要:https://mp.weixin.qq.com/s/1J3fieLkpGsezXasQ-hyxQ

2.1 会议主题

2.2 讲师阵容

朱一婷,微软MVP和RD,NVIDIAGTC专家讲师|光辉城市CTO

主题:《GitHub Copilot:解锁新潜能,激活全场景AI伙伴》

探索GitHub Copilot从助手到智能体协作的全新进化,不再被动等待指令,可自主规划、多步执行复杂任务。多终端全场景覆盖,AI伙伴随时响应。介绍全新的后台智能体能力,以及如何基于GitHub Copilot SDK将GitHub Copilot Agent集成到应用和服务中。

张丹,微软MVP,R语言实践者,青萌数海CTO,PPT下载

主题:《用Copilot构建机器学习模型,让小白也能做数据分析》

用机器学习做数据分析,是一种普遍的智能模型建模的思路。机器学习基于结构化数据,以统计概率为算法基础,计算快,解释性好,但是上手的门槛不低,需要有统计学的知识,以及对业务的理解。利用GitHub Copilot,补齐短板,让小白也能做数据分析。

郝冠军,微软MVP,微软技术直通车创始人

主题:《使用Copilot CLI开发应用》

通过实例介绍基于Copilot CLI的应用开发。基于Copilot CLI,使用Terminal,自定义指令,自定义Prompt,MCP,定制的Agent,以及Skill等,借力AI直接在Terminal中进行软件开发。

2.3 现场照片

大合照

会议组织者:刘力科,连续10余年微软MVP,20余年微软系统工程师,Microsoft 365和Azure AI双方向微软最有价值专家,“微软技术直通车”创始人

纯技术沟通,高质量会议,会场满满地,座无虚席!辛苦组织者的小伙伴。

转载请注明出处:
http://blog.fens.me/meeting-ms-direct-20260321/

R语言统计特征描述包descriptr

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。

要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。

关于作者:

  • 张丹(Conan), 程序员/Quant: Java,R,Nodejs
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/r-descriptr

前言

我们获得数据后需要了解数据,通常会用到统计特征来观察数据,比如字段类型,数据集长度,均值,方差,数据分布,概率密度等。

descriptr包,为了我们提供了一套用来观察数据统计特征的工具集,主要特性包括统计特征计算,离散度,频率表,交叉表,分组摘要和多个单/双向表的度量,可以让我们非常方便的观察的数据特征。

目录

  1. descriptr包介绍
  2. descriptr包函数列表
  3. descriptr包函数使用

1. descriptr包介绍

descriptr包,主要用于生成描述性统计信息。它提供了3种数据处理视角,连续变量、类别变量(离散变量)和可视化。descriptr包的统计特征计算部分的源代码,结构非常工整,大量用到dplyr包来构建。

开发环境所使用的系统环境

  • Win10 64bit
  • R: 3.4.2 x86_64-w64-mingw32/x64 b4bit

descriptr包的安装比较简单,直接用install.pacakges()函数就行。


> install.packages("descriptr")
> library(descriptr)

2. descriptr包函数列表

descriptr包,提供了3种处理视角,连续变量、类别变量、和可视化。我们将分别介绍这3种处理视角的函数。

descriptr包,提供了2个数据集,我们可以基于这2个数据集进行学习和测试。文中的例子,都是基于mtcarz的数据集进行构建的。

数据集:

  • hsb, 高中数据集
  • mtcarz, 汽车数据集,复制系统的mtcars数据集

2.1 连续变量
2.1.1 统计概览

  • ds_summary_stats, 统计概率
  • ds_auto_summary_stats, 自动统计概率
  • ds_group_summary, 分组描述性统计
  • ds_auto_group_summary, 自动描述性统计
  • ds_tidy_stats, 多变精简统计概率
  • ds_multi_stats,已弃用函数,用ds_tidy_stats()替代

2.1.2 统计特征计算

  • ds_mode, 计算众数
  • ds_extreme_obs, 计算极端值
  • ds_freq_cont, 计算频数
  • ds_freq_table, 计算频率分布表
  • ds_percentiles,计算分位数
  • ds_range, 计算宽度, max(x)-min(x)
  • ds_kurtosis, 计算峰度
  • ds_skewness, 计算偏度
  • ds_gmean, 计算几何平均值, prod(x)^(1/length(x))
  • ds_hmean, 计算谐波均值, length(x)/sum(sapply(x, function(x) {1/x} ))
  • ds_css, 计算修正平方和, sum((x1-mean)^2+(x2-mean)^2+…)
  • ds_mdev, 计算平均绝对差, sum( abs(x1-mean) + abs(x2-mean) + …)
  • ds_cvar, 计算变异系数, sd(x)/mean(x) * 100%
  • ds_std_error, 计算标准误差, sd(x)/(length(x)^0.5)
  • ds_tailobs,计算最大最小的多个值

2.1.3 度量特征

  • ds_measures_location,位置的度量,包括均值,中位数和众数
  • ds_measures_symmetry, 对称性的度量,包括峰度和偏度
  • ds_measures_variation,变异的度量,包括宽度,方差,标准差

2.1.4 其他函数

  • ds_rindex, 计算值的索引,同which
  • ds_screener, 以表格展示数据

2.2 类别变量

  • ds_twoway_table,计算双向表
  • ds_cross_table, 展示双向表
  • ds_auto_freq_table, 展示多个单向表
  • ds_auto_cross_table, 展示多个双向表
  • ds_tway_tables, 已弃用函数,用ds_auto_cross_table()替换
  • ds_oway_tables,已弃用函数,用ds_auto_freq_table()替换

2.3 可视化
2.3.1 画图函数

  • ds_plot_bar Generate bar plots
  • ds_plot_bar_grouped Generate grouped bar plots
  • ds_plot_bar_stacked Generate stacked bar plots
  • ds_plot_box_group Compare distributions
  • ds_plot_box_single Generate box plots
  • ds_plot_density Generate density plots
  • ds_plot_histogram Generate histograms
  • ds_plot_scatter Generate scatter plots

2.3.2 已弃用函数,调用vistributions包

  • dist_binom_perc, 可视化二项分布
  • dist_binom_plot, 可视化二项分布
  • dist_binom_prob,可视化二项分布
  • dist_chi_perc, 可视化卡方分布
  • dist_chi_plot, 可视化卡方分布
  • dist_chi_prob, 可视化卡方分布
  • dist_f_perc, 可视化F分布
  • dist_f_plot, 可视化F分布
  • dist_f_prob, 可视化F分布
  • dist_norm_perc, 可视化正态分布
  • dist_norm_plot, 可视化正态分布
  • dist_norm_prob, 可视化正态分布
  • dist_t_perc, 可视化T分布
  • dist_t_plot, 可视化T分布
  • dist_t_prob, 可视化T分布

2.4 演示小程序
一个演示的小程序,可以快速看到功能界面,使用shiny来构建的。

  • ds_launch_shiny_app, Shiny演示小程序

3. descriptr包函数使用

接下来,我们找一些对于我们观察数据非常方便的函数进行列举。

首先,我们先了解一个我们要使用的数据集mtcarz


> mtcarz
                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

3.1 数据展示
通过ds_screener()函数进行静态数据集展示,替代函数原系统的str()函数。


# 查看数据静态结构
> ds_screener(mtcarz)
-----------------------------------------------------------------------
|  Column Name  |  Data Type  |  Levels   |  Missing  |  Missing (%)  |
-----------------------------------------------------------------------
|      mpg      |   numeric   |    NA     |     0     |       0       |
|      cyl      |   factor    |   4 6 8   |     0     |       0       |
|     disp      |   numeric   |    NA     |     0     |       0       |
|      hp       |   numeric   |    NA     |     0     |       0       |
|     drat      |   numeric   |    NA     |     0     |       0       |
|      wt       |   numeric   |    NA     |     0     |       0       |
|     qsec      |   numeric   |    NA     |     0     |       0       |
|      vs       |   factor    |    0 1    |     0     |       0       |
|      am       |   factor    |    0 1    |     0     |       0       |
|     gear      |   factor    |   3 4 5   |     0     |       0       |
|     carb      |   factor    |1 2 3 4 6 8|     0     |       0       |
-----------------------------------------------------------------------

 Overall Missing Values           0 
 Percentage of Missing Values     0 %
 Rows with Missing Values         0 
 Columns With Missing Values      0 

# str()函数的静态结构
> str(mtcarz)
'data.frame':	32 obs. of  11 variables:
 $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
 $ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
 $ disp: num  160 160 108 258 360 ...
 $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
 $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
 $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
 $ qsec: num  16.5 17 18.6 19.4 17 ...
 $ vs  : Factor w/ 2 levels "0","1": 1 1 2 2 1 2 1 2 2 2 ...
 $ am  : Factor w/ 2 levels "0","1": 2 2 2 1 1 1 1 1 1 1 ...
 $ gear: Factor w/ 3 levels "3","4","5": 2 2 2 1 1 1 1 2 2 2 ...
 $ carb: Factor w/ 6 levels "1","2","3","4",..: 4 4 1 1 2 1 4 2 2 4 ... 

3.2 统计概览
通过ds_summary_stats()函数,查看数据集中某个连续型变量的所有统计特征值。


# 统计概览
> ds_summary_stats(mtcarz,mpg)
-------------------------------------------- Variable: mpg --------------------------------------------

                        Univariate Analysis                          
 N                       32.00      Variance                36.32 
 Missing                  0.00      Std Deviation            6.03 
 Mean                    20.09      Range                   23.50 
 Median                  19.20      Interquartile Range      7.38 
 Mode                    10.40      Uncorrected SS       14042.31 
 Trimmed Mean            19.95      Corrected SS          1126.05 
 Skewness                 0.67      Coeff Variation         30.00 
 Kurtosis                -0.02      Std Error Mean           1.07 

                              Quantiles                               
              Quantile                            Value                
             Max                                  33.90                
             99%                                  33.44                
             95%                                  31.30                
             90%                                  30.09                
             Q3                                   22.80                
             Median                               19.20                
             Q1                                   15.43                
             10%                                  14.34                
             5%                                   12.00                
             1%                                   10.40                
             Min                                  10.40                

                            Extreme Values                            
                Low                                High                
  Obs                        Value       Obs                        Value 
  15                         10.4        20                         33.9  
  16                         10.4        18                         32.4  
  24                         13.3        19                         30.4  
   7                         14.3        28                         30.4  
  17                         14.7        26                         27.3  

输出分成了3个部分:Univariate Analysis(单变量分析),Quantiles(分位数),Extreme Values(极值)。

  • Univariate Analysis(单变量分析),包括N(个数),Missing(缺失值),Mean(均值),Median(中位数),Mode(众数),Trimmed Mean(修正均值),Skewness(偏度),Kurtosis(峰度),Variance(方差),Std Deviation(标准差),Range(范围,最大-最小),Interquartile Range(四分位数范围),Uncorrected SS(未修正平方和),Corrected SS(修正平方和), Coeff Variation(变异系数,标准差/均值),Std Error Mean(标准误差均值)
  • Quantiles(分位数),从最小值到最小值,按顺序排列,对应的数值。
  • Extreme Values(极值),包括最小值前5个,最大值前5个。

3.3 统计特征快速查看
通过ds_tidy_stats()函数,查看数据集中各变量的统计特征,维度比较少。


# 多变量统计
> ds_tidy_stats(mtcarz, mpg, disp, hp)
# A tibble: 3 x 16
  vars    min   max  mean t_mean median  mode range variance  stdev  skew kurtosis coeff_var
  <chr> <dbl> <dbl> <dbl>  <dbl>  <dbl> <dbl> <dbl>    <dbl>  <dbl> <dbl>    <dbl>     <dbl>
1 disp   71.1 472   231.   228    196.  276.  401.   15361.  124.   0.420  -1.07        53.7
2 hp     52   335   147.   144.   123   110   283     4701.   68.6  0.799   0.275       46.7
3 mpg    10.4  33.9  20.1   20.0   19.2  10.4  23.5     36.3   6.03 0.672  -0.0220      30.0
# ... with 3 more variables: q1 <dbl>, q3 <dbl>, iqrange <dbl>

3.4 频率表
通过ds_freq_table()函数,把数据集中某个连续型变量,进行等宽划分,形成频率表。


# 划分成5个等宽的频率
> ds_freq_table(mtcarz,mpg,5)
                              Variable: mpg                               
|-----------------------------------------------------------------------|
|    Bins     | Frequency | Cum Frequency |   Percent    | Cum Percent  |
|-----------------------------------------------------------------------|
| 10.4 - 15.1 |     6     |       6       |    18.75     |    18.75     |
|-----------------------------------------------------------------------|
| 15.1 - 19.8 |    12     |      18       |     37.5     |    56.25     |
|-----------------------------------------------------------------------|
| 19.8 - 24.5 |     8     |      26       |      25      |    81.25     |
|-----------------------------------------------------------------------|
| 24.5 - 29.2 |     2     |      28       |     6.25     |     87.5     |
|-----------------------------------------------------------------------|
| 29.2 - 33.9 |     4     |      32       |     12.5     |     100      |
|-----------------------------------------------------------------------|
|    Total    |    32     |       -       |    100.00    |      -       |
|-----------------------------------------------------------------------|

3.5 分组统计
通过ds_group_summary()函数,把数据集中变量进行分组,再分别计算统计特征。


> k<-ds_group_summary(mtcarz,cyl,mpg);k
                                       mpg by cyl                                         
-----------------------------------------------------------------------------------------
|     Statistic/Levels|                    4|                    6|                    8|
-----------------------------------------------------------------------------------------
|                  Obs|                   11|                    7|                   14|
|              Minimum|                 21.4|                 17.8|                 10.4|
|              Maximum|                 33.9|                 21.4|                 19.2|
|                 Mean|                26.66|                19.74|                 15.1|
|               Median|                   26|                 19.7|                 15.2|
|                 Mode|                 22.8|                   21|                 10.4|
|       Std. Deviation|                 4.51|                 1.45|                 2.56|
|             Variance|                20.34|                 2.11|                 6.55|
|             Skewness|                 0.35|                -0.26|                -0.46|
|             Kurtosis|                -1.43|                -1.83|                 0.33|
|       Uncorrected SS|              8023.83|              2741.14|              3277.34|
|         Corrected SS|               203.39|                12.68|                 85.2|
|      Coeff Variation|                16.91|                 7.36|                16.95|
|      Std. Error Mean|                 1.36|                 0.55|                 0.68|
|                Range|                 12.5|                  3.6|                  8.8|
|  Interquartile Range|                  7.6|                 2.35|                 1.85|
-----------------------------------------------------------------------------------------

3.6 分组分类统计
通过ds_auto_group_summary()函数,把数据集中变量进行分组,再分别两两计算统计特征。


# 分组分类
> ds_auto_group_summary(mtcarz, cyl, gear, mpg)
                                       mpg by cyl                                         
-----------------------------------------------------------------------------------------
|     Statistic/Levels|                    4|                    6|                    8|
-----------------------------------------------------------------------------------------
|                  Obs|                   11|                    7|                   14|
|              Minimum|                 21.4|                 17.8|                 10.4|
|              Maximum|                 33.9|                 21.4|                 19.2|
|                 Mean|                26.66|                19.74|                 15.1|
|               Median|                   26|                 19.7|                 15.2|
|                 Mode|                 22.8|                   21|                 10.4|
|       Std. Deviation|                 4.51|                 1.45|                 2.56|
|             Variance|                20.34|                 2.11|                 6.55|
|             Skewness|                 0.35|                -0.26|                -0.46|
|             Kurtosis|                -1.43|                -1.83|                 0.33|
|       Uncorrected SS|              8023.83|              2741.14|              3277.34|
|         Corrected SS|               203.39|                12.68|                 85.2|
|      Coeff Variation|                16.91|                 7.36|                16.95|
|      Std. Error Mean|                 1.36|                 0.55|                 0.68|
|                Range|                 12.5|                  3.6|                  8.8|
|  Interquartile Range|                  7.6|                 2.35|                 1.85|
-----------------------------------------------------------------------------------------

                                       mpg by gear                                        
-----------------------------------------------------------------------------------------
|     Statistic/Levels|                    3|                    4|                    5|
-----------------------------------------------------------------------------------------
|                  Obs|                   15|                   12|                    5|
|              Minimum|                 10.4|                 17.8|                   15|
|              Maximum|                 21.5|                 33.9|                 30.4|
|                 Mean|                16.11|                24.53|                21.38|
|               Median|                 15.5|                 22.8|                 19.7|
|                 Mode|                 10.4|                   21|                   15|
|       Std. Deviation|                 3.37|                 5.28|                 6.66|
|             Variance|                11.37|                27.84|                44.34|
|             Skewness|                -0.09|                  0.7|                 0.56|
|             Kurtosis|                -0.38|                -0.77|                -1.83|
|       Uncorrected SS|              4050.52|               7528.9|              2462.89|
|         Corrected SS|               159.15|               306.29|               177.37|
|      Coeff Variation|                20.93|                21.51|                31.15|
|      Std. Error Mean|                 0.87|                 1.52|                 2.98|
|                Range|                 11.1|                 16.1|                 15.4|
|  Interquartile Range|                  3.9|                 7.08|                 10.2|
-----------------------------------------------------------------------------------------

3.7 测量
通过ds_measures_xxx()的几个函数,把数据集中变量,分别进行不同维度的统计特征。如果您想要查看位置,变化,对称性,百分位数和极端观测值的度量,请使用以下函数。 除了ds_extreme_obs()之外,所有这些都将使用单个或多个变量。 如果未指定变量,则它们将返回数据集中所有连续变量的结果。

数据集变化分析:范围,四分位范围,方差,标准差,变异系数,标准误差


> ds_measures_variation(mtcarz)
# A tibble: 6 x 7
  var    range     iqr  variance      sd coeff_var std_error
  <chr>  <dbl>   <dbl>     <dbl>   <dbl>     <dbl>     <dbl>
1 disp  401.   205.    15361.    124.         53.7   21.9   
2 drat    2.17   0.840     0.286   0.535      14.9    0.0945
3 hp    283     83.5    4701.     68.6        46.7   12.1   
4 mpg    23.5    7.38     36.3     6.03       30.0    1.07  
5 qsec    8.40   2.01      3.19    1.79       10.0    0.316 
6 wt      3.91   1.03      0.957   0.978      30.4    0.173 

数据集数值分析:均值,修正均值,中位数,众数


> ds_measures_location(mtcarz)
# A tibble: 6 x 5
  var     mean trim_mean median   mode
  <chr>  <dbl>     <dbl>  <dbl>  <dbl>
1 disp  231.      228    196.   276.  
2 drat    3.60      3.58   3.70   3.07
3 hp    147.      144.   123    110   
4 mpg    20.1      20.0   19.2   10.4 
5 qsec   17.8      17.8   17.7   17.0 
6 wt      3.22      3.20   3.32   3.44

数据集分位数分析:从最小值到最大值排序


> ds_percentiles(mtcarz)
# A tibble: 6 x 12
  var     min  per1  per5 per10     q1 median     q3  per95  per90  per99    max
  <chr> <dbl> <dbl> <dbl> <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
1 disp  71.1  72.5  77.4  80.6  121.   196.   326    449    396.   468.   472   
2 drat   2.76  2.76  2.85  3.01   3.08   3.70   3.92   4.31   4.21   4.78   4.93
3 hp    52    55.1  63.6  66     96.5  123    180    254.   244.   313.   335   
4 mpg   10.4  10.4  12.0  14.3   15.4   19.2   22.8   31.3   30.1   33.4   33.9 
5 qsec  14.5  14.5  15.0  15.5   16.9   17.7   18.9   20.1   20.0   22.1   22.9 
6 wt     1.51  1.54  1.74  1.96   2.58   3.32   3.61   5.29   4.05   5.40   5.42

极值分析


> ds_extreme_obs(mtcarz,mpg)
# A tibble: 10 x 3
   type  value index
   <chr> <dbl> <int>
 1 high   33.9    20
 2 high   32.4    18
 3 high   30.4    19
 4 high   30.4    28
 5 high   27.3    26
 6 low    10.4    15
 7 low    10.4    16
 8 low    13.3    24
 9 low    14.3     7
10 low    14.7    17

3.8 类别变量频率表
通过ds_cross_table()函数,查看数据集中类别变量的双向表。


> ds_cross_table(mtcarz, cyl, gear)
    Cell Contents
 |---------------|
 |     Frequency |
 |       Percent |
 |       Row Pct |
 |       Col Pct |
 |---------------|

 Total Observations:  32 

----------------------------------------------------------------------------
|              |                           gear                            |
----------------------------------------------------------------------------
|          cyl |            3 |            4 |            5 |    Row Total |
----------------------------------------------------------------------------
|            4 |            1 |            8 |            2 |           11 |
|              |        0.031 |         0.25 |        0.062 |              |
|              |         0.09 |         0.73 |         0.18 |         0.34 |
|              |         0.07 |         0.67 |          0.4 |              |
----------------------------------------------------------------------------
|            6 |            2 |            4 |            1 |            7 |
|              |        0.062 |        0.125 |        0.031 |              |
|              |         0.29 |         0.57 |         0.14 |         0.22 |
|              |         0.13 |         0.33 |          0.2 |              |
----------------------------------------------------------------------------
|            8 |           12 |            0 |            2 |           14 |
|              |        0.375 |            0 |        0.062 |              |
|              |         0.86 |            0 |         0.14 |         0.44 |
|              |          0.8 |            0 |          0.4 |              |
----------------------------------------------------------------------------
| Column Total |           15 |           12 |            5 |           32 |
|              |        0.468 |        0.375 |        0.155 |              |
----------------------------------------------------------------------------

3.9 类别变量的双向表
通过ds_twoway_table()函数,查看数据集中类别变量的分组后的情况。


> ds_twoway_table(mtcarz, cyl, gear)
Joining, by = c("cyl", "gear", "count")
# A tibble: 8 x 6
  cyl   gear  count percent row_percent col_percent
  <fct> <fct> <int>   <dbl>       <dbl>       <dbl>
1 4     3         1  0.0312      0.0909      0.0667
2 4     4         8  0.25        0.727       0.667 
3 4     5         2  0.0625      0.182       0.4   
4 6     3         2  0.0625      0.286       0.133 
5 6     4         4  0.125       0.571       0.333 
6 6     5         1  0.0312      0.143       0.2   
7 8     3        12  0.375       0.857       0.8   
8 8     5         2  0.0625      0.143       0.4   

3.10 可视化连续型数据
分别以柱状图,密度图,分箱图,散点图,对连续型数据进行可视化,从左到右的4个图。


> ds_plot_histogram(mtcarz, mpg, disp)
> ds_plot_density(mtcarz, mpg, disp)
> ds_plot_box_single(mtcarz, mpg, disp)
> ds_plot_scatter(mtcarz, mpg, disp)

3.11 可视化类别型数据
分别以bar图对类别型数据可视化,从左到右的4个图。


> ds_plot_bar(mtcarz,cyl, gear)
> ds_plot_bar_stacked(mtcarz, cyl, gear)
> ds_plot_bar_grouped(mtcarz, cyl, gear)
> ds_plot_box_group(mtcarz, cyl, gear, mpg)

3.12 可视化分布图

5种统计分布的可视化效果,由于使用时提示已弃用,改为调用vistributions包的对应函数,所以大家可以改用vistributions包。

二项分布


> dist_binom_prob(10, 0.3, 4, type = 'exact')

卡方分布


> dist_chi_perc(0.22, 13, 'upper')

F分布


> dist_f_perc(0.125, 9, 35, 'upper')

正态分布


> dist_norm_perc(0.95, mean = 2, sd = 1.36, type = 'both')

T分布


> dist_t_prob(1.445, 7, 'interval')

3.13 启动shiny小程序

提供了一个界面,方便小白进行操作,其实没什么用。>_<

本文对于descriptr包进行的完整的介绍,descriptr主要用于统计特征的快速查看,一个方便的工具包,对于初识数据集是非常有帮助的。

转载请注明出处:
http://blog.fens.me/r-descriptr

打赏作者