• Archive by category "活动聚会"

Blog Archives

2022 中国R会:用R语言解读传染病模型

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-r-20221125/

前言

中国R会今年已经是第15届,一直能坚持,一会有大学、公司、社区、老师、学生、外部人员的很多人支持,是非常不容易的。我从R的学习者到长期使用者,参加了多期R会,也做了多期的分享,希望R会一直坚持,在中国大力推广R语言的发展。我也会一直为R语言的技术发展,贡献我自己的知识和力量。

使用R语言结合传染病领域前辈们的专业经验,可以让我们快速上手跨学科的领域,并模拟疫情传播的场景。通过本次分享让大家能感受到疫情传播的可怕,以及我们需要积极的面对,和科学的预防。

目录

  1. 我分享的主题:用R语言解读传染病模型
  2. 会议体验和照片分享

1. 我分享的主题:用R语言解读传染病模型

疫情直接影响到了我们的生活,现在又是北京疫情快速传播,我们居家办公,对传染病的学科专业理解,会帮助我们理解北京现在的防控政策,为什么要极大可能的降低人与人的接触,我通过更容易理解的语言,给大家从科学方法,到数学模型,到工具使用,到数据获取,最后结合实际北京的疫情和风控措施进行了整体的报告。

在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/infect

我主要为分5个部分进行介绍:

  1. 传染病模型原理:自由增长模型、SI模型、SIS模型、SIR模型
  2. 用R语言手动实现
  3. 基于EpiModel包的自动化实现
  4. 如何获取新冠数据nCov2019
  5. 北京的数据带入模型预测

在传染病领域,有4种最基本的传染病模型,分别是自由增长模型、SI模型、SIS模型、SIR模型,这4个模型,分别涉及到现实从得病到治愈再到得病等的病人的状态,通过状态转移人数在计算传播效率。这4个模型,都是可以通过微分方程进行求解的,所以我们可以手动撸代码来计算。具体使用可参考:用R语言解读传染病模型

当然在R语言中,传染病领域专家也提供了,专门的工具包来帮助我们解决传染病的计算和模型的问题,这就是EpiModel包。 EpiModel,提供了用于模拟和分析传染病动力学数学模型的工具,支持的流行病模型类包括确定性隔间模型、随机个体接触模型和随机网络模型。疾病类型包括有和没有人口统计的 SI、SIR 和 SIS 流行病,具有可用于扩展的实用程序,以构建和模拟任意复杂性的流行病模型。 网络模型类基于在 R 的 Statnet 软件套件中实现的时间指数随机图模型 (ERGM) 的统计框架。具体使用可参考:专业工具EpiModel解读传染病模型

2. 会议体验和照片分享

本期的中国R会,有很多的主题,涉及到多个专场,包括统计计算专场、社交媒体专场、可视化专场、软件工具专场(二)。、生态环境专场、工业大数据专场、生物统计专场、软件工具专场(三)、医疗卫生与健康专场。

2.1 会议主题

本次我参与的专场是软件工具专场(二),分享嘉宾:张敬信,黄天元,赵妤婕,张丹,古杰娜。

张敬信,R 机器学习:mlr3verse 核心工作流PPT下载

张敬信,博士毕业于哈尔滨工业大学基础数学,现为哈尔滨商业大学数学与应用数学系主任、副教授、应用统计硕导、数学建模主教练;主讲课程:高等数学、实变函数、数学建模、R语言、数据挖掘等。发表SCI论文4篇,主持黑龙江省哲学社科项目1项,省教育厅科技项目1项,参加国家自然科学基金项目2项;出版《R语言编程:基于tidyverse》(人民邮电)、《数学建模:算法与编程实现》(机械工业)。常驻知乎平台,关注7.6万。

报告摘要:

mlr3verse是最新、最先进的 R 机器学习框架,它基于 R6 面向对象语法和 data.table 数据底层,支持搭建”图”流学习器,理念非常先进、功能非常强大。本报告将围绕语法基础、图学习器、集成学习、特征工程、嵌套重抽样、超参数调参、特征选择、模型解释梳理用mlr3verse做机器学习的核心工作流程。

黄天元,R语言高效数据操作工具:tidyfstPPT下载

黄天元,中国科学院文献情报中心特别研究助理,复旦大学理学博士,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,在CRAN维护有tidyfst、tidyft和akc三个R包,著有《R语言数据高效处理指南》、《文本数据挖掘——基于R语言》。知乎专栏:R语言数据挖掘。

报告摘要:

dplyr和data.table是R开源社区优秀的数据操作包,两者可以完成很多类似的数据处理(如筛选、排序、分组汇总等),但是又有不同的特点。dplyr的函数组织形式更加用户友好,而data.table则具有令人惊艳的计算性能。关于如何结合两者之间的特色构造更好的数据操作工具,R社区有很多尝试,而tidyfst包就是其中之一。本报告分享了tidyfst包在开发过程的整个历程,并介绍tidyfst包作为高性能数据操作工具在使用上的便捷性。

赵妤婕,A Metadata Approach for Analysis & Reporting in Clinical Trials

Yujie Zhao (赵妤婕), Ph.D. is a statistician from Merck. Yujie works on the methodology research in clinical trials with a focus on group sequential designs. She also works with a group of statisticians and programmers to demonstrate the capability of using R for data analysis in clinical trials. Yujie has published 5+ first-author papers on statistical computations, statistical process control, and tensor decomposition. Before joining Merck, she earned a Ph.D. degree in Industrial Engineering at Georgia Tech in 2021.

报告摘要:

In clinical trials, there is a growing trend to get reproducible analysis and & reporting. In this presentation, we will present an end-to-end automation framework to construct clinical datasets into metadata. Additionally, we will demonstrate the generation of analysis reports by metadata. A nice feature of this metadata approach is its automation. For example, users can update the analysis by simply updating operations and all deliverables can be automatically updated based on upstream metadata changes. The work is available at https://github.com/Merck/metalite and https://github.com/Merck/metalite.ae.

张丹,用R语言解读传染病模型PPT下载

张丹, R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。10年以上互联网应用架构经验,在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。熟悉数据学科方法论,在海关、外汇等监管科技领域均有落地项目。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,英文版图书被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。

报告摘要

新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的Delta变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的传染病模型,涉及到2个包 EpiModel(数学模型),nCov2019(下载数据和可视化)。

古杰娜,用 dataMojo R 包开发高效数据分析应用,PPT下载

古杰娜,目前在麦肯锡咨询公司担任软件架构师,活跃于开源社区,热衷于用业余时间开发开源软件包。个人网站:https://www.jienamclellan.com/

报告摘要

本报告将介绍近期开发的 dataMojo R 包(https://github.com/jienagu/dataMojo)以及用其开发的语法简洁且高效数据分析应用(https://github.com/jienagu/demo_mojo_app)。dataMojo R 包是基于 data.table 为框架的数据分析扩展包,能够覆盖很多数据处理工作中的场景。本报告将通过一系列实例展示此 R 包的独特优势。

最后总结,经历了3年的疫情,大家似乎都已经习惯了线上的分享和上线的学习,但愿疫情早日结束,让我们恢复原来的工作和生活。感谢组织者,谢益辉,黄湘云,朱薪羽等,辛苦啦!祝整个R会的分享圆满成功。

转载请注明出处:
http://blog.fens.me/meeting-r-20221125/

打赏作者

2022 微软Build After Party:文档革命:用R语言进行可重复性文档编写

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignate-20221112

前言

工作上,我们会有大量的时间要写文档,会有一个人独自完全的文档,也会有多人配合一起完成的文档。有些文档是临时性的,很短很快就写完好,如日报周报等;有些文档就需要花很长时间仔细来写,如图书博客;有些文档需要多人配合来写,而且要非常注意排版等细节问题,如标书;有些文档一套模板,随着时间推移要调整数据输出,每月都要写,如月度报表等。

针对不同类的文档需求,word有时有显得不是那么的方便。Markdown作为可重复性文档的基础,可以编程的方式来编写文档,在多人合作、复杂排版、定时更新等维度上给我以极大的便利,再结合R语言中特征棒的工具支持,让写文档也能自动起来。

目录

  1. 我分享的主题:文档革命:用R语言进行可重复性文档编写
  2. 会议体验和照片分享

1. 我分享的主题:文档革命:用R语言进行可重复性文档编写

Markdown格式文档编写,已经从小众成为了一种主流的文档编写方式。R语言在可重复性文档编写领域中,有着重要的贡献,knitr和rmarkdown等包的支持,让文档编写有了非常舒服的使用体验。

基于rmarkdown的解决方案,不仅可以方便地实现Markdown所有功能,还支持嵌入R代码调用R语言本身计算功能,可嵌入动态表格,echarts图型,laTex数据公式,输出为HTML,WORD, PDF等多种格式。几十行代码,就能方便地实现自动化文档系统。

本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/new_document

我主要为分8个部分进行介绍:

  1. R语言可重复性文档解决方案
  2. 用R语言编写Markdown文档
  3. 嵌入R代码做模型计算和可视化
  4. 复杂数学公式laTex
  5. 动态表格flextable
  6. 动态图echarts4r
  7. 用pandoc输出Word,PDF,HTML
  8. 输出复杂的Word

本次分享的内容角度,先介绍了“可重复性文档”的定义,以「科学复制」为指导原则,科学复制是指在其他数据库上重复使用现有的研究材料,并将其视为稳健性测试或拓展原始研究工作。

详细介绍R语言在文档编写上面的各种支持包和RStudio各种方便的功能设计,包括Markdown文档编辑、数学公式laTex、动态表格flextable,动态图echart4r,输出pandoc,WORD排版officedown、RStudio的IDE工具使用。

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次会议报名页: https://www.huodongxing.com/event/4675047792223

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,刘力科(主持人),张丹,郝冠军。

张丹,文档革命:用R语言进行可重复性文档编写PPT下载视频回看

主题简介:Markdown格式文档编写,已经从小众成为了一种主流的文档编写方式。

R语言在可重复性文档编写领域中,有着重要的贡献,knitr和rmarkdown等包的支持,让文档编写有了非常舒服的使用体验。

基于rmarkdown的解决方案,不仅可以方便地实现Markdown所有功能,还支持嵌入R代码调用R语言本身计算功能,可嵌入动态表格,echarts图型,laTex数据公式,输出为HTML,WORD, PDF等多种格式。几十行代码,就能方便地实现自动化文档系统。

郝冠军,.NET 7 新特性

多年微软最有价值专家,长年奋战在一线的开发者。目前关注于前端和微服务领域。Angular 技术热爱者,《ASP.NET 本质论》作者。

主题简介:在随之而来的下个月,.NET 7 即将正式发布。 我们将介绍 .NET 7 带来的 2 个新特性: 限流和编译优化。

限流是保护服务器资源的一种方式,用来控制对资源的访问,保持服务器的访问流量稳定在安全水平上,避免无法承担的负荷。.NET 7 对限流提供了内置支持。有多种限流方式,.NET 7 中提供了 4 种:1. 并发控制2. 令牌桶限制3. 固定时间窗口限制4. 滑动时间窗口限制。另外,我们还将介绍 .NET 对编译的优化改进。

2.2 相关照片

刘力科,微软MVP,本次主持人。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢MVP项目负责人霸姐的支持。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignate-20221112

打赏作者

2022 微软Build After Party:用R语言解读传染病模型

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-build-20220618

前言

近期疫情的反复不断,让北京和上海2个超大城市也受到疫情影响。居家办公,远程开会,已经成为了生活的常态。在这样的背景下,我学习了一些传染病的知识,理解国家坚持动态清零政策的布局,是非常有必要的。

使用R语言结合传染病领域前辈们的专业经验,可以让我们快速上手跨学科的领域,并模拟疫情传播的场景。通过本次分享让大家能感受到疫情传播的可怕,以及我们需要积极的面对,和科学的预防。

目录

  1. 我分享的主题:用R语言解读传染病模型
  2. 会议体验和照片分享

1. 我分享的主题:用R语言解读传染病模型

本次分享的主题,用R语言解读传染病模型。新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的Delta变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。政府防疫工作的强力介入,隔离和居家已经是常态了,有新闻指出Delta变异株感染1人可传9人。

在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/infect

我主要为分5个部分进行介绍:

  1. 传染病模型原理:自由增长模型、SI模型、SIS模型、SIR模型
  2. 用R语言手动实现
  3. 基于EpiModel包的自动化实现
  4. 如何获取新冠数据
  5. 北京的数据带入模型预测

在传染病领域,有4种最基本的传染病模型,分别是自由增长模型、SI模型、SIS模型、SIR模型,这4个模型,分别涉及到现实从得病到治愈再到得病等的病人的状态,通过状态转移人数在计算传播效率。这4个模型,都是可以通过微分方程进行求解的,所以我们可以手动撸代码来计算。具体使用可参考:用R语言解读传染病模型

当然在R语言中,传染病领域专家也提供了,专门的工具包来帮助我们解决传染病的计算和模型的问题,这就是EpiModel包。 EpiModel,提供了用于模拟和分析传染病动力学数学模型的工具,支持的流行病模型类包括确定性隔间模型、随机个体接触模型和随机网络模型。疾病类型包括有和没有人口统计的 SI、SIR 和 SIS 流行病,具有可用于扩展的实用程序,以构建和模拟任意复杂性的流行病模型。 网络模型类基于在 R 的 Statnet 软件套件中实现的时间指数随机图模型 (ERGM) 的统计框架。具体使用可参考:专业工具EpiModel解读传染病模型

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次会议报名页: https://mp.weixin.qq.com/s/AXbQO718ZwfYhJ–6bGKyA

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,郝冠军,卿毅,张丹。

张丹,用R语言进行量化文本分析,像结构化数据一样来管理文本PPT下载

新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的 Delta 变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。政府防疫工作的强力介入,隔离和居家已经是常态了,有新闻指出 Delta 变异株感染1人可传9人。

在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。

卿毅,Dynamics 365 与 Power Platform 的集成

低代码/零代码是现在企业数字化转型非常重要的一环。在 Microsoft Build 2022 上,微软发布了 Microsoft 智能数据平台,开发者可以通过低代码连接 Microsoft 智能数据平台的上的数据场景 ,低代码/零代码时代不是取代开发人员 ,而是让通过低代码的方式和 Dynamics 365 业务系统一起创建针对混合办公的协作应用。

郝冠军,.NET 与 Visual Studio 的最新更新

来自产品经理和一线开发人员的一手信息。长年奋战在一线的开发者。目前关注于前端和微服务领域。Angular 技术热爱者,《ASP.NET 本质论》作者。

2.2 相关照片

霸姐,微软MVP大中华区项目负责人。

康康,微软MVP项目助理。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢霸姐支持也都辛苦啦。

转载请注明出处:
http://blog.fens.me/meeting-ms-build-20220618

打赏作者

2021 微软Ignite Post Watching Part:用R语言进行量化文本分析

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

前言

疫情反复不断,线下开会越来越难,本次以上线进行分享,参与微软技术直通车。希望疫情早日过去,让大家恢复以往的能见面的交流。

本次的主题是用R语言进行量化文本分析,R语言在被大家广泛的使用,全球社区也在不断的壮大,每天都有好的包被创作出来。本文分析已经是老生长谈的话题,让文本分析过程如结构化数据分析一样的还是比较创新的体验。

目录

  1. 我分享的主题:用R语言进行量化文本分析
  2. 会议体验和照片分享

1. 我分享的主题:用R语言进行量化文本分析

本次分享的主题,是用R语言进行文本分析。在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

R在做数据分析有自己独特的优势,方便、简单、高效。我从2个方面来介绍文本分析,先是jiebaR包进行中文文本分词,然后是quanteda包的进行量化文本分析。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/quanteda

我主要为分2个部分进行介绍:

  1. jiebaR,中文文本分词
  2. quanteda,量化文本分析

jiebaR 结巴分词(jiebaR),是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。结巴分词基于MIT协议,就是免费和开源的,感谢国人作者的给力支持,让R的可以方便的处理中文文本,具体使用可参考:http://blog.fens.me/r-word-jiebar/

quanteda,以一种新的方式用结构化数据的方式来管理文本。提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。具体使用可参考:http://blog.fens.me/r-word-quanteda/

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次活动的官方报名页面:https://www.huodongxing.com/event/2626606217622

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,张丹,谢佳标,郝冠军。

张丹,用R语言进行量化文本分析,像结构化数据一样来管理文本PPT下载
在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

量化文本分析(Quantitative Analysis of Textual Data),一种新的方式,用结构化数据的方式来管理文本。quanteda包,提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。

谢佳标,《Keras深度学习:入门、实战及进阶》PPT下载

Keras是一个对小白用户非常友好而简单的深度学习框架,它是TensorFlow高级集成API,其特点是能够快速实现模型的搭建,是高效地进行科学研究的关键。本主题将介绍如何进行图像及文本数据预处理,并介绍深度学习常用的DNN、CNN、RNN、GAN等模型原理及Keras案例实现。

郝冠军,在 .NET 6 中应用 OpenTelemetryPPT下载

可观察性是微服务化应用的几个核心特性,OpenTelemetry 延续了 OpenTracing 和 OpenCensus 的发展,成为 CNCF 的针对可观察性的新标准。
该分享将首先介绍 OpenTelemetry 的核心概念,微软作为 OpenTelemetry 的核心成员,.NET 平台对于 OpenTelemetry 提供了优异的支持,这里将基于 .NET 6 介绍如何应用 OpenTelemetry 到 .NET 项目中。

2.2 相关照片

张丹, R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。

10年以上互联网应用架构经验,在R、Java、NodeJS、大数据、数据挖掘等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。 熟悉数据学科方法论,在外汇、海关、区块链等领域均有落地的应用。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,英文版图书被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。

谢佳标,数据挖掘专家,资深AI技术专家和数据挖掘专家,拥有超过14年的技术研发和管理经验,在数据挖掘和人工智能领域有非常丰富的积累。连续6年(2017-2022)被微软评为最具价值专家(MVP),中国现场统计研究会大数据统计分会首届理事。

郝冠军,郝冠军 10 年微软最有价值专家,多年耕耘在开发前沿,《ASP.NET 本质论》作者,《精通 ASP.NET Core MVC》译者。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢霸姐支持也都辛苦啦。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

打赏作者

2021 微软 Ignite-聊聊Azure上的AI和Data

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

前言

由于疫情在全球肆虐,原来线下的各种会议都改成了线上的模式,微软一年一度的Ignite大会如期举行。本次大会增加了一个嘉宾脱口秀的环节,由众多的微软MVP组成的嘉宾团,给大家说说微软黑科技。

目录

  1. 圆桌主题:Azure上的AI+机器学习
  2. 会议体验和照片分享

1. 圆桌主题:Azure上的AI+机器学习

我参与的圆桌部分,主题是怎么看微软在人工智能和大数据领域的技术革新。我从最擅长的数据分析进行介绍,针对于Azure上的Data和AI的主题,谈谈微软产品如何带动整个行业的发展。

我从2个方面来介绍微软数据产品线设计。

我主要为分2个部分进行介绍:

  1. Azure上的 AutoML 自动机器学习平台
  2. Azure认知服务体系

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。Azure上是最早推出AutoML的SaaS服务平台之一,现在已经做的非常完善和成熟了。在AutoML的过程中,不仅集成了众多优秀的产品,同时提供了强大的计算能力,和认知服务能力。让小团队可以直接跨过底层的复杂技术架构的搭建过程,从而直接面向应用层去做开发。

Azure上的产品组件:

  • Azure Data Factory,数据工厂被描述为一项数据集成服务。 Azure 数据工厂的用途是从一个或多个数据源中检索数据,并将其转换为你可处理的格式。 数据源可能以不同的方式呈现数据,并且包含需要筛选掉的干扰词。Azure 数据工厂使你可以提取感兴趣的数据,并放弃其余数据。
  • Azure Data Lake Storage, 数据湖是用于存储大量原始数据的存储库。 由于数据原始且未经处理,因此其加载和更新速度非常快,但数据并未采用适合高效分析的结构。
  • Azure Databrick, 是在 Azure 上运行的 Apache Spark 环境,可提供大数据处理、流式传输和机器学习功能。 Apache Spark 是一个高效的数据处理引擎,可以非常快速地使用和处理大量数据。
  • Azure Synapse Analytics, 是一个分析引擎,基于数据仓库的分析服务
  • Cosmos DB,是完全托管的NoSQL数据库服务。


在Azure上,我们不担心产品试用过程中的复杂度,因为通过“服务编排”的方式,建立Pipeline流程,用拖拽就可以完成复杂的产品对接的,和数据流控制,数据处理过程。Azure把流程进行了标准化的定义,产品可以自由组装,数据流关系可以进行服务编排,通过服务接口进行调用,形成了 AutoML 完成的数据产品闭环。


认知服务几乎覆盖了完整的深度学习的应用领域,同样我们可以通过服务接口的方式,调用这个认知服务,而不只自己在重新搭建底层平台。

  • 影像:人脸,图像提取文本,图像分类准确识别画作,视频索引
  • 语音: 文字转语音,语音转文字,语音翻译
  • 语言:文字翻译,语言理解(LUIS),情绪分析
  • 知识:异常检测器,个性化推荐,内容审查
  • 搜索:bing

你可以直接使用由微软提供的,已训练好的通用模型,也可以根据自己的数据训练出符合自己业务场景的个性化模型。总之,既可以通用又可以专业,使用起来非常方便,可以大大解放人的工作,从而实现AI驱动。

2. 会议体验和照片分享

Micosoft Ignite 全球直播又来啦,本次大会的官方页面:https://ignitechina.microsoft.com/index.html, 微信公众号地址:https://mp.weixin.qq.com/s/utnigc2fIeCkZbfkPijHLQ

2.1 会议主题

MVP嘉宾代表团:分了五组进行对微软生态进行介绍。

2.2 相关照片

圆桌对话:我在北京主会场和主持人:杨娜,另外三个嘉宾在上海会场:王公子,彭爱华老师,胡浩。

在各种设备中看直播。

刘亮和杨威,低代码开发。

朱一婷,在做 Micriosoft Mesh 技术分享,混合现实领域。

负责专业录制节目的工作人员。

最后,整个分享结束,现场工人人员和各位嘉宾都辛苦啦。

微软在越来越放开,融合各种技术,并且自己也在支持多种技术的融合和创新。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

打赏作者