• Archive by category "活动聚会"

Blog Archives

2022 微软Build After Party:用R语言解读传染病模型

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-build-20220618

前言

近期疫情的反复不断,让北京和上海2个超大城市也受到疫情影响。居家办公,远程开会,已经成为了生活的常态。在这样的背景下,我学习了一些传染病的知识,理解国家坚持动态清零政策的布局,是非常有必要的。

使用R语言结合传染病领域前辈们的专业经验,可以让我们快速上手跨学科的领域,并模拟疫情传播的场景。通过本次分享让大家能感受到疫情传播的可怕,以及我们需要积极的面对,和科学的预防。

目录

  1. 我分享的主题:用R语言解读传染病模型
  2. 会议体验和照片分享

1. 我分享的主题:用R语言解读传染病模型

本次分享的主题,用R语言解读传染病模型。新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的Delta变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。政府防疫工作的强力介入,隔离和居家已经是常态了,有新闻指出Delta变异株感染1人可传9人。

在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/infect

我主要为分5个部分进行介绍:

  1. 传染病模型原理:自由增长模型、SI模型、SIS模型、SIR模型
  2. 用R语言手动实现
  3. 基于EpiModel包的自动化实现
  4. 如何获取新冠数据
  5. 北京的数据带入模型预测

在传染病领域,有4种最基本的传染病模型,分别是自由增长模型、SI模型、SIS模型、SIR模型,这4个模型,分别涉及到现实从得病到治愈再到得病等的病人的状态,通过状态转移人数在计算传播效率。这4个模型,都是可以通过微分方程进行求解的,所以我们可以手动撸代码来计算。具体使用可参考:用R语言解读传染病模型

当然在R语言中,传染病领域专家也提供了,专门的工具包来帮助我们解决传染病的计算和模型的问题,这就是EpiModel包。 EpiModel,提供了用于模拟和分析传染病动力学数学模型的工具,支持的流行病模型类包括确定性隔间模型、随机个体接触模型和随机网络模型。疾病类型包括有和没有人口统计的 SI、SIR 和 SIS 流行病,具有可用于扩展的实用程序,以构建和模拟任意复杂性的流行病模型。 网络模型类基于在 R 的 Statnet 软件套件中实现的时间指数随机图模型 (ERGM) 的统计框架。具体使用可参考:专业工具EpiModel解读传染病模型

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次会议报名页: https://mp.weixin.qq.com/s/AXbQO718ZwfYhJ–6bGKyA

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,郝冠军,卿毅,张丹。

张丹,用R语言进行量化文本分析,像结构化数据一样来管理文本PPT下载

新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的 Delta 变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。政府防疫工作的强力介入,隔离和居家已经是常态了,有新闻指出 Delta 变异株感染1人可传9人。

在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。

卿毅,Dynamics 365 与 Power Platform 的集成

低代码/零代码是现在企业数字化转型非常重要的一环。在 Microsoft Build 2022 上,微软发布了 Microsoft 智能数据平台,开发者可以通过低代码连接 Microsoft 智能数据平台的上的数据场景 ,低代码/零代码时代不是取代开发人员 ,而是让通过低代码的方式和 Dynamics 365 业务系统一起创建针对混合办公的协作应用。

郝冠军,.NET 与 Visual Studio 的最新更新

来自产品经理和一线开发人员的一手信息。长年奋战在一线的开发者。目前关注于前端和微服务领域。Angular 技术热爱者,《ASP.NET 本质论》作者。

2.2 相关照片

霸姐,微软MVP大中华区项目负责人。

康康,微软MVP项目助理。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢霸姐支持也都辛苦啦。

转载请注明出处:
http://blog.fens.me/meeting-ms-build-20220618

打赏作者

2021 微软Ignite Post Watching Part:用R语言进行量化文本分析

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

前言

疫情反复不断,线下开会越来越难,本次以上线进行分享,参与微软技术直通车。希望疫情早日过去,让大家恢复以往的能见面的交流。

本次的主题是用R语言进行量化文本分析,R语言在被大家广泛的使用,全球社区也在不断的壮大,每天都有好的包被创作出来。本文分析已经是老生长谈的话题,让文本分析过程如结构化数据分析一样的还是比较创新的体验。

目录

  1. 我分享的主题:用R语言进行量化文本分析
  2. 会议体验和照片分享

1. 我分享的主题:用R语言进行量化文本分析

本次分享的主题,是用R语言进行文本分析。在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

R在做数据分析有自己独特的优势,方便、简单、高效。我从2个方面来介绍文本分析,先是jiebaR包进行中文文本分词,然后是quanteda包的进行量化文本分析。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/quanteda

我主要为分2个部分进行介绍:

  1. jiebaR,中文文本分词
  2. quanteda,量化文本分析

jiebaR 结巴分词(jiebaR),是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。结巴分词基于MIT协议,就是免费和开源的,感谢国人作者的给力支持,让R的可以方便的处理中文文本,具体使用可参考:http://blog.fens.me/r-word-jiebar/

quanteda,以一种新的方式用结构化数据的方式来管理文本。提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。具体使用可参考:http://blog.fens.me/r-word-quanteda/

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次活动的官方报名页面:https://www.huodongxing.com/event/2626606217622

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,张丹,谢佳标,郝冠军。

张丹,用R语言进行量化文本分析,像结构化数据一样来管理文本PPT下载
在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

量化文本分析(Quantitative Analysis of Textual Data),一种新的方式,用结构化数据的方式来管理文本。quanteda包,提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。

谢佳标,《Keras深度学习:入门、实战及进阶》PPT下载

Keras是一个对小白用户非常友好而简单的深度学习框架,它是TensorFlow高级集成API,其特点是能够快速实现模型的搭建,是高效地进行科学研究的关键。本主题将介绍如何进行图像及文本数据预处理,并介绍深度学习常用的DNN、CNN、RNN、GAN等模型原理及Keras案例实现。

郝冠军,在 .NET 6 中应用 OpenTelemetryPPT下载

可观察性是微服务化应用的几个核心特性,OpenTelemetry 延续了 OpenTracing 和 OpenCensus 的发展,成为 CNCF 的针对可观察性的新标准。
该分享将首先介绍 OpenTelemetry 的核心概念,微软作为 OpenTelemetry 的核心成员,.NET 平台对于 OpenTelemetry 提供了优异的支持,这里将基于 .NET 6 介绍如何应用 OpenTelemetry 到 .NET 项目中。

2.2 相关照片

张丹, R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。

10年以上互联网应用架构经验,在R、Java、NodeJS、大数据、数据挖掘等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。 熟悉数据学科方法论,在外汇、海关、区块链等领域均有落地的应用。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,英文版图书被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。

谢佳标,数据挖掘专家,资深AI技术专家和数据挖掘专家,拥有超过14年的技术研发和管理经验,在数据挖掘和人工智能领域有非常丰富的积累。连续6年(2017-2022)被微软评为最具价值专家(MVP),中国现场统计研究会大数据统计分会首届理事。

郝冠军,郝冠军 10 年微软最有价值专家,多年耕耘在开发前沿,《ASP.NET 本质论》作者,《精通 ASP.NET Core MVC》译者。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢霸姐支持也都辛苦啦。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

打赏作者

2021 微软 Ignite-聊聊Azure上的AI和Data

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

前言

由于疫情在全球肆虐,原来线下的各种会议都改成了线上的模式,微软一年一度的Ignite大会如期举行。本次大会增加了一个嘉宾脱口秀的环节,由众多的微软MVP组成的嘉宾团,给大家说说微软黑科技。

目录

  1. 圆桌主题:Azure上的AI+机器学习
  2. 会议体验和照片分享

1. 圆桌主题:Azure上的AI+机器学习

我参与的圆桌部分,主题是怎么看微软在人工智能和大数据领域的技术革新。我从最擅长的数据分析进行介绍,针对于Azure上的Data和AI的主题,谈谈微软产品如何带动整个行业的发展。

我从2个方面来介绍微软数据产品线设计。

我主要为分2个部分进行介绍:

  1. Azure上的 AutoML 自动机器学习平台
  2. Azure认知服务体系

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。Azure上是最早推出AutoML的SaaS服务平台之一,现在已经做的非常完善和成熟了。在AutoML的过程中,不仅集成了众多优秀的产品,同时提供了强大的计算能力,和认知服务能力。让小团队可以直接跨过底层的复杂技术架构的搭建过程,从而直接面向应用层去做开发。

Azure上的产品组件:

  • Azure Data Factory,数据工厂被描述为一项数据集成服务。 Azure 数据工厂的用途是从一个或多个数据源中检索数据,并将其转换为你可处理的格式。 数据源可能以不同的方式呈现数据,并且包含需要筛选掉的干扰词。Azure 数据工厂使你可以提取感兴趣的数据,并放弃其余数据。
  • Azure Data Lake Storage, 数据湖是用于存储大量原始数据的存储库。 由于数据原始且未经处理,因此其加载和更新速度非常快,但数据并未采用适合高效分析的结构。
  • Azure Databrick, 是在 Azure 上运行的 Apache Spark 环境,可提供大数据处理、流式传输和机器学习功能。 Apache Spark 是一个高效的数据处理引擎,可以非常快速地使用和处理大量数据。
  • Azure Synapse Analytics, 是一个分析引擎,基于数据仓库的分析服务
  • Cosmos DB,是完全托管的NoSQL数据库服务。


在Azure上,我们不担心产品试用过程中的复杂度,因为通过“服务编排”的方式,建立Pipeline流程,用拖拽就可以完成复杂的产品对接的,和数据流控制,数据处理过程。Azure把流程进行了标准化的定义,产品可以自由组装,数据流关系可以进行服务编排,通过服务接口进行调用,形成了 AutoML 完成的数据产品闭环。


认知服务几乎覆盖了完整的深度学习的应用领域,同样我们可以通过服务接口的方式,调用这个认知服务,而不只自己在重新搭建底层平台。

  • 影像:人脸,图像提取文本,图像分类准确识别画作,视频索引
  • 语音: 文字转语音,语音转文字,语音翻译
  • 语言:文字翻译,语言理解(LUIS),情绪分析
  • 知识:异常检测器,个性化推荐,内容审查
  • 搜索:bing

你可以直接使用由微软提供的,已训练好的通用模型,也可以根据自己的数据训练出符合自己业务场景的个性化模型。总之,既可以通用又可以专业,使用起来非常方便,可以大大解放人的工作,从而实现AI驱动。

2. 会议体验和照片分享

Micosoft Ignite 全球直播又来啦,本次大会的官方页面:https://ignitechina.microsoft.com/index.html, 微信公众号地址:https://mp.weixin.qq.com/s/utnigc2fIeCkZbfkPijHLQ

2.1 会议主题

MVP嘉宾代表团:分了五组进行对微软生态进行介绍。

2.2 相关照片

圆桌对话:我在北京主会场和主持人:杨娜,另外三个嘉宾在上海会场:王公子,彭爱华老师,胡浩。

在各种设备中看直播。

刘亮和杨威,低代码开发。

朱一婷,在做 Micriosoft Mesh 技术分享,混合现实领域。

负责专业录制节目的工作人员。

最后,整个分享结束,现场工人人员和各位嘉宾都辛苦啦。

微软在越来越放开,融合各种技术,并且自己也在支持多种技术的融合和创新。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

打赏作者

2020微软Virtual Azure Community Day-异常检测算法

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-virtual-community-day-20201203

前言

由于疫情在全球肆虐,原来线下的各种会议都改成了线上的模式。微软及时做了线上的分享的调整,这次有幸参加微软的Virtual Community Day,做一次数据分析的主题演讲。除了我的分享,其他人都是.Net和Azure的主题,希望听众能接受这种跨领域的内容。

目录

  1. 我分享的主题:异常检测算法-自动发现数据中的异常值
  2. 会议体验和照片分享

1. 我分享的主题:异常检测算法-自动发现数据中的异常值

在处理时间序列数据时,经常会观测数据中有一个或几个数值与其他数值相比差异较大,或者在周期型的数据中出现了与周期性不相符的数据分布。通过异常检测算法,可以对不匹配预期的模式或异常数据进行识别,自动发现数据中的离群值、噪声值、偏差值等。

我分享主题:数据分析领域正在发生的变革

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。异常检测就是一种常见的,而且落地的一个AI的应用场景。本次我的分享也是从4个方面进行介绍,本次分享的PPT下载

我主要为分四个部分进行介绍:

  • 什么是异常检测?
  • 异常检测算法介绍
  • R语言算法实现
  • 现实场景应用

异常检测(Anomaly detection)是目前时序数据分析最成熟的应用之一,从正常的时间序列中识别不正常的事件或行为的过程。

常见的应用场景包括

  • 金融领域:从金融数据中识别”欺诈案例“,如识别信用卡申请欺诈、虚假信贷等;
  • 网络安全:从流量数据中找出”入侵者“,并识别新的网络入侵模式;
  • 电商领域:从交易数据中识别”恶意买家“,如羊毛党、恶意刷屏团伙;
  • 生态灾难预警:基于对风速、降雨量、气温等指标的预测,判断未来可能出现的极端天气;
  • 工业界:可通过异常检测手段进行工业产品的瑕疵检测,代替人眼进行测量和判断。

举例说明一下,下图就是一组时间序列数据,这些数据有趋势型的、周期型的、平稳型型的,蓝色的线是正常的数据,红色的点代表异常的数据。

  • 左上1图是趋势型的,红色的点,在数据趋势变动的过程中,出现了一种凸起。
  • 左下1图是平稳型的,红色的点,在数据点突然的变大,导致数据不平稳了。
  • 左下2图是周期型的,红色的点,出现的位置都是反周期的,导致数据局部反周期的异常。

这些数据异常的情况,在我们的现实生活中会经常的发生,通过算法来自动识别这样的异常,就可以大大解放人的工作,从而实现AI驱动。

2. 会议体验和照片分享

Virtual Azure Community Day全球直播又来啦,本次大会的官方页面:https://azureday.community/, 微信公众号地址:https://mp.weixin.qq.com/s/L2xDf1JIZsHYwJyEZ0wejA

2.1 会议主题

会议主题:从10:00开始 到 17:15,连续不间断。

2.2 相关照片

我在进行分享时候的屏幕截图,CSDN直播 热度1w 不知道是一个什么水平。

最后,整个分享结束,各位嘉宾都辛苦啦。

微软在越来越放开,融合各种技术,并且自己也在支持多种技术的融合和创新。同时,R语言做为数据分析的主要语言,一定会在各个领域中大有可为。

最后打个小广告:公司招聘!

转载请注明出处:
http://blog.fens.me/meeting-ms-virtual-community-day-20201203

打赏作者

2020人民邮电出版社金融科技选题研讨会-数据分析领域正在发生的变革

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ptpress-20200926

前言

金融科技是技术驱动的金融创新,在新一轮科技革命和产业革命的背景下,金融业务与科技深度融合,传统金融的边界不断被打破和重塑。在金融科技的大背景下,人工智能、大数据、云计算、区块链等技术成为重要的引擎与支撑,逐步推动金融的科技化演进,为金融业的发展带来了全新的思路和契机。

本次研讨会人民邮电出版社组织,以技术赋能金融科技为题,探讨数据方向和人才市场等方面,与各领域专家进行交流。

目录

  1. 我分享的主题:数据分析领域正在发生的变革
  2. 会议体验和照片分享

1. 我分享的主题:数据分析领域正在发生的变革

不知不觉中,从量化投资领域转到数据分析领域已有3年多了,从早期开始进入,看到了新型领域正在兴起,而且热度越来越高,开始被更多人所关注。目前数据分析领域正在发生的变革,还是尝试性的变革,估计再有几年,会形成根本性的变革。

出版社给出一个研讨方向,“结合您所在的领域,谈谈人工智能、大数据、云计算、区块链等技术的发展和落地情况,展望技术趋势和应用前景,帮助出版社提升策划的前瞻性。”我结合自己的实践经历,做了内容的准备。

我分享主题:数据分析领域正在发生的变革

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。这种变革是逐步的,从思维的变革,到技术的变革,再到能力的变革。本次我的分享也是从这3个方面,结合本次会议的主题进行的展开,本次分享的PPT下载

我主要为分三个部分进行介绍:

  • 思维的变革
  • 技术的变革
  • 能力的变革

当数据有价值这件事情,已经被认识后,那么接下来的核心问题就是如何发现数据价值,如何给数据进行定价。要发现数据价值,并不是一蹴而就的事情,是需要一种新的方法,同时配合工程实践进行落地的。

在金融科技领域,IT技术的创新和数据分析的方法引入,为金融业务赋予了巨大的能量,不论是信用风险度量,还是量化投资,都已经打破了原来行业的知识壁垒,形成了完善技术体系框架,相信在未来的各个领域,都会有成熟的技术框架出现,并不断强化科技对金融的赋能作用。

我理解的一本好的图书:

  1. 解决认知的误区,分辨好坏。
  2. 教知识而不是讲故事,知识很难,但人很浮躁,
  3. 正确的方法,理论结合实际能落地,忌纸上谈兵。

在金融科技领域有大把的机会,希望能有越来越多的好书由原创作者完成,提升我们的科技人才培养水平。

2. 会议体验和照片分享

现在是一个知识爆炸的时代,我们可以通过互联网学到各种知识,了解各种思维。出版社,也在引领知识的进步,非常好的时代,将造就不一样的我们。

本次会议是闭门会议,由人民邮电出版社的主编和6位嘉宾出席,共同就知识和方向进行探讨。

2.1 会议体验证和总结

本次闭门会议目标很明确,就确定金融科技的选题方向,各位专家各抒己见,介绍在各自领域的经验,对行业进行透彻梳理,起了非常好的效果。

参会的专家,出版社的工作领导,和工作人员。

专家聘书

2.2 相关照片

胡俊英,人民邮电出版社,介绍人民邮电出版社发展历史和本次交流主题。

张丹,青萌数海CTO,介绍数据分析领域正在发生的变革。

孙慧平,软件与微电子学教授,从教学的角度介绍了,信用评分现状:技术、人才和图书。

何阳,信通院,介绍了金融科技生态,宏观趋势解读。

王连诚,民生银行,介绍区块链技术和应用场景。又遇到了前同事,民生的人才真是遍地开花。

谢锦斌,分享Filecoin可信区块链存储。

姚凯,分享Credam产品的基于问卷的众包分析过程。

本次的交流我来说,也是一个学习的过程,感谢人民邮电出版社领导的邀请。

在金融科技领域有大把的机会,希望能有越来越多的好书由原创作者完成,提升我们国家的科技人才培养水平。

转载请注明出处:
http://blog.fens.me/meeting-ptpress-20200926

打赏作者