跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。
关于作者
- 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
- blog: http://fens.me
- email: bsspirit@gmail.com
转载请注明出处:
http://blog.fens.me/meeting-r-20221125/
前言
中国R会今年已经是第15届,一直能坚持,一会有大学、公司、社区、老师、学生、外部人员的很多人支持,是非常不容易的。我从R的学习者到长期使用者,参加了多期R会,也做了多期的分享,希望R会一直坚持,在中国大力推广R语言的发展。我也会一直为R语言的技术发展,贡献我自己的知识和力量。
使用R语言结合传染病领域前辈们的专业经验,可以让我们快速上手跨学科的领域,并模拟疫情传播的场景。通过本次分享让大家能感受到疫情传播的可怕,以及我们需要积极的面对,和科学的预防。
目录
- 我分享的主题:用R语言解读传染病模型
- 会议体验和照片分享
1. 我分享的主题:用R语言解读传染病模型
疫情直接影响到了我们的生活,现在又是北京疫情快速传播,我们居家办公,对传染病的学科专业理解,会帮助我们理解北京现在的防控政策,为什么要极大可能的降低人与人的接触,我通过更容易理解的语言,给大家从科学方法,到数学模型,到工具使用,到数据获取,最后结合实际北京的疫情和风控措施进行了整体的报告。
在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/infect。
我主要为分5个部分进行介绍:
- 传染病模型原理:自由增长模型、SI模型、SIS模型、SIR模型
- 用R语言手动实现
- 基于EpiModel包的自动化实现
- 如何获取新冠数据nCov2019
- 北京的数据带入模型预测
在传染病领域,有4种最基本的传染病模型,分别是自由增长模型、SI模型、SIS模型、SIR模型,这4个模型,分别涉及到现实从得病到治愈再到得病等的病人的状态,通过状态转移人数在计算传播效率。这4个模型,都是可以通过微分方程进行求解的,所以我们可以手动撸代码来计算。具体使用可参考:用R语言解读传染病模型 。
当然在R语言中,传染病领域专家也提供了,专门的工具包来帮助我们解决传染病的计算和模型的问题,这就是EpiModel包。 EpiModel,提供了用于模拟和分析传染病动力学数学模型的工具,支持的流行病模型类包括确定性隔间模型、随机个体接触模型和随机网络模型。疾病类型包括有和没有人口统计的 SI、SIR 和 SIS 流行病,具有可用于扩展的实用程序,以构建和模拟任意复杂性的流行病模型。 网络模型类基于在 R 的 Statnet 软件套件中实现的时间指数随机图模型 (ERGM) 的统计框架。具体使用可参考:专业工具EpiModel解读传染病模型 。
2. 会议体验和照片分享
本期的中国R会,有很多的主题,涉及到多个专场,包括统计计算专场、社交媒体专场、可视化专场、软件工具专场(二)。、生态环境专场、工业大数据专场、生物统计专场、软件工具专场(三)、医疗卫生与健康专场。
2.1 会议主题
本次我参与的专场是软件工具专场(二),分享嘉宾:张敬信,黄天元,赵妤婕,张丹,古杰娜。
张敬信,R 机器学习:mlr3verse 核心工作流,PPT下载
张敬信,博士毕业于哈尔滨工业大学基础数学,现为哈尔滨商业大学数学与应用数学系主任、副教授、应用统计硕导、数学建模主教练;主讲课程:高等数学、实变函数、数学建模、R语言、数据挖掘等。发表SCI论文4篇,主持黑龙江省哲学社科项目1项,省教育厅科技项目1项,参加国家自然科学基金项目2项;出版《R语言编程:基于tidyverse》(人民邮电)、《数学建模:算法与编程实现》(机械工业)。常驻知乎平台,关注7.6万。
报告摘要:
mlr3verse是最新、最先进的 R 机器学习框架,它基于 R6 面向对象语法和 data.table 数据底层,支持搭建”图”流学习器,理念非常先进、功能非常强大。本报告将围绕语法基础、图学习器、集成学习、特征工程、嵌套重抽样、超参数调参、特征选择、模型解释梳理用mlr3verse做机器学习的核心工作流程。
黄天元,R语言高效数据操作工具:tidyfst,PPT下载
黄天元,中国科学院文献情报中心特别研究助理,复旦大学理学博士,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,在CRAN维护有tidyfst、tidyft和akc三个R包,著有《R语言数据高效处理指南》、《文本数据挖掘——基于R语言》。知乎专栏:R语言数据挖掘。
报告摘要:
dplyr和data.table是R开源社区优秀的数据操作包,两者可以完成很多类似的数据处理(如筛选、排序、分组汇总等),但是又有不同的特点。dplyr的函数组织形式更加用户友好,而data.table则具有令人惊艳的计算性能。关于如何结合两者之间的特色构造更好的数据操作工具,R社区有很多尝试,而tidyfst包就是其中之一。本报告分享了tidyfst包在开发过程的整个历程,并介绍tidyfst包作为高性能数据操作工具在使用上的便捷性。
赵妤婕,A Metadata Approach for Analysis & Reporting in Clinical Trials
Yujie Zhao (赵妤婕), Ph.D. is a statistician from Merck. Yujie works on the methodology research in clinical trials with a focus on group sequential designs. She also works with a group of statisticians and programmers to demonstrate the capability of using R for data analysis in clinical trials. Yujie has published 5+ first-author papers on statistical computations, statistical process control, and tensor decomposition. Before joining Merck, she earned a Ph.D. degree in Industrial Engineering at Georgia Tech in 2021.
报告摘要:
In clinical trials, there is a growing trend to get reproducible analysis and & reporting. In this presentation, we will present an end-to-end automation framework to construct clinical datasets into metadata. Additionally, we will demonstrate the generation of analysis reports by metadata. A nice feature of this metadata approach is its automation. For example, users can update the analysis by simply updating operations and all deliverables can be automatically updated based on upstream metadata changes. The work is available at https://github.com/Merck/metalite and https://github.com/Merck/metalite.ae.
张丹,用R语言解读传染病模型,PPT下载。
张丹, R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。10年以上互联网应用架构经验,在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。熟悉数据学科方法论,在海关、外汇等监管科技领域均有落地项目。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,英文版图书被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。
报告摘要
新冠疫情几次变异,极大地影响着我们的正常生活和工作。特别是2022年2月以来的Delta变异株感染,在上海和北京这种人口超大型城市中,有着超强的传染力。在流行病学领域,有几种不同传染病的传播模型,可以模拟病毒的传播过程。本次分享将使用R语言,来给大家演示病毒传播的过程。了解了病毒传播的逻辑,能让我们更加坚定战胜病毒的决心。本次分享的传染病模型,涉及到2个包 EpiModel(数学模型),nCov2019(下载数据和可视化)。
古杰娜,用 dataMojo R 包开发高效数据分析应用,PPT下载
古杰娜,目前在麦肯锡咨询公司担任软件架构师,活跃于开源社区,热衷于用业余时间开发开源软件包。个人网站:https://www.jienamclellan.com/
报告摘要
本报告将介绍近期开发的 dataMojo R 包(https://github.com/jienagu/dataMojo)以及用其开发的语法简洁且高效数据分析应用(https://github.com/jienagu/demo_mojo_app)。dataMojo R 包是基于 data.table 为框架的数据分析扩展包,能够覆盖很多数据处理工作中的场景。本报告将通过一系列实例展示此 R 包的独特优势。
最后总结,经历了3年的疫情,大家似乎都已经习惯了线上的分享和上线的学习,但愿疫情早日结束,让我们恢复原来的工作和生活。感谢组织者,谢益辉,黄湘云,朱薪羽等,辛苦啦!祝整个R会的分享圆满成功。