• Posts tagged "Ignite"

Blog Archives

2021 微软Ignite Post Watching Part:用R语言进行量化文本分析

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

前言

疫情反复不断,线下开会越来越难,本次以上线进行分享,参与微软技术直通车。希望疫情早日过去,让大家恢复以往的能见面的交流。

本次的主题是用R语言进行量化文本分析,R语言在被大家广泛的使用,全球社区也在不断的壮大,每天都有好的包被创作出来。本文分析已经是老生长谈的话题,让文本分析过程如结构化数据分析一样的还是比较创新的体验。

目录

  1. 我分享的主题:用R语言进行量化文本分析
  2. 会议体验和照片分享

1. 我分享的主题:用R语言进行量化文本分析

本次分享的主题,是用R语言进行文本分析。在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

R在做数据分析有自己独特的优势,方便、简单、高效。我从2个方面来介绍文本分析,先是jiebaR包进行中文文本分词,然后是quanteda包的进行量化文本分析。本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/quanteda

我主要为分2个部分进行介绍:

  1. jiebaR,中文文本分词
  2. quanteda,量化文本分析

jiebaR 结巴分词(jiebaR),是一款高效的R语言中文分词包,底层使用的是C++,通过Rcpp进行调用很高效。结巴分词基于MIT协议,就是免费和开源的,感谢国人作者的给力支持,让R的可以方便的处理中文文本,具体使用可参考:http://blog.fens.me/r-word-jiebar/

quanteda,以一种新的方式用结构化数据的方式来管理文本。提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。具体使用可参考:http://blog.fens.me/r-word-quanteda/

2. 会议体验和照片分享

本次活动是微软直通车的活动,主要由微软MVP给大家进行一些技术分享,我们不讲虚的都是干活,边讲PPT,边撸代码。

本次活动的官方报名页面:https://www.huodongxing.com/event/2626606217622

2.1 会议主题

MVP嘉宾代表团:由 3位MVP组成,张丹,谢佳标,郝冠军。

张丹,用R语言进行量化文本分析,像结构化数据一样来管理文本PPT下载
在互联网的今天,我们每天都会生产和消费大量的文本信息,如报告、文档、新闻、聊天、图书、小说、语音转化的文字等。海量的文本信息,不仅提供扩宽的研究对象和研究领域,也为商业使用带来了巨大的机会。

量化文本分析(Quantitative Analysis of Textual Data),一种新的方式,用结构化数据的方式来管理文本。quanteda包,提出以语料库的形式管理文本,语料库被定义为文本的集合,其中包括特定每个文本的文档级变量,和整个集合的元数据。用户可以轻松地按单词、段落、句子甚至用户提供的分隔符分割文本和标签,按文档级变量将它们分组为更大的文档,形成基于逻辑条件的变量组合。

谢佳标,《Keras深度学习:入门、实战及进阶》PPT下载

Keras是一个对小白用户非常友好而简单的深度学习框架,它是TensorFlow高级集成API,其特点是能够快速实现模型的搭建,是高效地进行科学研究的关键。本主题将介绍如何进行图像及文本数据预处理,并介绍深度学习常用的DNN、CNN、RNN、GAN等模型原理及Keras案例实现。

郝冠军,在 .NET 6 中应用 OpenTelemetryPPT下载

可观察性是微服务化应用的几个核心特性,OpenTelemetry 延续了 OpenTracing 和 OpenCensus 的发展,成为 CNCF 的针对可观察性的新标准。
该分享将首先介绍 OpenTelemetry 的核心概念,微软作为 OpenTelemetry 的核心成员,.NET 平台对于 OpenTelemetry 提供了优异的支持,这里将基于 .NET 6 介绍如何应用 OpenTelemetry 到 .NET 项目中。

2.2 相关照片

张丹, R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。

10年以上互联网应用架构经验,在R、Java、NodeJS、大数据、数据挖掘等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。 熟悉数据学科方法论,在外汇、海关、区块链等领域均有落地的应用。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,英文版图书被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。

谢佳标,数据挖掘专家,资深AI技术专家和数据挖掘专家,拥有超过14年的技术研发和管理经验,在数据挖掘和人工智能领域有非常丰富的积累。连续6年(2017-2022)被微软评为最具价值专家(MVP),中国现场统计研究会大数据统计分会首届理事。

郝冠军,郝冠军 10 年微软最有价值专家,多年耕耘在开发前沿,《ASP.NET 本质论》作者,《精通 ASP.NET Core MVC》译者。

感觉线上的分享还是没有线下分享体验好,似乎少一些沟通的氛围。最后,整个分享结束,感谢组织者刘力科,感谢霸姐支持也都辛苦啦。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20211214

打赏作者

2021 微软 Ignite-聊聊Azure上的AI和Data

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

前言

由于疫情在全球肆虐,原来线下的各种会议都改成了线上的模式,微软一年一度的Ignite大会如期举行。本次大会增加了一个嘉宾脱口秀的环节,由众多的微软MVP组成的嘉宾团,给大家说说微软黑科技。

目录

  1. 圆桌主题:Azure上的AI+机器学习
  2. 会议体验和照片分享

1. 圆桌主题:Azure上的AI+机器学习

我参与的圆桌部分,主题是怎么看微软在人工智能和大数据领域的技术革新。我从最擅长的数据分析进行介绍,针对于Azure上的Data和AI的主题,谈谈微软产品如何带动整个行业的发展。

我从2个方面来介绍微软数据产品线设计。

我主要为分2个部分进行介绍:

  1. Azure上的 AutoML 自动机器学习平台
  2. Azure认知服务体系

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。Azure上是最早推出AutoML的SaaS服务平台之一,现在已经做的非常完善和成熟了。在AutoML的过程中,不仅集成了众多优秀的产品,同时提供了强大的计算能力,和认知服务能力。让小团队可以直接跨过底层的复杂技术架构的搭建过程,从而直接面向应用层去做开发。

Azure上的产品组件:

  • Azure Data Factory,数据工厂被描述为一项数据集成服务。 Azure 数据工厂的用途是从一个或多个数据源中检索数据,并将其转换为你可处理的格式。 数据源可能以不同的方式呈现数据,并且包含需要筛选掉的干扰词。Azure 数据工厂使你可以提取感兴趣的数据,并放弃其余数据。
  • Azure Data Lake Storage, 数据湖是用于存储大量原始数据的存储库。 由于数据原始且未经处理,因此其加载和更新速度非常快,但数据并未采用适合高效分析的结构。
  • Azure Databrick, 是在 Azure 上运行的 Apache Spark 环境,可提供大数据处理、流式传输和机器学习功能。 Apache Spark 是一个高效的数据处理引擎,可以非常快速地使用和处理大量数据。
  • Azure Synapse Analytics, 是一个分析引擎,基于数据仓库的分析服务
  • Cosmos DB,是完全托管的NoSQL数据库服务。


在Azure上,我们不担心产品试用过程中的复杂度,因为通过“服务编排”的方式,建立Pipeline流程,用拖拽就可以完成复杂的产品对接的,和数据流控制,数据处理过程。Azure把流程进行了标准化的定义,产品可以自由组装,数据流关系可以进行服务编排,通过服务接口进行调用,形成了 AutoML 完成的数据产品闭环。


认知服务几乎覆盖了完整的深度学习的应用领域,同样我们可以通过服务接口的方式,调用这个认知服务,而不只自己在重新搭建底层平台。

  • 影像:人脸,图像提取文本,图像分类准确识别画作,视频索引
  • 语音: 文字转语音,语音转文字,语音翻译
  • 语言:文字翻译,语言理解(LUIS),情绪分析
  • 知识:异常检测器,个性化推荐,内容审查
  • 搜索:bing

你可以直接使用由微软提供的,已训练好的通用模型,也可以根据自己的数据训练出符合自己业务场景的个性化模型。总之,既可以通用又可以专业,使用起来非常方便,可以大大解放人的工作,从而实现AI驱动。

2. 会议体验和照片分享

Micosoft Ignite 全球直播又来啦,本次大会的官方页面:https://ignitechina.microsoft.com/index.html, 微信公众号地址:https://mp.weixin.qq.com/s/utnigc2fIeCkZbfkPijHLQ

2.1 会议主题

MVP嘉宾代表团:分了五组进行对微软生态进行介绍。

2.2 相关照片

圆桌对话:我在北京主会场和主持人:杨娜,另外三个嘉宾在上海会场:王公子,彭爱华老师,胡浩。

在各种设备中看直播。

刘亮和杨威,低代码开发。

朱一婷,在做 Micriosoft Mesh 技术分享,混合现实领域。

负责专业录制节目的工作人员。

最后,整个分享结束,现场工人人员和各位嘉宾都辛苦啦。

微软在越来越放开,融合各种技术,并且自己也在支持多种技术的融合和创新。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

打赏作者

2020 Microsoft Ignite The Tour ShenZhen

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹(Conan), 程序员/Quant: Java,R,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-mvp-20200114

前言

2020年,微软在全球30个城市开展Microsoft Ignite The Tour活动,Microsoft专家和技术社区将为您带来最好的Microsoft Ignite活动体验,让您了解构建解决方案以及迁移和管理基础结构的新方法,并与当地行业领导者和同行交流。Microsoft Ignite TheTour在大中华区有五站,分别在北京、深圳、台北、上海和香港举行。

我是微软MVP受到微软邀请,进行了3个主题的分享,分别是选择下一版 Microsoft Edge 的十大理由,面向数据的思维模式和R语言编程,基于牛顿冷却定律的热度排名算法。

目录

  1. 会议背景
  2. 我分享的主题1:选择下一版 Microsoft Edge 的十大理由
  3. 我分享的主题2:面向数据的思维模式和R语言编程
  4. 我分享的主题3:基于牛顿冷却定律的热度排名算法
  5. 会议体验和照片分享

1. 会议背景

2020年1月13-14日,Microsoft Ignite The Tour ShenZhen(MITT)深圳站吸引了近3,000名观众,Microsoft专家和技术社区为大家带来了干货满满的技术培训和讲座。本次活动的官方参会指南

深圳站13名社区讲师将带来23场演讲,微软讲师做另外97场演讲。以下是社区讲师演讲主题的分类。

本次大会我一共有3个主题:

我被照的最帅的一次。

微软公司的组合者和MVP的大合照(聚餐照)

2. 我分享的主题1:选择下一版 Microsoft Edge 的十大理由

这个主题对我来说是全新的,属于M365的产品介绍。我虽然一直在使用浏览器,但大部分时间都是被chrome占据着,并没有对Edge有太多的关注。在大会前收到了微软MVP组招募新的产品讲师,本着兴趣和好奇,接下了这个主题,PPT下载

Microsoft Edge是面向企业的一个浏览器,他的定位确实与Chrome面向个人的浏览器的定位有很大的差别。本次分享获得了一些微软官方的材料的支持,我也仔细的学习了一下,然后转换成了中文的材料。分享主要为分10个部分,也就是10大理由。

其中,第4点可信赖的服务,第5点安全性,第9点无无缝访问您所需的信息,我认为是企业浏览器独特的,区别于人个浏览器的重要的部分。Microsoft Edge的详细介绍,请查看文章选择下一版 Microsoft Edge 的十大理由。在分享后,我也已经开始尝试下一代的Edge为办公的便利性体验了。

3. 我分享的主题2:面向数据的思维模式和R语言编程

很多公司已经完成了数据的原始积累,如何让沉睡的数据发挥价值,是急需要功课的难关!

数据项目和软件项目、互联网项目都有非常大的不同,不确定性、跨学科知识点、工程落地,都是影响数据项目成功与失败的重要因素。掌握数据思维,科学的方法论,专业的团队,便利的工具,才能让数据项目走向成功。

我主要为分4个部分进行介绍:

  1. 面向数据的思维模式
  2. 如何开展一个数据项目
  3. R语言进行数据处理
  4. R语言项目案例

真实的一个数据项目,处处是坑,必经之路至少包括7个步骤:需求讨论、数据提取、数据整合、数据清洗、特征工程、模型搭建和模型评估。

这7个步骤,目前没有标准的定义,同时也会随着目标的不同,都会有一些变化,我后面会单独详细写一篇文章进行介绍,把我所经历的成功经验和失败经验都做一下总结。

3. 我分享的主题2:基于牛顿冷却定律的热度排名算法(R语言实现)

这个主题是一个比较有意思的互联网模型应用的一个主题,介绍了牛顿冷却定律在排行榜上的一种实现。我将介绍一个数据项目从研发到实施的全流程,把理论模型结合实际的场景进行应用,从理论,到公式,再到验证,然后结合实际场景,数据模拟,形成数据产品。听众可以了解到,数据项目的建立过程,思考过程,数据探索过程,帮助大家更好的使用数据。

基于牛顿冷却定律的热度排名算法(R语言实现)
我们生活中随处能看到排行榜,有图书排名,电影排名,文章排名,音乐排名,商品排名,商铺排名等等,排在TOP10名单商品,会对我们生活中的决策产生重大的影响,所以如何设计一个客观的排行榜,是一件很重要的事情。这个场景就非常时候用到算法模型,进行客观评价和排名。

牛顿冷却定律是一种热力学模型,通过温度与时间之间的函数关系,构建出了一个指数衰减的过程。物理学中热度的衰减,同样适用在排行榜的商品衰减。对基础科学的公理和定理的研究,可以极大地开阔研究数据的思路,形成跨学科的解决方案。用自然科学的基础理论,来解决跨学科的问题是一种绝佳的方法。

我主要为分4个部分进行介绍:

  1. 排名算法背景介绍
  2. 牛顿冷却定律原理
  3. 算法模拟和R语言实现
  4. 算法应用落地

最后总结,本文从场景开始,介绍了一般思路,行业思路,理论模型,数学公式,推到过程,程序实现,最后回到场景应用,形成数据研发闭环。

对基础科学的公理和定理的研究,可以极大地开阔研究数据的思路,形成跨学科的解决方案。用自然科学的基础理论,来解决跨学科的问题是一种绝佳的方法。

希望通过本次分享,给大家带入一个新的领域。

4. 会议体验和照片分享

本次大会我体会到的一些关键字:场面大(走路走断腿),微软大战略。

4.1 会议体验证和总结

深圳会展中心太大了,注册在1楼,开放式的剧院区在1楼,主题分享教室都在5楼和6楼,真是走路走断腿啊。我为找到分享的3个地方,将近花了30分钟的时间。

另外一点,一天讲三场确实是累啊!为啥把我的分享都安排到了1天了,确实是累啊!

深圳会展中心中心的全楼层,只少能容纳2万人,1层的剧院区部分!

Ai in Clond的4位MVP。

小间认真听课的观众。

MVP的小合照,可惜没有参加上。

最后,特别感谢一直在后面帮助处理各种事情的MVP助理康爽(这次没有来),下次我会记得要补上的。

MVP!Yeah!下一站就没有下一站了,这次分享后就赶上了“新型冠状病毒”,好好在家修养生息,要等疫情过去再出门了!

转载请注明出处:
http://blog.fens.me/meeting-mvp-20200114

打赏作者

2019 Microsoft Ignite The Tour Beijing

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹(Conan), 程序员/Quant: Java,R,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-mvp-20191210

前言

2019年,微软在全球30个城市开展Microsoft Ignite The Tour活动,Microsoft专家和技术社区将为您带来最好的Microsoft Ignite活动体验,让您了解构建解决方案以及迁移和管理基础结构的新方法,并与当地行业领导者和同行交流。Microsoft Ignite TheTour在大中华区有五站,分别在北京、深圳、台北、上海和香港举行。

我是微软MVP受到微软邀请,进行了2个主题的分享,分别是人工智能定量分析医学影像数据-癫痫识别,基于牛顿冷却定律的热度排名算法。

目录

  1. 会议背景
  2. 我分享的主题1:人工智能定量分析医学影像数据-癫痫识别
  3. 我分享的主题2:基于牛顿冷却定律的热度排名算法
  4. 会议体验和照片分享

1. 会议背景

2019年12月10-11日,Microsoft Ignite The Tour Beijing(MITT)北京站吸引了近3,000名观众,Microsoft专家和技术社区为大家带来了干货满满的技术培训和讲座。本次活动的官方参会指南

3名MVP参与了1场开幕式、1场早餐讨论会、3场人文IT的活动。
22名MVP/RD在MVP/技术社区环节,做了35场演讲。
5名MVP/RD围绕Azure 和 Dynamics主题,做了5场学习路线的演讲。
9名MVP/RD参与了10场剧院式演讲。
10名MVP/RD和技术社区成员,在社区中心展开了4场非会议式演讲和技术互动。


微软公司的组合者和MVP的大合照。

2. 我分享的主题1:人工智能定量分析医学影像数据-癫痫识别

这个主题对来说是陌生的,是全新的。我没有医学背景,在项目开始之前,完全看不懂脑核磁的片子,不清楚医生的诊断方法。但是,我有数据分析的技术,能看懂数据,医疗影像的片子,也是由数据产生的,抱着相信自己试试的心态,我就接下来这个数据分析项目。

本项目是通过机器学习定量分析PET,MRI及EEG数据,识别癫痫灶,利于术前患者评估,对于MRI阴性患者尤其重要,提高病变辨识度。

人工智能现在在医学肿瘤及肺结节方面发展较为迅速,希望我的抛砖引玉能建立更多医工结合的机会,希望各位专家老师可以更多关注医学其他疾病的数据化或信息研究,为医学人工智能化提供更广阔的平台

分享主要为分4个部分进行介绍:

  1. 研究背景
  2. 业务方法
  3. 模型设计和模型训练
  4. 阶段性成果

阶段性成果总结,从影像数据到结果化数据,建立了映射关系。从统计学的角度,发现了一些新的特征行为,是不同业务特征的。用数据论证了,个体是有差异的,不能使用通用的分析模板。空间维度的抽样,可以平衡黑白样本比例。探索出一条可以用机器学习,进行模型训练思路,并可以进行落地。

张丹

林耀云,哈尔滨医科大学附属第一医院影像医学与和医学主治医师。

3. 我分享的主题2:基于牛顿冷却定律的热度排名算法(R语言实现)

这个主题是一个比较有意思的互联网模型应用的一个主题,介绍了牛顿冷却定律在排行榜上的一种实现。我将介绍一个数据项目从研发到实施的全流程,把理论模型结合实际的场景进行应用,从理论,到公式,再到验证,然后结合实际场景,数据模拟,形成数据产品。听众可以了解到,数据项目的建立过程,思考过程,数据探索过程,帮助大家更好的使用数据。

基于牛顿冷却定律的热度排名算法(R语言实现)
我们生活中随处能看到排行榜,有图书排名,电影排名,文章排名,音乐排名,商品排名,商铺排名等等,排在TOP10名单商品,会对我们生活中的决策产生重大的影响,所以如何设计一个客观的排行榜,是一件很重要的事情。这个场景就非常时候用到算法模型,进行客观评价和排名。

牛顿冷却定律是一种热力学模型,通过温度与时间之间的函数关系,构建出了一个指数衰减的过程。物理学中热度的衰减,同样适用在排行榜的商品衰减。对基础科学的公理和定理的研究,可以极大地开阔研究数据的思路,形成跨学科的解决方案。用自然科学的基础理论,来解决跨学科的问题是一种绝佳的方法。

我主要为分4个部分进行介绍:

  1. 排名算法背景介绍
  2. 牛顿冷却定律原理
  3. 算法模拟和R语言实现
  4. 算法应用落地

最后总结,本文从场景开始,介绍了一般思路,行业思路,理论模型,数学公式,推到过程,程序实现,最后回到场景应用,形成数据研发闭环。

对基础科学的公理和定理的研究,可以极大地开阔研究数据的思路,形成跨学科的解决方案。用自然科学的基础理论,来解决跨学科的问题是一种绝佳的方法。

希望通过本次分享,给大家带入一个新的领域。

4. 会议体验和照片分享

本次大会我体会到的一些关键字:场面大,微软大战略,Azure,人工智能。

4.1 会议体验证和总结

终于最近加班实在是太严重了,在准备分享内容的时候压力山大,特别是对癫痫的数据模型,时间太紧又必须要创新,做出没有前人做出来的思路,所以真是非常有难度,基本花了1周的时间从22:00-24:00凌晨,才把数据建模完成。

国家会议中心的全楼层,只少能容纳2万人。

等待入场的听众。

大会现场

4.2 相关照片

苏震巍

刘海峰

赵文超

李佳芮

卢建晖

刘俊哲

李佳芮 和 梁迪Chirs(MVP项目中国区负责人)

最后,特别感谢一直在后面帮助处理各种事情的MVP助理康爽,可惜没有照片!下次我会记得要补上的。

微软大会!大场面!MVP!Yeah!下一站深圳见。

转载请注明出处:
http://blog.fens.me/meeting-mvp-20191210

打赏作者