Blog Archives

浅谈Sora新纪元下的数据分析的变革和机会

架构师的信仰系列文章,主要介绍我对系统架构的理解,从我的视角描述各种软件应用系统的架构设计思想和实现思路。

从程序员开始,到架构师一路走来,经历过太多的系统和应用。做过手机游戏,写过编程工具;做过大型Web应用系统,写过公司内部CRM;做过SOA的系统集成,写过基于Hadoop的大数据工具;做过外包,做过电商,做过团购,做过支付,做过SNS,也做过移动SNS。以前只用Java,然后学了PHP,现在用R和Javascript。最后跳出IT圈,进入金融圈,研发量化交易软件。

架构设计就是定义一套完整的程序规范,坚持架构师的信仰,做自己想做的东西。

关于作者:

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/ai-sora

前言

2024年初,AIGC领域迎来跨时代技术大爆发,OpenAl发布Sora引领了新一轮的科技革命。我受邀请参加2024 Global AI Bootcamp,参加圆桌讨论:畅谈Sora新纪元下的行业变革与商业价值。会议页面:2024 Global AI Bootcamp: 畅谈Sora新纪元下的行业变革与商业价值

我本身就处于数据分析行业,一直有关注于大模型的进展,特别是怕Sora(chatgpt) 的强大,很快会把我也进行替代,因此做了一些调研。观点不成熟,而且仅聚焦于我所处于的行业。

目录

  1. 我的背景
  2. Sora通用大模型目前还不完美
  3. 世界模拟器:想象空间很大
  4. 专业领域模型有自己的生成逻辑
  5. 数据分析,如何结合大语言模型

1. 我的行业背景

我是张丹,技术出身,擅长R语言,一直还处于一线做数据分析。公司是北京青萌数海科技有限公司,服务于政府客户,以数据分析、数据建模为主。

在大数据时代,各个政府部门也积累了大量的数据,但是还主要以专家经验为核心,我们通过AI模型,可以极大的提升监管的效率,提升命中的准确率。

像chatgpt,sora生成式的大模型,我们也很关注,一方面担心被替代,另一方面也在思考怎么能结合实际工作的特点,提升数据分析的效率。

2. Sora通用大模型目前还不完美

我的主要观点,目前来看Sora(chatgpt),为代表的通用大模型目前还不完美。

我们所从事的数据分析领域模型和生成式大模型底层逻辑是不同的,从感觉上chatgpt在数据分析领域落地,还是比较难的。这种“落地”是能够直接替代 数据分析师 的落地,而不是指为 数据分析师 提供工具,还是离不开大量人工的辅助工具化。

我认为通用大模型(chatgpt) 和 专业领域模型(机器学习、深度学习、强化学习),能力并一样。

特别是从评价的角度,通用大模型,现在都是一种“感觉”的评价,比如大模型chatgpt 写的文字不错,Sora生成画面很舒服,感觉很真实。而专业领域模型需要有明确的目标,要求准确、高效。比如,我们需要明确找到 在100万笔电商的订单中,哪笔订单有问题,是否可能为走私、逃税的违法操作。

各个行业其实都有自己的法律、规范、要求等明确的依据条文,业务人员根据这些条文的要求设定规则,专业领域模型(机器学习)通过泛化能力,以概率的方式转化对规则边界定义,但依然保持着对目标的方向的锁定。而chatgpt大模型,似乎又近一步做了泛化,将导致对于目标的清晰度近一步丢失。

我个人感觉,大模型能落地的部分,还是面向toC的娱乐领域,在toB/toG领域还有一段路要走。就好比 短视频 和 电影,一个是消遣和娱乐,一个是高质量和深度。领域不同,要求不同。

2. 世界模拟器:想象空间很大

OpenAI 提出Sora是世界模拟器,而不是简单的文生视频的工具,这无疑是增加了大家对Sora的未来的想象力,为了更高的估值,获得更多的资金。

当然,Sora的能力确实能给我们眼前一亮的感觉,大幅领先于同时期的模型,可以把原来做不到的进行实现。

再科幻一点的想象,Sora生成的视频,不是一个纯计算机的数字化计算。而是创造一个平行世界,把平行世界中的内容展示出来,就像神创造了人类,人类就是sora世界中的神。不仅可以对未来做预测,也可以重现历史上任何事情的发生。所以,OpenAI要做万亿美元的融资,增加算力。那么,可能就到了人类的末日了(科幻领域)。

但现在Chatgpt大模型公布的生成机理上,还到不了智慧化的水平,可能一种探索的方向。

不管是chatgpt,还是sora,都是基于Transformer框架,用到的计算机数字计算的一种方式。 chatgpt的训练,是把所有收集的文档内容,通过遮盖文档的一部分,进行预测,来建立所有文字之间的上下文关系。当我们输入一个问题,chatgpt把他已知的文字向量关系输出给我们。对于sora的训练,是把所有收集的图片,通过打马赛克的方式进行遮挡,再反向通过全马赛克开始进行预测,从而输出一幅高质量图片,再加上时间轴连成视频。

3. 专业领域模型有自己的生成逻辑

专业领域模型通常有自己的计算逻辑,专业领域模型,一种是科学领域,一种是应用领域。

在科学领域:

  • 央视报道:AI 仅用6周时间破解了移民火星的生存之谜,模拟243次实验,从数百万的方法中,找到了产生氧气的黄金配方,15小时,暴力穷举,足够人类生存的氧气。
  • 用AI进行科学研究,找到抗生素Halicin,能够杀灭对已知抗生素产生耐药性的细菌菌株。研究小组找到包含2000种已知特性分子数据库,标记是否能组织细菌生长,进行模型训练,自动识别哪些分子能进行抗菌。最后用来审查FDA批准的药物,和天然产品库的6万多种不同的分子结构。
  • Google推出的 GraphCast 产品预测天气预报,1 分钟内预测未来 10 天的天气,GraphCast 是一种基于机器学习和图神经网络 (GNN) 的天气预报系统,比传统方法便宜 1000 倍。

在应用领域:

  • 量化交易模型,根据金融市场交易的数据、信息、规则等,设计模型构建交易策略,实现基金的盈利。
  • 风险甄别模型,根据进出口货物贸易的法规、报关单数据、国际形势变化等,发现走私、逃税、洗钱等风险。

在专业领域中,我们都是从目标出发,到底要解决什么问题。那么,我们在培养一个专业的数据分析师时,一般会按照专家路线,从业务入手,边做边理解。但反观大模型的生成式的训练过程,其实与培养人的过程是不同的。

因此,大模型在短期内,应该还不能把我们替代。

4. 数据分析,如何结合大语言模型

如果不能替代,那么就考虑怎么结合。

让大模型结合专业领域模型,是一种可行的路径。以大模型为主线,打通各个孤立的专业领域模型。比如:天气+粮食+进出口贸易+国际形势 = ? 是否会有粮食危机。药品 + 疾病 + 基因 + 政策 = ?会出现什么。

从而找到市场的空白点,帮助数据分析师找到新的思路。

数据分析领域,我们也有一些痛点:

痛点一,随着chatgpt在生活中的普及,同时提升了大家的认知水平。做数据分析的从业者,又开始要面对领导提出问题,现在AI这么牛了,把数据给了模型,结果就出来了,应该要想什么就有什么,为什么你们做不到。说技术听不懂,说成本预算有限。所以,toG 的项目,也是挺难干的。

痛点二,整个的数据分析过程,对于大部分没有一线参与建模的人来说,还是不理解的,就像我们也不理解chatgpt,sora的一样,只是根据效果、论文、别人的解释,进行理解。如果通用人工智能,如果可以把整个的数据处理、加工、建模过程,可视化、解释性,进行解释出来,就是把专业的知识简单化,就可以大幅提升数据分析行业效率。

最后,说说我理解的 大模型toG落地。从技术上来讲,建模过程主要是训练和推理。训练:通过海量的高质量数据进行训练,特别是结合内网数据,结合知识图谱数据,可以大幅提升行业模型的适配度,让AI懂行业。推理:结合专业领域模型,进行推理的模拟,进行目标导向,提升准确率。

如果有一天实现了 适用于各个行业通用的推理引擎,专业领域模型就真的可以被替代了,也许世界模拟器,也就能真正实现了。

观点不成熟,而且仅聚焦于我所处于的行业。

转载请注明出处:
http://blog.fens.me/ai-sora

2023 R语言开发者日:用AI选基金构建自己的投资组合

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-r-dev-20230617

前言

2023年的金融市场,一言难进。

量化投资大家都不陌生了,就是程序来做股票基金等的投资策略。

在R语言中开发者社区中,不仅有大量统计学和机器学习的算法支撑,还内置了多种用于指标计算和量化投资的策略算法,同时我们可以结合个人的行业知识,把自己熟悉的其他领域的算法模型借鉴过来,与基金投资组合的业务目标结合起来,形成新的策略思路,创造属于自己的交易机会。

借助R语言的能力,我们自己可以轻松地构建各种投资组合的策略。从零起步,开始构建自己的投资组合。在瞬息万变金融市场,你要不要来自己试一下呢?

本次分享不构成任何投资建议,仅从技术角度交流!

目录

  1. 我分享的主题:用AI选基金,构建自己的投资组合
  2. 会议体验和照片分享

1. 我分享的主题:用AI选基金,构建自己的投资组合

AI技术继续引领科技创新,R语言机器学习作为可落地的技术,将帮我们利用数据向着智能化的方向前进。在金融领域,R语言也有着丰富第三方包支持,金融数据也是比较容易获得。那么,我们可以利用R语言做一些数据分析,帮助我们一手了解金融市场的情况。

本次分享的PPT:http://doc.fens.me/用AI选基金构建自己的投资组合-张丹.pdf

我主要为分三个部分进行介绍:

  • 基金市场总体情况
  • 基金基本投资策略
  • 投资策略:资本资产定价模型

FOF的概念,基金中的基金。

基金净值计算举例:

收益率曲线的详细系数。

2. 会议体验和照片分享

本次会议官方报名页:https://www.huodongxing.com/event/8706770141611

活动日志:

2.1 会议主题

本次活动由 3位MVP和一位外员参加:张丹、谢佳标、任坤、晁亚伟 一起作为分享嘉宾。

晁亚伟,主题:用RMarkdown实现自动化报告模板,实现高效文档撰写。

R语言应用者,北京青萌数海科技有限公司开发工程师。R语言新人,日常工作R、Python、Vue都有涉及。经常使用RShiny和Rmarkdown技术。

自动化办公已经家喻户晓,就是用程序来简化日常工作中重复的数据处理工作,简化工作过程。R语言社区已经有很多丰富的包来实现文档中的各种功能,各种指标的计算以及图表格式的编写,以及文档格式的设定,所以我们可以通过Rmarkdown的功能和我们要实现的业务逻辑进行结合,实现上传,生成,下载等一系列操作。借助R语言的这一能力,我们自己可以轻松地构建各种自动化报告模板。

任坤,主题:R 语言的生态系统现状于展望。

微软MVP,就职于国内顶尖量化对冲基金。vscode-R 和 R Language Server 项目的主要维护/开发者,著有《Learning R Programming》,中文版为《R语言编程指南》。

R语言经过多年的发展,从一个在统计学术圈流行的数据分析、统计计算和建模以及可视化的工具,逐渐成长为了一个有更多开发者、开源贡献者和许多开源扩展包的生态。本次分享主要介绍R语言自身的发展、开发环境的优化,以及其在数据处理、统计建模、机器学习、数据可视化、报告展示等多个方面形成的最受欢迎的工具集,以及近期最新的发展动态,帮助用户和开发者更全面地了解R开源社区和众多开源项目的图景和巨大的发展潜力。

谢佳标,主题:如何使用 R 语言进行数据科学

微软MVP,资深数据挖掘专家。著有《R语言与数据挖掘》、《R语言游戏数据分析与挖掘》、《Keras深度学习:入门、实践与进阶》、《R语言数据分析与挖掘(微课版)》、《深度学习入门到精通:基于Tensorflow2》(2023年下半年出版)

数据科学涵盖数据处理、数据分析、数据挖掘、数据可视化,R语言均可轻松实现。本次分享主要介绍如何使用R语言进行数据处理、数据分析、数据建模及数据可视化各环节。包含以下内容:
1)利用R语言进行数据处理
2)利用R语言进行数据分析与挖掘
3)利用R语言进行可视化
4)利用R语言进行深度学习

张丹,主题:用 AI 选基金,构建自己的投资组合。【视频回看

微软MVP,R语言实践者,北京青萌数海科技有限公司CTO。10年以上互联网应用架构经验,在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。 熟悉数据学科方法论,在海关、外汇等监管科技领域均有落地项目。

在R语言中开发者社区中,不仅有大量统计学和机器学习的算法支撑,还内置了多种用于指标计算和量化投资的策略算法,同时我们可以结合个人的行业知识,把自己熟悉的其他领域的算法模型借鉴过来,与基金投资组合的业务目标结合起来,形成新的策略思路,创造属于自己的交易机会。

2.2 相关照片

现场大合照

还是线下会议好啊,有互动性,能看到大家的反应,专注在技术本身。微软技术直通车,每季度都带来新的技术分享。

转载请注明出处:
http://blog.fens.me/meeting-r-dev-20230617

2023 微软Global AI : R语言中的机器学习

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-global-ai-20230304

前言

ChatGPT风靡全球,人工智能再次推向了新的时代,如何将AI服务融入应用程序和落地使用来提升工作效率、创造更大的价值,将是企业和个人未来所面临的机会和挑战。

我从R语言机器学习的角度,来介绍了人工智能技术的发展,R语言在人工智能技术使用上的优势和可落地的技术实现。

目录

  1. 我分享的主题:R语言中的机器学习
  2. 会议体验和照片分享

1. 我分享的主题:R语言中的机器学习

AI技术继续引领科技创新,R语言机器学习作为可落地的技术,将帮我们利用数据向着智能化的方向前进。比如,用于信用贷款的风险评价领域的评分卡模型,基于逻辑回归和xgboost实现;用于金融资产配置的资本资产定价模型,基于线性回归实现;用于垃圾邮件分类,基于Bayes实现;用于团伙识别,基于图算法实现。

本次分享的PPT和代码,我上传到了github:https://github.com/bsspirit/ml

我主要为分几个部分进行介绍,包括机器学习是什么,机器学习几个重要任务,回归,分类,聚类,降维(升维),模型评估,优化,样本选择,autoML自动化。

人工智能的进化发展:

具体的任务方向和技术:

2. 会议体验和照片分享

本次活动是微软Global AI Bootcamp 北京站——ChatGPT专场的活动,主要由微软MVP给大家进行一些技术分享。(Global AI Bootcamp 是由对 Microsoft Azure 上的人工智能充满热情的当地社区组织在世界各地举办的活动。活动是质量内容、真棒演讲和与社区中志同道合的同龄人进行实践学习的完美平衡。)

本次会议报名页: https://www.huodongxing.com/go/chatgpt?td=8372911588190

时间地点:
时间:2023年 3月4日 14:00-17:00
地点:丹棱街5号微软亚太研发集团总部1号楼

活动日志:

13:30-14:00Global AI Bootcamp北京站 签到
14:00-14:10主办方致辞
14:10-16:10嘉宾演讲
16:10-16:40圆桌会议
16:40-17:00问答抽奖

2.1 会议主题

本次活动由 4位MVP(刘海峰,张丹,徐磊,李佳芮)和1位微软员工(卢建晖)一起作为分享嘉宾。

卢建晖,主题:打造你人生中的第一个OpenAI 应用。微软云技术布道师,热爱编程,热爱分享,专注在人工智能,物联网,云原生等领域。

张丹,主题:R语言中的机器学习。微软MVP,R语言实践者,北京青萌数海科技有限公司CTO,10年以上互联网应用架构经验,在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。

徐磊,主题:被开发者低估的AI编程助手-Github Copilot。微软技术社区区域总监,Devops社区领袖,SmartIDE开源项目创始人;写了十几年代码但还没写够的程序员

李佳芮,主题:ChatGPT: AI与人 [替代] 还是[共生]。句子互动创始&CEO,微软 AI MVP,中文首本对话式交互图书《Chatbot从0到1》作者,全球最大的对话式交互 RPA SDK 开源框架 Wechaty 联合作者,Combinator W19 校友,对话式营销开创者。

刘海峰,主题:用Azure OpenAI来打造语音助理机器人。微软MVP、软积木 CEO

2.2 相关照片

MVP和现场组织人员

现场大合照

现场的零食

现场的同学们在认真听课

好久没有参加线下会了,久违的感觉,线下真好。感谢组织会议的工作人员,感谢MVP项目负责人霸姐的支持,感谢摄影师老丁。

转载请注明出处:
http://blog.fens.me/meeting-ms-global-ai-20230304

2021 微软 Ignite-聊聊Azure上的AI和Data

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

前言

由于疫情在全球肆虐,原来线下的各种会议都改成了线上的模式,微软一年一度的Ignite大会如期举行。本次大会增加了一个嘉宾脱口秀的环节,由众多的微软MVP组成的嘉宾团,给大家说说微软黑科技。

目录

  1. 圆桌主题:Azure上的AI+机器学习
  2. 会议体验和照片分享

1. 圆桌主题:Azure上的AI+机器学习

我参与的圆桌部分,主题是怎么看微软在人工智能和大数据领域的技术革新。我从最擅长的数据分析进行介绍,针对于Azure上的Data和AI的主题,谈谈微软产品如何带动整个行业的发展。

我从2个方面来介绍微软数据产品线设计。

我主要为分2个部分进行介绍:

  1. Azure上的 AutoML 自动机器学习平台
  2. Azure认知服务体系

数据分析,作为大数据和人工智能的一个分支,正在各领域中发挥着作用。Azure上是最早推出AutoML的SaaS服务平台之一,现在已经做的非常完善和成熟了。在AutoML的过程中,不仅集成了众多优秀的产品,同时提供了强大的计算能力,和认知服务能力。让小团队可以直接跨过底层的复杂技术架构的搭建过程,从而直接面向应用层去做开发。

Azure上的产品组件:

  • Azure Data Factory,数据工厂被描述为一项数据集成服务。 Azure 数据工厂的用途是从一个或多个数据源中检索数据,并将其转换为你可处理的格式。 数据源可能以不同的方式呈现数据,并且包含需要筛选掉的干扰词。Azure 数据工厂使你可以提取感兴趣的数据,并放弃其余数据。
  • Azure Data Lake Storage, 数据湖是用于存储大量原始数据的存储库。 由于数据原始且未经处理,因此其加载和更新速度非常快,但数据并未采用适合高效分析的结构。
  • Azure Databrick, 是在 Azure 上运行的 Apache Spark 环境,可提供大数据处理、流式传输和机器学习功能。 Apache Spark 是一个高效的数据处理引擎,可以非常快速地使用和处理大量数据。
  • Azure Synapse Analytics, 是一个分析引擎,基于数据仓库的分析服务
  • Cosmos DB,是完全托管的NoSQL数据库服务。


在Azure上,我们不担心产品试用过程中的复杂度,因为通过“服务编排”的方式,建立Pipeline流程,用拖拽就可以完成复杂的产品对接的,和数据流控制,数据处理过程。Azure把流程进行了标准化的定义,产品可以自由组装,数据流关系可以进行服务编排,通过服务接口进行调用,形成了 AutoML 完成的数据产品闭环。


认知服务几乎覆盖了完整的深度学习的应用领域,同样我们可以通过服务接口的方式,调用这个认知服务,而不只自己在重新搭建底层平台。

  • 影像:人脸,图像提取文本,图像分类准确识别画作,视频索引
  • 语音: 文字转语音,语音转文字,语音翻译
  • 语言:文字翻译,语言理解(LUIS),情绪分析
  • 知识:异常检测器,个性化推荐,内容审查
  • 搜索:bing

你可以直接使用由微软提供的,已训练好的通用模型,也可以根据自己的数据训练出符合自己业务场景的个性化模型。总之,既可以通用又可以专业,使用起来非常方便,可以大大解放人的工作,从而实现AI驱动。

2. 会议体验和照片分享

Micosoft Ignite 全球直播又来啦,本次大会的官方页面:https://ignitechina.microsoft.com/index.html, 微信公众号地址:https://mp.weixin.qq.com/s/utnigc2fIeCkZbfkPijHLQ

2.1 会议主题

MVP嘉宾代表团:分了五组进行对微软生态进行介绍。

2.2 相关照片

圆桌对话:我在北京主会场和主持人:杨娜,另外三个嘉宾在上海会场:王公子,彭爱华老师,胡浩。

在各种设备中看直播。

刘亮和杨威,低代码开发。

朱一婷,在做 Micriosoft Mesh 技术分享,混合现实领域。

负责专业录制节目的工作人员。

最后,整个分享结束,现场工人人员和各位嘉宾都辛苦啦。

微软在越来越放开,融合各种技术,并且自己也在支持多种技术的融合和创新。

转载请注明出处:
http://blog.fens.me/meeting-ms-ignite-20210318

打赏作者