• Articles posted by Conan Zhang

Author Archives: Conan Zhang

About Conan Zhang

Programmer(Java,R,PHP,Javascript)

2024 人工智能创新发展大会 – 数据分析落地的最佳实践

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-ai-tianjin-20241221

前言

我是第一到天津参加分享,感觉天津的小伙伴的热情高涨,报名出席率要比北京的会高很多,可能是在天津讲人工智能大型会议的相对较少。在寒冷的冬天,有500+的人,来参加大会实在不易。

我继续在打磨我的数据分析方法论,给大家开拓思路,进行思想的碰撞。

目录

  1. 分享主题:数据分析落地的最佳实践
  2. 会议体验和照片分享

1. 分享主题:数据分析落地的最佳实践

Chatgpt的出现,也让很多的数据分析从业人员感到担忧,什么时候自己会被模型所替代。去年在大模型影响下,很多人都觉得数据分析师会被大模型很快的替代。今年来看,虽然大模型技术更新速度很快,但是对于专业领域数据分析和数据科学的场景,大模型依然有较大难度。

数据分析师,积累了大量的行业经验,这些经验并不是简单靠大模型就能理解,还是需要人工的调优过程,这也说明,数据分析师的知识含金量很高,在这个时代中,我们要进化自己,保持学习的动力,和实际 解决问题的能力,结合chatgpt辅助为我所用,才是时代赋予我们的机会。

我主要为分六个部分进行介绍:

  • 什么是数据落地
  • 数据分析怎么做
  • 调包侠的时代已过
  • 数据分析不只是指标体系、更不是指标堆积!
  • 知识结构在变化,对人的要求越来越高
  • 业务场景千差万别,适应变化

2. 会议体验和照片分享

人工智能创新发展大会暨第15届天津敏捷之旅将于2024年12月21日在天津举办,全天拟设置1个主会场+8个分会场,主会场邀请新一代人工智能发展战略研究院副院长国家杰青&南开大学教授程明明,微软MVP&LeanSoft创始人创始人徐磊,全球首位Scrum联盟CST&CTC双料导师申健,华为云开发者开源负责人程泽,阿里云智能集团公共云新生态业务部解决方案总经理白强等5位重磅嘉宾带来精彩且有深度的主题分享,分会场的内容涵盖大模型、人工智能、数据分析、开源技术、云计算、信创技术、敏捷、企业管理等多个领域的案例和落地实践经验。

我们致力于将大会打造成天津本地的高端软件工程师峰会。同时,“他山之石,可以攻玉”,大会邀请来自业界知名的行业专家和国内外一线大厂的实践者现场分享其优秀实践经验,旨在立足国际国内视野,为参会者带来更多值得参考的视角及可复用的技术和经验。

本次会议官方报名页:人工智能创新发展大会暨第15届天津敏捷之旅

2.1 会议主题

本次会议几位研究嘉宾的主题:

本次会议日程:

2.2 现场照片

主会场的情况:

主会场大合照

主会场的听众

现场提问

展台的互动

我又听了几场分享:

徐磊,英捷创软科技LeanSoft首席架构师&CEO,微软最有价值专家(MVP)
《AI加持下敏捷开发的未来》

程明明,新一代人工智能发展战略研究院副院长国家杰青、南开大学教授 CCF YOCSEF天津 AC委员
《高效能个性化图像生成》

申健,优普丰敏捷创新咨询合伙人Scrum联盟敏捷领导力认证授权讲师,《12345,与不确定的未来共舞谈韧性领导力背后的心理安全》

 

张丹,北京青萌数海科技有限公司CTO,微软MVP。
《数据分析的最佳实践》

赵文毅,易同行总经理,《90分管理实践》

组织者们,感谢大家!

2024年冬至,天津,一个新的会议,圆满结束。辛苦为了大会付出的组织者们,祝来年再会!

转载请注明出处:
http://blog.fens.me/meeting-ai-tianjin-20241221

2024 第十七届中国R会 – 数据分析落地的最佳实践

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-r-xagi-20240720

前言

R语言大会一晃已经第十七届了,我好像是从第七届开始参加的,已经10年了。R语言我也使用了10年了,伴随着也让我从程序员变化了数据分析师。每年都要来R语言大会,来分享我的使用经验。

今年又是一个热闹的大会,不仅包括了R语言的内容,又整合了X智能大会,和数据科学国际论坛。

目录

  1. 分享主题:数据分析落地的最佳实践
  2. 会议体验和照片分享

1. 分享主题:数据分析落地的最佳实践

Chatgpt的出现,也让很多的数据分析从业人员感到担忧,什么时候自己会被模型所替代。去年在大模型影响下,很多人都觉得数据分析师会被大模型很快的替代。今年来看,虽然大模型技术更新速度很快,但是对于专业领域数据分析和数据科学的场景,大模型依然有较大难度。

数据分析师,积累了大量的行业经验,这些经验并不是简单靠大模型就能理解,还是需要人工的调优过程,这也说明,数据分析师的知识含金量很高,在这个时代中,我们要进化自己,保持学习的动力,和实际 解决问题的能力,结合chatgpt辅助为我所用,才是时代赋予我们的机会。

我主要为分六个部分进行介绍:

  • 什么是数据落地
  • 数据分析怎么做
  • 调包侠的时代已过
  • 数据分析不只是指标体系、更不是指标堆积!
  • 知识结构在变化,对人的要求越来越高
  • 业务场景千差万别,适应变化

2. 会议体验和照片分享

此次盛会将邀请多位 MVP嘉宾,同时也有微软的员工,大家从不同的角度,把数据如何理解,如何加工,如何使用,如何落地进行阐述,我自己也是收益颇多,看到了不同层面的东西。

我们诚挚地邀请您参加本次活动,深入体验科技与智慧的精彩交融,共同见证AI时代所带来的创新、变革与无限可能。

本次会议官方报名页:第17届中国R会议 & 2024 X 智能大会 & 2024 数据科学国际论坛联合会议

2024.7.20-21 (9:00-17:30) :

线下:中国人民大学逸夫楼、立德楼

线上:学说直播平台

2024.7.22(19:00-21:00):

线上:学说直播平台

2.1 会议主题

我参加在数据科学专场践专场,由 4位行业专家参加:刘思喆(统计之都),kim(明宏投资), 许以言(和鲸科技),张丹(青萌数海), 一起作为分享嘉宾。视频回看:,https://mobile.51xueshuo.com/#/viewLive?planCode=1808151079477710848,我讲的内容在1小时30分开始。

本次会议日程:

活动嘉宾阵容:

Kim, GPU 在量化投资中的优势及应用

个人简介:
Kim ,就职于头部量化私募,负责量化交易低延时,高性能计算系统的有关开发工作。

报告摘要:
2007 年 英伟达发布 CUDA 编程范式以来,经过 17 年的发展,GPU 在算力和显存都已经逐步远超通用 CPU 的能力。量化投资领域一直走在技术的最前沿,原有用 CPU 来进行的高性能计算的程序,也逐步在切换到使用 GPU 来加速的模式。这里将介绍日常工作中 GPU 的应用场景,实际开发中遇到的问题,以及分享 GPU 提升对应业务效率的具体案例。

许以言,面向有组织科研的的模型生命周期管理

个人简介:
许以言,和鲸科技产品专家,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,参与了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学、临床等众多科研智能领域的落地,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

报告摘要:
随着有组织科研的快速发展,数据信息与数据价值正以更高维的形式体现在模型中,数据分析的过程也需要由多领域专家参与其中,本报告将围绕空间数据智能分析场景的模型生命周期管理流程,介绍 ModelOps 方法,并探讨面对交叉领域研究场景,如何通过平台化的工具与社区化的方法支撑有组织科研。

刘思喆,因果推断技术在工业界的实践应用

个人简介:
刘思喆,统计之都理事会成员。先后在彩票、电信、电商、教培、交通、餐饮行业从事算法、数据科学、营销赋能等相关工作。曾任 51Talk 数智中心助理副总裁、首席数据科学家,也曾任京东推荐平台部高级经理 ,京东技术名人堂成员之一。中国人民大学大数据分析实验班、首经贸信息学院校外硕士生导师。国内 R 语言的布道者,21 年的使用经验,《153 分钟学会 R》的作者,《R 语言核心技术手册》的译者。

报告摘要:
本报告围绕工业界中因果推断的核心价值展开,探讨其在产品优化、市场策略调整、供应链管理等业务中的重要性。本报告也将尝试系统梳理常见的因果推断技术,包括随机实验、倾向得分匹配、断点回归分析、合成控制等方法,并探讨它们之间的内在联系、适用场景及其潜在局限。通过剖析企业中的真实业务案例,我们将生动展示,如何利用这些方法提炼出精准的因果洞见,持续赋能企业的高质量决策的完整过程。

张丹,数据分析落地的最佳实践

个人简介:
张丹,R语言实践者,北京青萌数海科技有限公司CTO,微软MVP。10年以上互联网应用架构经验,在R、大数据、数据分析等方面有深厚的积累。精通量化投资交易策略,熟悉中国金融二级市场、交易规则和投研体系。熟悉数据学科方法论,在海关、药监、外汇等监管科技领域均有落地项目。著有《R的极客理想:量化投资篇》、《R的极客理想:工具篇》、《R的极客理想:高级开发篇》,图书英文版被CRC出版集团引进,在美国发行。个人博客:http://fens.me 。

报告摘要:
现在我们正处于大数据时代,处处都产生数据,大部分数据已经不再稀缺,分析方法和算法模型都也写在了教科书中。
如何挖掘出数据的价值,让数据分析落地,把数据价值转换为自身价值,是数据分析师核心要考虑的。
数据分析要解决实际业务场景问题,伪需求、不清晰的目标,都会造成项目失败。数据分析不只是指标体系、更不是指标堆积,市场在变,数据也在变,我们的知识结构也要跟着变化。
数据分析是跨学科的工作,对人的要求也越来越高,调包侠的时代已过。要以新的视角,看数据、看业务、看技术发展、看我们自己,适应变化,才能把项目做好、落地。

2.2 现场照片

主会场的情况:

主会场开始前

主会场听众

本次R会的主席致辞

吴喜之教授

我又听了几场分享:

朱赛赛,同方知网图书工具书与志鉴产品总监,统计数据大模型的应用场景和解决方案的探索与实践

唐飞虎,月之暗面高级研发工程师、开发者关系负责人,长文本应用如何推理加速。

王小宁,现为中国传媒大学数据科学与智能媒体学院副教授,中国商业统计学会理事,智能教育革命:如何借助大语言模型改善统计和数据科学教学。

17年了坚持下来真的不容易,我也从一个R语言的小白,变成一个坚定R语言的实践者。感谢统计之都这个民间组织,感谢人民大学长期的教授的支持。希望R会一直有,年年高水平。

转载请注明出处:
http://blog.fens.me/meeting-r-xagi-20240720

2024 MS Build Post AI day – 数据分析落地的最佳实践

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-post-ai-day-20240615

前言

微软的2024 AI DAY大会刚结束第二天,继续 POST AI DAY 继续知识分享。虽然 AIGC 已经火遍了大半个世界,但是在中国做 AI 要做落地,直接用到大模型还是有一定困难。大模型,还是不是仅仅停留在概念上,大多数人都是看热闹,那么解决现有数据问题,就需要有实际的落地的方法。

本次分享就以我的实际经验,介绍数据分析落地的最佳实践。

目录

  1. 分享主题:数据分析落地的最佳实践
  2. 会议体验和照片分享

1. 分享主题:数据分析落地的最佳实践

现在我们正处于大数据时代,处处都产生数据,大部分数据已经不在稀缺,分析方法和算法模型都也写在了教课书中。如何挖掘出数据的价值,让数据分析落地,把数据价值转换为业务价值,是数据分析师核心要考虑的。

Chatgpt的出现,也让很多的数据分析从业人员感到担忧,什么时候自己会被模型所替代。这些担心是时代的机遇,让chatgpt辅助为我所用,还是挑战,直接可以我们替代。

数据分析要解决实际业务场景问题,伪需求、不清晰的目标,都会造成项目失败。数据分析不只是指标体系、更不是指标堆积,市场在变,数据也在变,我们的知识结构也要跟着变化。数据分析对人的要求也越来越高,调包侠的时代已过。以新的视角,看数据、看业务、看我们自己,适应变化,才能把项目落地。

我主要为分六个部分进行介绍:

  • 什么是数据落地
  • 数据分析怎么做
  • 调包侠的时代已过
  • 数据分析不只是指标体系、更不是指标堆积!
  • 知识结构在变化,对人的要求越来越高
  • 业务场景千差万别,适应变化

2. 会议体验和照片分享

此次盛会将邀请多位 MVP嘉宾,同时也有微软的员工,大家从不同的角度,把数据如何理解,如何加工,如何使用,如何落地进行阐述,我自己也是收益颇多,看到了不同层面的东西。

我们诚挚地邀请您参加本次活动,深入体验科技与智慧的精彩交融,共同见证AI时代所带来的创新、变革与无限可能。

时间:2024年06月15日 12:30 – 17:50
地点:北京市中关村丹棱街5号微软亚洲研究院 1号楼 1楼 故宫厅

本次会议官方报名页:Post Microsoft Build and AI Day 北京开发者日

2.1 会议主题

在大模型产业实践专场-2专场活动,由 4位行业专家参加:姚凯、殷磊、张丹、高天辰 一起作为分享嘉宾。视频回看:,https://live.csdn.net/room/MicrosoftReactor/CfdpkiN8,我讲的内容在4小时14分钟开始。

本次会议日程:

活动嘉宾阵容:

 

2.2 现场照片

现场所有嘉宾MVP和微软人员的合照。

MVP的合照

现场的观众

周鹏飞(主持人)

卢建辉

白海石

余兴林

占冰强

徐晔

周徐萍

张丹

衣明志

 

人人都有收获,活动圆满成功。同时,感谢MVP活动的霸姐支持。

转载请注明出处:
http://blog.fens.me/meeting-post-ai-day-20240615

2024 湖北工业大学宣讲:企业中数据分析怎么做

跨界知识聚会系列文章,“知识是用来分享和传承的”,各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果。从听众到演讲感觉是不一样的,把知识分享出来,你才能收获更多。

关于作者

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/meeting-hbut-20240321

前言

本次分享的初衷,一方面是为了给马上就毕业的同学,说说企业中如何做数据分析;另一方面,我作为企业负责人一直招不到合适的人才,也是非常难受。如果能把实际工作中遇到的问题,提前让向面临毕业学生知道,提前做好知识储备。那么,找工作也就没那么难了,同时招人也会顺畅起来,是一种双赢的局面。

本次分享其实是,企业和学生双向奔赴的一个实践活动,但由于多种原因,没能亲自到现场,略有遗憾。

目录

  1. 分享主题:企业中数据分析怎么做
  2. 会议体验和照片分享

1. 分享主题:企业中数据分析怎么做

现在我们正处于大数据时代,处处都产生数据,大部分数据已经不在稀缺,分析方法和算法模型都也写在了教课书中。
如何挖掘出数据的价值,让数据分析落地,把数据价值转换为业务价值,是数据分析师核心要考虑的。

数据分析要解决实际业务场景问题,伪需求、不清晰的目标,都会造成项目失败。数据分析不只是指标体系、更不是指标堆积,市场在变,数据也在变,我们的知识结构也要跟着变化。
数据分析对人的要求也越来越高,调包侠的时代已过。以新的视角,看数据、看业务、看我们自己,适应变化,才能把项目落地。

我主要为分三个部分进行介绍:

  • 什么是数据落地
  • 数据分析怎么做
  • 调包侠的时代已过
  • 企业需要什么样的人

2. 会议体验和照片分享

湖北工业大学创建于1952年,是一所以工学为主,经济学、法学、教育学、文学、理学、医学、管理学、艺术学、交叉学科等十大学科门类协调发展的多科性大学,是湖北省“双一流”建设高校、国家“中西部高校基础能力建设工程”高校、全国毕业生就业典型经验高校、全国深化创新创业教育改革示范高校、国家知识产权试点高校、国家“赋予科研人员职务科技成果所有权或长期使用权试点单位”、首批国家级现代产业学院建设单位、全国文明校园先进学校。

本次主要听从对象,面临找工作的(大三、大四、研究生),专业:数学,统计学,计算机,人数:50人,时长:1小时。
日期:2024年3月21日 15:00-16:00,远程腾讯会议。

我使用腾讯会议,远程进行的分享。

现场集中注意听课的同学们

我们企业中的实际数据分析工作,向同学们做了介绍,也希望同学们未来能够收获理想的工作。

转载请注明出处:
http://blog.fens.me/meeting-hbut-20240321

浅谈Sora新纪元下的数据分析的变革和机会

架构师的信仰系列文章,主要介绍我对系统架构的理解,从我的视角描述各种软件应用系统的架构设计思想和实现思路。

从程序员开始,到架构师一路走来,经历过太多的系统和应用。做过手机游戏,写过编程工具;做过大型Web应用系统,写过公司内部CRM;做过SOA的系统集成,写过基于Hadoop的大数据工具;做过外包,做过电商,做过团购,做过支付,做过SNS,也做过移动SNS。以前只用Java,然后学了PHP,现在用R和Javascript。最后跳出IT圈,进入金融圈,研发量化交易软件。

架构设计就是定义一套完整的程序规范,坚持架构师的信仰,做自己想做的东西。

关于作者:

  • 张丹,数据分析师/程序员/Quant: R,Java,Nodejs
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/ai-sora

前言

2024年初,AIGC领域迎来跨时代技术大爆发,OpenAl发布Sora引领了新一轮的科技革命。我受邀请参加2024 Global AI Bootcamp,参加圆桌讨论:畅谈Sora新纪元下的行业变革与商业价值。会议页面:2024 Global AI Bootcamp: 畅谈Sora新纪元下的行业变革与商业价值

我本身就处于数据分析行业,一直有关注于大模型的进展,特别是怕Sora(chatgpt) 的强大,很快会把我也进行替代,因此做了一些调研。观点不成熟,而且仅聚焦于我所处于的行业。

目录

  1. 我的背景
  2. Sora通用大模型目前还不完美
  3. 世界模拟器:想象空间很大
  4. 专业领域模型有自己的生成逻辑
  5. 数据分析,如何结合大语言模型

1. 我的行业背景

我是张丹,技术出身,擅长R语言,一直还处于一线做数据分析。公司是北京青萌数海科技有限公司,服务于政府客户,以数据分析、数据建模为主。

在大数据时代,各个政府部门也积累了大量的数据,但是还主要以专家经验为核心,我们通过AI模型,可以极大的提升监管的效率,提升命中的准确率。

像chatgpt,sora生成式的大模型,我们也很关注,一方面担心被替代,另一方面也在思考怎么能结合实际工作的特点,提升数据分析的效率。

2. Sora通用大模型目前还不完美

我的主要观点,目前来看Sora(chatgpt),为代表的通用大模型目前还不完美。

我们所从事的数据分析领域模型和生成式大模型底层逻辑是不同的,从感觉上chatgpt在数据分析领域落地,还是比较难的。这种“落地”是能够直接替代 数据分析师 的落地,而不是指为 数据分析师 提供工具,还是离不开大量人工的辅助工具化。

我认为通用大模型(chatgpt) 和 专业领域模型(机器学习、深度学习、强化学习),能力并一样。

特别是从评价的角度,通用大模型,现在都是一种“感觉”的评价,比如大模型chatgpt 写的文字不错,Sora生成画面很舒服,感觉很真实。而专业领域模型需要有明确的目标,要求准确、高效。比如,我们需要明确找到 在100万笔电商的订单中,哪笔订单有问题,是否可能为走私、逃税的违法操作。

各个行业其实都有自己的法律、规范、要求等明确的依据条文,业务人员根据这些条文的要求设定规则,专业领域模型(机器学习)通过泛化能力,以概率的方式转化对规则边界定义,但依然保持着对目标的方向的锁定。而chatgpt大模型,似乎又近一步做了泛化,将导致对于目标的清晰度近一步丢失。

我个人感觉,大模型能落地的部分,还是面向toC的娱乐领域,在toB/toG领域还有一段路要走。就好比 短视频 和 电影,一个是消遣和娱乐,一个是高质量和深度。领域不同,要求不同。

2. 世界模拟器:想象空间很大

OpenAI 提出Sora是世界模拟器,而不是简单的文生视频的工具,这无疑是增加了大家对Sora的未来的想象力,为了更高的估值,获得更多的资金。

当然,Sora的能力确实能给我们眼前一亮的感觉,大幅领先于同时期的模型,可以把原来做不到的进行实现。

再科幻一点的想象,Sora生成的视频,不是一个纯计算机的数字化计算。而是创造一个平行世界,把平行世界中的内容展示出来,就像神创造了人类,人类就是sora世界中的神。不仅可以对未来做预测,也可以重现历史上任何事情的发生。所以,OpenAI要做万亿美元的融资,增加算力。那么,可能就到了人类的末日了(科幻领域)。

但现在Chatgpt大模型公布的生成机理上,还到不了智慧化的水平,可能一种探索的方向。

不管是chatgpt,还是sora,都是基于Transformer框架,用到的计算机数字计算的一种方式。 chatgpt的训练,是把所有收集的文档内容,通过遮盖文档的一部分,进行预测,来建立所有文字之间的上下文关系。当我们输入一个问题,chatgpt把他已知的文字向量关系输出给我们。对于sora的训练,是把所有收集的图片,通过打马赛克的方式进行遮挡,再反向通过全马赛克开始进行预测,从而输出一幅高质量图片,再加上时间轴连成视频。

3. 专业领域模型有自己的生成逻辑

专业领域模型通常有自己的计算逻辑,专业领域模型,一种是科学领域,一种是应用领域。

在科学领域:

  • 央视报道:AI 仅用6周时间破解了移民火星的生存之谜,模拟243次实验,从数百万的方法中,找到了产生氧气的黄金配方,15小时,暴力穷举,足够人类生存的氧气。
  • 用AI进行科学研究,找到抗生素Halicin,能够杀灭对已知抗生素产生耐药性的细菌菌株。研究小组找到包含2000种已知特性分子数据库,标记是否能组织细菌生长,进行模型训练,自动识别哪些分子能进行抗菌。最后用来审查FDA批准的药物,和天然产品库的6万多种不同的分子结构。
  • Google推出的 GraphCast 产品预测天气预报,1 分钟内预测未来 10 天的天气,GraphCast 是一种基于机器学习和图神经网络 (GNN) 的天气预报系统,比传统方法便宜 1000 倍。

在应用领域:

  • 量化交易模型,根据金融市场交易的数据、信息、规则等,设计模型构建交易策略,实现基金的盈利。
  • 风险甄别模型,根据进出口货物贸易的法规、报关单数据、国际形势变化等,发现走私、逃税、洗钱等风险。

在专业领域中,我们都是从目标出发,到底要解决什么问题。那么,我们在培养一个专业的数据分析师时,一般会按照专家路线,从业务入手,边做边理解。但反观大模型的生成式的训练过程,其实与培养人的过程是不同的。

因此,大模型在短期内,应该还不能把我们替代。

4. 数据分析,如何结合大语言模型

如果不能替代,那么就考虑怎么结合。

让大模型结合专业领域模型,是一种可行的路径。以大模型为主线,打通各个孤立的专业领域模型。比如:天气+粮食+进出口贸易+国际形势 = ? 是否会有粮食危机。药品 + 疾病 + 基因 + 政策 = ?会出现什么。

从而找到市场的空白点,帮助数据分析师找到新的思路。

数据分析领域,我们也有一些痛点:

痛点一,随着chatgpt在生活中的普及,同时提升了大家的认知水平。做数据分析的从业者,又开始要面对领导提出问题,现在AI这么牛了,把数据给了模型,结果就出来了,应该要想什么就有什么,为什么你们做不到。说技术听不懂,说成本预算有限。所以,toG 的项目,也是挺难干的。

痛点二,整个的数据分析过程,对于大部分没有一线参与建模的人来说,还是不理解的,就像我们也不理解chatgpt,sora的一样,只是根据效果、论文、别人的解释,进行理解。如果通用人工智能,如果可以把整个的数据处理、加工、建模过程,可视化、解释性,进行解释出来,就是把专业的知识简单化,就可以大幅提升数据分析行业效率。

最后,说说我理解的 大模型toG落地。从技术上来讲,建模过程主要是训练和推理。训练:通过海量的高质量数据进行训练,特别是结合内网数据,结合知识图谱数据,可以大幅提升行业模型的适配度,让AI懂行业。推理:结合专业领域模型,进行推理的模拟,进行目标导向,提升准确率。

如果有一天实现了 适用于各个行业通用的推理引擎,专业领域模型就真的可以被替代了,也许世界模拟器,也就能真正实现了。

观点不成熟,而且仅聚焦于我所处于的行业。

转载请注明出处:
http://blog.fens.me/ai-sora