Blog Archives

Posted:

Jan 24, 2025

Comments:

影响数据分析落地的9大影响因素

架构师的信仰系列文章，主要介绍我对系统架构的理解，从我的视角描述各种软件应用系统的架构设计思想和实现思路。

从程序员开始，到架构师一路走来，经历过太多的系统和应用。做过手机游戏，写过编程工具；做过大型Web应用系统，写过公司内部CRM；做过SOA的系统集成，写过基于Hadoop的大数据工具；做过外包，做过电商，做过团购，做过支付，做过SNS，也做过移动SNS。以前只用Java，然后学了PHP，现在用R和Javascript。最后跳出IT圈，进入金融圈，研发量化交易软件。

架构设计就是定义一套完整的程序规范，坚持架构师的信仰，做自己想做的东西。

关于作者：

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/data-analysis-factor-top9/

前言

现在我们正处于大数据时代，处处都产生数据，大部分数据已经不在稀缺，分析方法和算法模型都也写在了教课书中，如何挖掘出数据的价值，让数据分析落地，把数据价值转换为业务价值，是数据分析师核心要考虑的。数据分析要解决实际业务场景问题，伪需求、不清晰的目标，都会造成项目失败。

本文总结了影响数据分析落地的9大影响因素。

影响数据分析的因素
无处不在的伪需求
目标不明确
口嗨
自我陶醉
业务理解不到位
炫技
只用自己会的技术
模型是万能的
既要..又要..也要..还要

1. 影响数据分析的因素

影响数据落地的因素有很多，可能数据分析做着做着，就会偏离原先既定的目标。

做数据分析项目，通常在开始时，第一步，我们都要先设定分析目标是什么，要解决一个怎样的问题。第二步，要思考如何用数据来解决，能产生什么结果，这个结果对于我们目标有什么样的促进作用。第三步，方法路径是什么，用什么技术，用什么模型，怎么做数据，怎么进行训练。第四步，是对模型结果进行验证，是否结果是有效的，是否正确，又是否准确的。

一个目标明确的数据分析项目，我们通常把具体做什么，提前设计技术框架，来保证数据分析的稳定执行。

但是，在执行过程中，会遇到各样的问题。可能有我们自身思路的限制的影响，也有外界市场变化，甲方领导带来的影响，导致我们在做分析时，会有各种各样的偏差。

2. 无处不在的伪需求

伪需求是指那些表面上看起来像是需求，实际上并不是真正必需的需求，通常是由于外部压力、误解或者不合理的预期所产生的。简单来说，伪需求并非真正影响项目目标的关键需求，它可能会浪费时间和资源，导致不必要的复杂性。在一些领域，特别是在产品开发或项目管理中，伪需求可能会引发团队的误方向。比如客户可能要求一些看似有用但实际无关紧要的功能，而这些功能最终并没有为项目带来实际价值。

很多人都不能分辨，什么是真正的需求和伪需求。以为自己需要的，自己想到的，就是真正需求，而并不关心，客户想要什么。这样提出的需求，就很有局限性，通常就不是一个共性问题。

在数据分析领域，伪需求通常表现为对数据的误解或不必要的分析，导致资源浪费和效率低下。以下是一个具体的例子：

案例：缺陷状态数据分析

某公司要求数据分析师对产品缺陷的状态进行详细分析，包括每个缺陷的当前状态、历史状态变化等。然而，深入分析后发现，这些状态数据并未对产品质量改进提供实质性帮助。真正有价值的指标是缺陷的严重程度、发生频率以及修复时间等。对缺陷状态的过度分析反而分散了团队对关键问题的关注，导致资源浪费。

在上述案例中，对缺陷状态的详细分析被认为是必要的，但实际上并未对产品改进带来实际价值。这类伪需求可能源于对数据价值的误解，或是未能准确识别业务需求。为了避免陷入伪需求的陷阱，数据分析师应与业务部门密切沟通，明确分析目标，聚焦于能为决策提供支持的关键指标。

通过识别和避免伪需求，数据分析团队可以更有效地利用资源，专注于真正能推动业务发展的分析工作。

3. 目标不明确

数据分析的核心，是就数据思路解决实际的业务问题。在不了解业务的时候，可能提不出来明确的目标。另一方面，在做数据分析的过程中，可能一会儿想一个，一会儿又想一个，造成目标很多。一直就不能定位到核心目标是什么。比如，我们的目标是从期货市场赚到钱。首先，要研究期货数据，然后研究策略，然后进行交易，最后赚到钱。

但目标不明确，导致分析方向不明确，难以得出有价值的结论。

如果甲方没思路，让你来提供思路，恭喜你，你不做出10个版本，甲方是不会放过你的。如果传达不准确，领导开会一句话，你为了这句话，绞尽脑汁，也不可能想到他的心理去。如果多个决策人，A处说一，B处说二，C处说三，都对，都是领导，后面就可以自行脑补了。

4. 口嗨

口嗨：大厂的人都说了能实现，所以这个技术一点也不难。

由于现在的短视频很发达，我们经常会刷到各种神乎其神的技术，解决了人类一大痛点问题。现在可能只是一个很小的突破，未来真的有可能解决。也被自媒体放大或者错误解读，让大家就真的感受到未来已来的幻觉。

有了这种幻觉后，就感觉自己作为数据分析的从业者，也能做出和报道中一样的效果。

有些大公司团队，甚至把这种虚幻的内容，当成碾压小公司的亮点技术，在客户这边打散吹嘘。一旦甲方领导信了这些飘在天上的，就会对自己的下属，乃至其他的乙方团队提出相当大的质疑。

为什么大公司都说，这个实现起来很容易，你们就是不会做呢？最后领导找大公司来做了，并花费了不少的钱，搞几年烂尾了，终于知道当时那些大厂销售，是一时的口嗨。

这个故事在不断的重复。

5. 自我陶醉

自我陶醉：我做的模型非常好：查准率，查全率，F1，AUC/ROC，接近完美。

在面试做数据分析的小朋友，很多人都处于“自我陶醉”中。在完成了一些老师给的任务，或者参加kaggle的比赛，得到了一些鼓励，就觉得自己行了。

比如，基于给定的数据做分类训练，比如纽约出租车数据分析、xx地区犯罪案件分析、xx地区房屋租金分析、xx企业零售商品分析等。

当问道为什么会有这么好的结果时，回复通常是，“教课书就这么说的，我按步骤做的，就应该有这样的结果，难道不是么”。然后，一脸质疑地看着我。

只有陶醉，过于入戏了。

6. 业务理解不到位

业务理解不到位：我能找出异常点，具体对应什么问题，你们一看应该就知道。

很多从软件开发转型做数据分析的人，绝大部分精力都关注在技术实现，比如何做数据结构，如何如做ETL，如何调用某个模型等，但是对于业务逻辑，并没有清晰的认识。

他们特别擅长用神经网络一类的模型，把数据填入模型，根据技术指标做做调优。把结果成功的计算出来，认为这一定是业务需要的，他的工作就完成了。并不对结果进行解析，觉得你们一看应该就知道，这个结果怎么来的。

这将导致，结果在业务上不可用。因为业务人员也不能理解，这些结果有什么用，是什么逻辑产生的，有什么价值等。

7. 炫技

炫技：有一种新算法，这个项目一定要使用。

这可是最新的论文，能解决xx问题，在哪个杂志发表了，设计到几百个特征，几十的调参变量，50层以上的神经网络。

这种做法，会把项目带入无尽的复杂度。如果真是复杂度匹配的项目，那么这么做没问题。但如果是一个一般的项目，一个逻辑回归就能很好解决的问题，用上了复杂度过高的模型，不仅成本会大大超过，而且后期维护调优，更是噩梦。

就类似于糟糕的程序员10年攒下的屎山一样。

8. 只用自己会的技术

只用自己会的技术：我在学校里学过逻辑回归，所以我要用这个模型。

现在国内外的本科和研究生都开了数据科学的课程，在课程中会学到统计学、机器学习等的课程，大家也会掌握一些技术方法和代码的写法。

有些同学结合课堂练习，有可能掌握了1-2种的模型。后面遇到的问题，就全往这1-2个模型中套。有些问题是类似的直接套上直接能用，但是实现的问题，更具有多样性和特殊性，要因地制宜的思考解决办法，而不是套用。

在统计学领域中，有非常多的模型，不可能全在课堂上都学到，我们需要私下里努力从而掌握更多的知识。如果只用自己会的技术，就必然导致对于模型结果的偏差。

9. 模型是万能的

模型是万能的：训练一个模型，想让它干什么，它就能干什么。

说到模型，很多人就把模型直接和AI画上等号，以为AI应该是万能的。

当然chatgpt的横空出世，也进一步推升了这样的想法。现在，随着对chatgpt的熟悉，我们也发现了，在通用领域有大量的使用场景，但在专业领域还是需要专业模型。

因此，模型不是万能的，一个模型也只能解决一类的问题，如果想让他万能，就多种一些有效的专业模型，形成模型集群吧。

9. 模型应该是不花钱的

模型应该是不花钱的：既想马而跑得快，又想马儿不吃草。

训练一个模型有着巨大的成本开销，包括是高级人才的成本，服务器算力的成本，数据采集的成本，数据存储的成本，数据标记的成本等等。

人才是最宝贵，掌握核心技术的人才，可以真的让我们梦想成真。但奇葩的是，国内大部分信息化项目，人都按外包成本算，按岁数划分人头的成本，设备和数据都比人值钱。

如果要想在人把成本拉平，就需要多多的报人头。为啥科技含量这么高的项目，人这么不值钱呢。

10. 既要..又要..也要..还要

当一个模型被赋予了诸多的使命时，做出来是个四不像，谁都想用，谁都用不起来，那么这个项目必然会失败。

甲方客户，通常都有很多的需求。

既要模型准，又要速度快，也要使用简单，还要成本低。
既要解决业务问题，又要能模型自己能学业务逻辑，也要能说数据进行预警，还要对未来公司战略给出建议。
既要服务于一线工作人员解决业务落地，又要服务于公司运营能自己出完美绩效报表，也要智能设计公司宣传文案，还要自动生成给领导汇报的材料。
…

一个做了数据分析多年的老兵，自我发出一些感慨！

数据分析是一件很有价值的事情，但是我们也有太多的枷锁需要去克服。希望2025年，数据分析师们，用专业创造未来。争取有点时间，写个数据分析的系列出来！

转载请注明出处：
http://blog.fens.me/data-analysis-factor-top9/

打赏作者

Posted:

Jun 23, 2024

Tags:

AI Data 数据分析最佳实践落地

Comments:

0 Comments

2024 MS Build Post AI day – 数据分析落地的最佳实践

跨界知识聚会系列文章，“知识是用来分享和传承的”，各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议，向大家展示我所做的一些成果。从听众到演讲感觉是不一样的，把知识分享出来，你才能收获更多。

关于作者

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/meeting-post-ai-day-20240615

前言

微软的2024 AI DAY大会刚结束第二天，继续 POST AI DAY 继续知识分享。虽然 AIGC 已经火遍了大半个世界，但是在中国做 AI 要做落地，直接用到大模型还是有一定困难。大模型，还是不是仅仅停留在概念上，大多数人都是看热闹，那么解决现有数据问题，就需要有实际的落地的方法。

本次分享就以我的实际经验，介绍数据分析落地的最佳实践。

分享主题：数据分析落地的最佳实践
会议体验和照片分享

1. 分享主题：数据分析落地的最佳实践

现在我们正处于大数据时代，处处都产生数据，大部分数据已经不在稀缺，分析方法和算法模型都也写在了教课书中。如何挖掘出数据的价值，让数据分析落地，把数据价值转换为业务价值，是数据分析师核心要考虑的。

Chatgpt的出现，也让很多的数据分析从业人员感到担忧，什么时候自己会被模型所替代。这些担心是时代的机遇，让chatgpt辅助为我所用，还是挑战，直接可以我们替代。

数据分析要解决实际业务场景问题，伪需求、不清晰的目标，都会造成项目失败。数据分析不只是指标体系、更不是指标堆积，市场在变，数据也在变，我们的知识结构也要跟着变化。数据分析对人的要求也越来越高，调包侠的时代已过。以新的视角，看数据、看业务、看我们自己，适应变化，才能把项目落地。

我主要为分六个部分进行介绍：

什么是数据落地
数据分析怎么做
调包侠的时代已过
数据分析不只是指标体系、更不是指标堆积!
知识结构在变化，对人的要求越来越高
业务场景千差万别，适应变化

2. 会议体验和照片分享

此次盛会将邀请多位 MVP嘉宾，同时也有微软的员工，大家从不同的角度，把数据如何理解，如何加工，如何使用，如何落地进行阐述，我自己也是收益颇多，看到了不同层面的东西。

我们诚挚地邀请您参加本次活动，深入体验科技与智慧的精彩交融，共同见证AI时代所带来的创新、变革与无限可能。

时间：2024年06月15日 12:30 – 17:50
地点：北京市中关村丹棱街5号微软亚洲研究院 1号楼 1楼故宫厅

本次会议官方报名页：Post Microsoft Build and AI Day 北京开发者日

2.1 会议主题

在大模型产业实践专场-2专场活动，由 4位行业专家参加：姚凯、殷磊、张丹、高天辰一起作为分享嘉宾。视频回看：，https://live.csdn.net/room/MicrosoftReactor/CfdpkiN8，我讲的内容在4小时14分钟开始。

本次会议日程：

活动嘉宾阵容：

2.2 现场照片

现场所有嘉宾MVP和微软人员的合照。

MVP的合照

现场的观众

周鹏飞（主持人）

卢建辉

白海石

余兴林

占冰强

徐晔

周徐萍

张丹

衣明志

人人都有收获，活动圆满成功。同时，感谢MVP活动的霸姐支持。

转载请注明出处：
http://blog.fens.me/meeting-post-ai-day-20240615

Posted:

Mar 11, 2024

Tags:

AI AIGC sora 大模型

Comments:

1 Comment

浅谈Sora新纪元下的数据分析的变革和机会

架构师的信仰系列文章，主要介绍我对系统架构的理解，从我的视角描述各种软件应用系统的架构设计思想和实现思路。

架构设计就是定义一套完整的程序规范，坚持架构师的信仰，做自己想做的东西。

关于作者：

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/ai-sora

前言

2024年初，AIGC领域迎来跨时代技术大爆发，OpenAl发布Sora引领了新一轮的科技革命。我受邀请参加2024 Global AI Bootcamp，参加圆桌讨论：畅谈Sora新纪元下的行业变革与商业价值。会议页面：2024 Global AI Bootcamp: 畅谈Sora新纪元下的行业变革与商业价值。

我本身就处于数据分析行业，一直有关注于大模型的进展，特别是怕Sora(chatgpt) 的强大，很快会把我也进行替代，因此做了一些调研。观点不成熟，而且仅聚焦于我所处于的行业。

我的背景
Sora通用大模型目前还不完美
世界模拟器：想象空间很大
专业领域模型有自己的生成逻辑
数据分析，如何结合大语言模型

1. 我的行业背景

我是张丹，技术出身，擅长R语言，一直还处于一线做数据分析。公司是北京青萌数海科技有限公司，服务于政府客户，以数据分析、数据建模为主。

在大数据时代，各个政府部门也积累了大量的数据，但是还主要以专家经验为核心，我们通过AI模型，可以极大的提升监管的效率，提升命中的准确率。

像chatgpt，sora生成式的大模型，我们也很关注，一方面担心被替代，另一方面也在思考怎么能结合实际工作的特点，提升数据分析的效率。

2. Sora通用大模型目前还不完美

我的主要观点，目前来看Sora(chatgpt)，为代表的通用大模型目前还不完美。

我们所从事的数据分析领域模型和生成式大模型底层逻辑是不同的，从感觉上chatgpt在数据分析领域落地，还是比较难的。这种“落地”是能够直接替代数据分析师的落地，而不是指为数据分析师提供工具，还是离不开大量人工的辅助工具化。

我认为通用大模型(chatgpt) 和专业领域模型（机器学习、深度学习、强化学习），能力并一样。

特别是从评价的角度，通用大模型，现在都是一种“感觉”的评价，比如大模型chatgpt 写的文字不错，Sora生成画面很舒服，感觉很真实。而专业领域模型需要有明确的目标，要求准确、高效。比如，我们需要明确找到在100万笔电商的订单中，哪笔订单有问题，是否可能为走私、逃税的违法操作。

各个行业其实都有自己的法律、规范、要求等明确的依据条文，业务人员根据这些条文的要求设定规则，专业领域模型（机器学习）通过泛化能力，以概率的方式转化对规则边界定义，但依然保持着对目标的方向的锁定。而chatgpt大模型，似乎又近一步做了泛化，将导致对于目标的清晰度近一步丢失。

我个人感觉，大模型能落地的部分，还是面向toC的娱乐领域，在toB/toG领域还有一段路要走。就好比短视频和电影，一个是消遣和娱乐，一个是高质量和深度。领域不同，要求不同。

2. 世界模拟器：想象空间很大

OpenAI 提出Sora是世界模拟器，而不是简单的文生视频的工具，这无疑是增加了大家对Sora的未来的想象力，为了更高的估值，获得更多的资金。

当然，Sora的能力确实能给我们眼前一亮的感觉，大幅领先于同时期的模型，可以把原来做不到的进行实现。

再科幻一点的想象，Sora生成的视频，不是一个纯计算机的数字化计算。而是创造一个平行世界，把平行世界中的内容展示出来，就像神创造了人类，人类就是sora世界中的神。不仅可以对未来做预测，也可以重现历史上任何事情的发生。所以，OpenAI要做万亿美元的融资，增加算力。那么，可能就到了人类的末日了（科幻领域）。

但现在Chatgpt大模型公布的生成机理上，还到不了智慧化的水平，可能一种探索的方向。

不管是chatgpt，还是sora，都是基于Transformer框架，用到的计算机数字计算的一种方式。 chatgpt的训练，是把所有收集的文档内容，通过遮盖文档的一部分，进行预测，来建立所有文字之间的上下文关系。当我们输入一个问题，chatgpt把他已知的文字向量关系输出给我们。对于sora的训练，是把所有收集的图片，通过打马赛克的方式进行遮挡，再反向通过全马赛克开始进行预测，从而输出一幅高质量图片，再加上时间轴连成视频。

3. 专业领域模型有自己的生成逻辑

专业领域模型通常有自己的计算逻辑，专业领域模型，一种是科学领域，一种是应用领域。

在科学领域：

央视报道：AI 仅用6周时间破解了移民火星的生存之谜，模拟243次实验，从数百万的方法中，找到了产生氧气的黄金配方，15小时，暴力穷举，足够人类生存的氧气。
用AI进行科学研究，找到抗生素Halicin，能够杀灭对已知抗生素产生耐药性的细菌菌株。研究小组找到包含2000种已知特性分子数据库，标记是否能组织细菌生长，进行模型训练，自动识别哪些分子能进行抗菌。最后用来审查FDA批准的药物，和天然产品库的6万多种不同的分子结构。
Google推出的 GraphCast 产品预测天气预报，1 分钟内预测未来 10 天的天气，GraphCast 是一种基于机器学习和图神经网络 (GNN) 的天气预报系统，比传统方法便宜 1000 倍。

在应用领域：

量化交易模型，根据金融市场交易的数据、信息、规则等，设计模型构建交易策略，实现基金的盈利。
风险甄别模型，根据进出口货物贸易的法规、报关单数据、国际形势变化等，发现走私、逃税、洗钱等风险。

在专业领域中，我们都是从目标出发，到底要解决什么问题。那么，我们在培养一个专业的数据分析师时，一般会按照专家路线，从业务入手，边做边理解。但反观大模型的生成式的训练过程，其实与培养人的过程是不同的。

因此，大模型在短期内，应该还不能把我们替代。

4. 数据分析，如何结合大语言模型

如果不能替代，那么就考虑怎么结合。

让大模型结合专业领域模型，是一种可行的路径。以大模型为主线，打通各个孤立的专业领域模型。比如：天气+粮食+进出口贸易+国际形势 = ？是否会有粮食危机。药品 + 疾病 + 基因 + 政策 = ？会出现什么。

从而找到市场的空白点，帮助数据分析师找到新的思路。

数据分析领域，我们也有一些痛点：

痛点一，随着chatgpt在生活中的普及，同时提升了大家的认知水平。做数据分析的从业者，又开始要面对领导提出问题，现在AI这么牛了，把数据给了模型，结果就出来了，应该要想什么就有什么，为什么你们做不到。说技术听不懂，说成本预算有限。所以，toG 的项目，也是挺难干的。

痛点二，整个的数据分析过程，对于大部分没有一线参与建模的人来说，还是不理解的，就像我们也不理解chatgpt,sora的一样，只是根据效果、论文、别人的解释，进行理解。如果通用人工智能，如果可以把整个的数据处理、加工、建模过程，可视化、解释性，进行解释出来，就是把专业的知识简单化，就可以大幅提升数据分析行业效率。

最后，说说我理解的大模型toG落地。从技术上来讲，建模过程主要是训练和推理。训练：通过海量的高质量数据进行训练，特别是结合内网数据，结合知识图谱数据，可以大幅提升行业模型的适配度，让AI懂行业。推理：结合专业领域模型，进行推理的模拟，进行目标导向，提升准确率。

如果有一天实现了适用于各个行业通用的推理引擎，专业领域模型就真的可以被替代了，也许世界模拟器，也就能真正实现了。

观点不成熟，而且仅聚焦于我所处于的行业。

转载请注明出处：
http://blog.fens.me/ai-sora

排行榜

Blog Archives

Posted:

Comments:

影响数据分析落地的9大影响因素

1. 影响数据分析的因素

2. 无处不在的伪需求

3. 目标不明确

4. 口嗨

5. 自我陶醉

6. 业务理解不到位

7. 炫技

8. 只用自己会的技术

9. 模型是万能的

9. 模型应该是不花钱的

10. 既要..又要..也要..还要

Posted:

Tags:

Comments:

2024 MS Build Post AI day – 数据分析落地的最佳实践

1. 分享主题：数据分析落地的最佳实践

2. 会议体验和照片分享

Posted:

Tags:

Comments:

浅谈Sora新纪元下的数据分析的变革和机会

1. 我的行业背景

2. Sora通用大模型目前还不完美

2. 世界模拟器：想象空间很大

3. 专业领域模型有自己的生成逻辑

4. 数据分析，如何结合大语言模型

站内导航

最新文章

最新评论

最热文章