Blog Archives

Posted:

Mar 22, 2026

Tags:

RAG 大模型机器学习

Comments:

0 Comments

2025 微软微软技术直通车：从机器学习向RAG 大模型的范式转变

跨界知识聚会系列文章，“知识是用来分享和传承的”，各种会议、论坛、沙龙都是分享知识的绝佳场所。我也有幸作为演讲嘉宾参加了一些国内的大型会议，向大家展示我所做的一些成果。从听众到演讲感觉是不一样的，把知识分享出来，你才能收获更多。

关于作者

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/meeting-ms-direct-20251227/

前言

随着生成式AI大模型的普及，很多项目开始从机器学习（ML）向RAG（检索增强生成）结合大模型的范式转变，确实标志着技术重心从特征工程（Feature Engineering）转向提示词工程（Prompt Engineering）。

这一转变体现了AI从数据驱动特征到知识驱动交互的演进，通过结合MCP多工具协同，让开发者需同时掌握数据处理、检索优化与提示词设计的能力，以应对更复杂的实际应用场景。

分享主题：从机器学习向RAG 大模型的范式转变
会议体验和照片分享

1. 分享主题：用 Copilot 构建机器学习模型

随着大模型的发展，越来越多的工作开始与AI深度结合，机器学习领域也正在经历一场范式转变。本次分享，我将从“机器学习”与“RAG+大模型”的对比出发，探讨两者的本质差异，以及RAG的到来为我们打开了哪些新的可能性。

分享围绕三个层面展开：

第一，应用场景的差异。机器学习擅长处理结构化、封闭领域的任务，如分类、回归、聚类、推荐，它依赖明确的问题定义和相对静态的数据分布。而RAG+大模型面向开放域、知识密集型的生成式任务，能够动态结合外部知识，处理文本、PDF、网页等非结构化数据。

第二，技术路径的对比。从数据处理看，机器学习以结构化数据为主，RAG则以非结构化文本为核心。从特征工程看，机器学习依赖领域专家手动设计特征或自动特征交叉；而RAG中，特征被预训练大模型的语义理解能力替代，文本通过Embedding模型自动转化为向量，提示词本身成为新的“特征”——通过角色设定、思维链、示例等方式引导模型输出。

第三，训练与评价的差异。机器学习通常需要从头训练模型，依赖大量标注数据，评价指标是准确率、F1、AUC等客观指标，可解释性强。RAG+大模型则直接调用预训练基座模型，无需重新训练（或仅需微调），评价聚焦于检索质量，如召回率、相关性评分。

最终我们将看到：机器学习与RAG大模型并非替代关系，而是解决不同问题的不同工具。理解它们的边界与互补性，才能在新的技术范式下做出更合理的技术选型。

我主要为分三个部分进行介绍：

机器学习的应用场景
RAG+大模型的应用场景
机器学习和RAG大模型的范式对比

2. 会议体验和照片分享

活动主题：OPC:AI时代的全新创业物种。一句提示词，一个新世界。One Word , One World。

三年前，ChatGPT3.5的横空出世，正式拉开了AI全新时代的序幕。短短三年间，AI以爆发式速度席卷全球，深度改变了个人与组织的生产方式。在创业领域，AI正在重塑资源配置与能力边界，OPC(One Person Company)作为”单人成军+A”的全新创业组织形态，正迅速成为未来趋势。

报名链接：https://www.huodongxing.com/event/8838166856000

2.1 会议主题

本次会议共2个会场，我们MVP的分享在MCP分会场议程。

2.2 讲师阵容

主持人，成芳，微软MvP|资深开发者社区运营实战专家|区块链、敏捷、DevOp等社区联合发起人，核心组织者

朱一婷，微软MVP和RD，NVIDIAGTC专家讲师|光辉城市CTO

主题：《MCP在智能体开发中的应用分析:场景、架构与实践》

张丹，微软MVP，R语言实践者，青萌数海CTO，PPT下载

主题：《从机器学习向RAG+大模型的范式转变》

郝冠军，微软MVP，微软技术直通车创始人

主题：《GitHub MCP Server入门》

王瑞，微软MVP， LyShak品牌创始人|奇安信科技集团安全研究员

主题：《AI技术赋能软件安全-智能二进制攻防的创新实践》

2.3 现场照片

大合照

现场美食

主会场

纯技术沟通，高质量会议，会场满满地，座无虚席！辛苦组织者的小伙伴。

转载请注明出处：
http://blog.fens.me/meeting-ms-direct-20251227/

Posted:

Mar 23, 2024

Tags:

企业数据分析机器学习落地

Comments:

0 Comments

2024 湖北工业大学宣讲：企业中数据分析怎么做

关于作者

张丹，数据分析师/程序员/Quant: R,Java,Nodejs
blog: http://fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/meeting-hbut-20240321

前言

本次分享的初衷，一方面是为了给马上就毕业的同学，说说企业中如何做数据分析；另一方面，我作为企业负责人一直招不到合适的人才，也是非常难受。如果能把实际工作中遇到的问题，提前让向面临毕业学生知道，提前做好知识储备。那么，找工作也就没那么难了，同时招人也会顺畅起来，是一种双赢的局面。

本次分享其实是，企业和学生双向奔赴的一个实践活动，但由于多种原因，没能亲自到现场，略有遗憾。

分享主题：企业中数据分析怎么做
会议体验和照片分享

1. 分享主题：企业中数据分析怎么做

现在我们正处于大数据时代，处处都产生数据，大部分数据已经不在稀缺，分析方法和算法模型都也写在了教课书中。
如何挖掘出数据的价值，让数据分析落地，把数据价值转换为业务价值，是数据分析师核心要考虑的。

数据分析要解决实际业务场景问题，伪需求、不清晰的目标，都会造成项目失败。数据分析不只是指标体系、更不是指标堆积，市场在变，数据也在变，我们的知识结构也要跟着变化。
数据分析对人的要求也越来越高，调包侠的时代已过。以新的视角，看数据、看业务、看我们自己，适应变化，才能把项目落地。

我主要为分三个部分进行介绍：

什么是数据落地
数据分析怎么做
调包侠的时代已过
企业需要什么样的人

2. 会议体验和照片分享

湖北工业大学创建于1952年，是一所以工学为主，经济学、法学、教育学、文学、理学、医学、管理学、艺术学、交叉学科等十大学科门类协调发展的多科性大学，是湖北省“双一流”建设高校、国家“中西部高校基础能力建设工程”高校、全国毕业生就业典型经验高校、全国深化创新创业教育改革示范高校、国家知识产权试点高校、国家“赋予科研人员职务科技成果所有权或长期使用权试点单位”、首批国家级现代产业学院建设单位、全国文明校园先进学校。

本次主要听从对象，面临找工作的（大三、大四、研究生），专业：数学，统计学，计算机，人数：50人，时长：1小时。
日期：2024年3月21日 15:00-16:00，远程腾讯会议。

我使用腾讯会议，远程进行的分享。

现场集中注意听课的同学们

我们企业中的实际数据分析工作，向同学们做了介绍，也希望同学们未来能够收获理想的工作。

转载请注明出处：
http://blog.fens.me/meeting-hbut-20240321

Posted:

Oct 22, 2013

Tags:

engine Hadoop Mahout recommendation source code 机器学习

Comments:

28 Comments

从源代码剖析Mahout推荐引擎

Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

从2011年开始，中国进入大数据风起云涌的时代，以Hadoop为代表的家族软件，占据了大数据处理的广阔地盘。开源界及厂商，所有数据软件，无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域，变成了大数据开发的标准。在Hadoop原有技术基础之上，出现了Hadoop家族产品，通过“大数据”概念不断创新，推出科技进步。

作为IT界的开发人员，我们也要跟上节奏，抓住机遇，跟着Hadoop一起雄起！

关于作者：

张丹(Conan), 程序员Java,R,PHP,Javascript
weibo：@Conan_Z
blog: http://blog.fens.me
email: bsspirit@gmail.com

转载请注明出处：
http://blog.fens.me/mahout-recommend-engine/

前言

Mahout框架中cf.taste包实现了推荐算法引擎，它提供了一套完整的推荐算法工具集，同时规范了数据结构，并标准化了程序开发过程。应用推荐算法时，代码也就7-8行，简单地有点像R了。为了使用简单的目标，Mahout推荐引擎必然要做到精巧的程序设计。

本文将介绍Mahout推荐引擎的程序设计。

Mahout推荐引擎概况
标准化的程序开发过程
数据模型
相似度算法工具集
近邻算法工具集
推荐算法工具集
创建自己的推荐引擎构造器

1. Mahout推荐引擎概况

Mahout的推荐引擎，要从org.apache.mahout.cf.taste包说起。

packages的说明：

common: 公共类包括，异常，数据刷新接口，权重常量
eval: 定义构造器接口，类似于工厂模式
model: 定义数据模型接口
neighborhood: 定义近邻算法的接口
recommender: 定义推荐算法的接口
similarity: 定义相似度算法的接口
transforms: 定义数据转换的接口
hadoop: 基于hadoop的分步式算法的实现类
impl: 单机内存算法实现类

从上面的package情况，我可以粗略地看出推荐引擎分为5个主要部分组成：数据模型，相似度算法，近邻算法，推荐算法，算法评分器。

从数据处理能力上，算法可以分为：单机内存算法，基于hadoop的分步式算法。

下面我们将基于单机内存算法，研究Mahout的推荐引擎的结构。

2. 标准化的程序开发过程

以UserCF的推荐算法为例，官方建议我们的开发过程：

图片摘自Mahout in Action

从上图中我们可以看到，算法是被模块化的，通过1,2,3,4的过程进行方法调用。

程序代码：


public class UserCF {

    final static int NEIGHBORHOOD_NUM = 2;
    final static int RECOMMENDER_NUM = 3;

    public static void main(String[] args) throws IOException, TasteException {
        String file = "datafile/item.csv";
        DataModel model = new FileDataModel(new File(file));
        UserSimilarity user = new EuclideanDistanceSimilarity(model);
        NearestNUserNeighborhood neighbor = new NearestNUserNeighborhood(NEIGHBORHOOD_NUM, user, model);
        Recommender r = new GenericUserBasedRecommender(model, neighbor, user);
        LongPrimitiveIterator iter = model.getUserIDs();

        while (iter.hasNext()) {
            long uid = iter.nextLong();
            List list = r.recommend(uid, RECOMMENDER_NUM);
            System.out.printf("uid:%s", uid);
            for (RecommendedItem ritem : list) {
                System.out.printf("(%s,%f)", ritem.getItemID(), ritem.getValue());
            }
            System.out.println();
        }
    }
}

我们调用算法的程序，要用到4个对象：DataModel, UserSimilarity, NearestNUserNeighborhood, Recommender。

3. 数据模型

Mahout的推荐引擎的数据模型，以DataModel接口为父类。

通过“策略模式”匹配不同的数据源，支持File, JDBC(MySQL, PostgreSQL), NoSQL(Cassandra, HBase, MongoDB)。

注：NoSQL的实现在mahout-integration-0.8.jar中。

数据格式支持2种：

GenericDataModel: 用户ID，物品ID，用户对物品的打分(UserID,ItemID,PreferenceValue)
GenericBooleanPrefDataModel: 用户ID，物品ID (UserID,ItemID)，这种方式表达用户是否浏览过该物品，但并未对物品进行打分。

4. 相似度算法工具集

相似度算法分为2种

基于用户(UserCF)的相似度算法
基于物品(ItemCF)的相似度算法

1). 基于用户(UserCF)的相似度算法

计算用户的相似矩阵，可以通过上图中几种算法。

2). 基于物品(ItemCF)的相似度算法

计算物品的相似矩阵，可以通过上图中几种算法。

关于相似度距离的说明：

EuclideanDistanceSimilarity: 欧氏距离相似度
原理：利用欧式距离d定义的相似度s，s=1 / (1+d)。
范围：[0,1]，值越大，说明d越小，也就是距离越近，则相似度越大。
说明：同皮尔森相似度一样，该相似度也没有考虑重叠数对结果的影响，同样地，Mahout通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。
PearsonCorrelationSimilarity: 皮尔森相似度
原理：用来反映两个变量线性相关程度的统计量
范围：[-1,1]，绝对值越大，说明相关性越强，负相关对于推荐的意义小。
说明：1、不考虑重叠的数量；2、如果只有一项重叠，无法计算相似性（计算过程被除数有n-1）；3、如果重叠的值都相等，也无法计算相似性（标准差为0，做除数）。
该相似度并不是最好的选择，也不是最坏的选择，只是因为其容易理解，在早期研究中经常被提起。使用Pearson线性相关系数必须假设数据是成对地从正态分布中取得的，并且数据至少在逻辑范畴内必须是等间距的数据。Mahout中，为皮尔森相关计算提供了一个扩展，通过增加一个枚举类型（Weighting）的参数来使得重叠数也成为计算相似度的影响因子。
UncenteredCosineSimilarity: 余弦相似度
原理：多维空间两点与所设定的点形成夹角的余弦值。
范围：[-1,1]，值越大，说明夹角越大，两点相距就越远，相似度就越小。
说明：在数学表达中，如果对两个项的属性进行了数据中心化，计算出来的余弦相似度和皮尔森相似度是一样的，在mahout中，实现了数据中心化的过程，所以皮尔森相似度值也是数据中心化后的余弦相似度。另外在新版本中，Mahout提供了UncenteredCosineSimilarity类作为计算非中心化数据的余弦相似度。
SpearmanCorrelationSimilarity: Spearman秩相关系数相似度
原理：Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数。
范围：{-1.0,1.0}，当一致时为1.0，不一致时为-1.0。
说明：计算非常慢，有大量排序。针对推荐系统中的数据集来讲，用Spearman秩相关系数作为相似度量是不合适的。
CityBlockSimilarity: 曼哈顿距离相似度
原理：曼哈顿距离的实现，同欧式距离相似，都是用于多维数据空间距离的测度
范围：[0,1]，同欧式距离一致，值越小，说明距离值越大，相似度越大。
说明：比欧式距离计算量少，性能相对高。
LogLikelihoodSimilarity: 对数似然相似度
原理：重叠的个数，不重叠的个数，都没有的个数
范围：具体可去百度文库中查找论文《Accurate Methods for the Statistics of Surprise and Coincidence》
说明：处理无打分的偏好数据，比Tanimoto系数的计算方法更为智能。
TanimotoCoefficientSimilarity: Tanimoto系数相似度
原理：又名广义Jaccard系数，是对Jaccard系数的扩展，等式为
范围：[0,1]，完全重叠时为1，无重叠项时为0，越接近1说明越相似。
说明：处理无打分的偏好数据。

相似度算法介绍，摘自：http://www.cnblogs.com/dlts26/archive/2012/06/20/2555772.html

5. 近邻算法工具集

近邻算法只对于UserCF适用，通过近邻算法给相似的用户进行排序，选出前N个最相似的，作为最终推荐的参考的用户。

近邻算法分为2种：

NearestNUserNeighborhood:指定N的个数，比如，选出前10最相似的用户。
ThresholdUserNeighborhood:指定比例，比如，选择前10%最相似的用户。

6. 推荐算法工具集

推荐算法是以Recommender作为基础的父类，关于推荐算法的详细介绍，请参考文章：Mahout推荐算法API详解

7. 创建自己的推荐引擎构造器

有了上面的知识，我就清楚地知道了Mahout推荐引擎的原理和使用，我们就可以写一个自己的构造器，通过“策略模式”实现，算法的组合。

新建文件：org.conan.mymahout.recommendation.job.RecommendFactory.java


public final class RecommendFactory {
...
}

1). 构造数据模型


    public static DataModel buildDataModel(String file) throws TasteException, IOException {
        return new FileDataModel(new File(file));
    }

    public static DataModel buildDataModelNoPref(String file) throws TasteException, IOException {
        return new GenericBooleanPrefDataModel(GenericBooleanPrefDataModel.toDataMap(new FileDataModel(new File(file))));
    }

    public static DataModelBuilder buildDataModelNoPrefBuilder() {
        return new DataModelBuilder() {
            @Override
            public DataModel buildDataModel(FastByIDMap trainingData) {
                return new GenericBooleanPrefDataModel(GenericBooleanPrefDataModel.toDataMap(trainingData));
            }
        };
    }

2). 构造相似度算法模型


public enum SIMILARITY {
        PEARSON, EUCLIDEAN, COSINE, TANIMOTO, LOGLIKELIHOOD, FARTHEST_NEIGHBOR_CLUSTER, NEAREST_NEIGHBOR_CLUSTER
    }

    public static UserSimilarity userSimilarity(SIMILARITY type, DataModel m) throws TasteException {
        switch (type) {
        case PEARSON:
            return new PearsonCorrelationSimilarity(m);
        case COSINE:
            return new UncenteredCosineSimilarity(m);
        case TANIMOTO:
            return new TanimotoCoefficientSimilarity(m);
        case LOGLIKELIHOOD:
            return new LogLikelihoodSimilarity(m);
        case EUCLIDEAN:
        default:
            return new EuclideanDistanceSimilarity(m);
        }
    }

    public static ItemSimilarity itemSimilarity(SIMILARITY type, DataModel m) throws TasteException {
        switch (type) {
        case LOGLIKELIHOOD:
            return new LogLikelihoodSimilarity(m);
        case TANIMOTO:
        default:
            return new TanimotoCoefficientSimilarity(m);
        }
    }

    public static ClusterSimilarity clusterSimilarity(SIMILARITY type, UserSimilarity us) throws TasteException {
        switch (type) {
        case NEAREST_NEIGHBOR_CLUSTER:
            return new NearestNeighborClusterSimilarity(us);
        case FARTHEST_NEIGHBOR_CLUSTER:
        default:
            return new FarthestNeighborClusterSimilarity(us);
        }
    }

3). 构造近邻算法模型


  public enum NEIGHBORHOOD {
        NEAREST, THRESHOLD
    }

    public static UserNeighborhood userNeighborhood(NEIGHBORHOOD type, UserSimilarity s, DataModel m, double num) throws TasteException {
        switch (type) {
        case NEAREST:
            return new NearestNUserNeighborhood((int) num, s, m);
        case THRESHOLD:
        default:
            return new ThresholdUserNeighborhood(num, s, m);
        }
    }

4). 构造推荐算法模型


 public enum RECOMMENDER {
        USER, ITEM
    }

    public static RecommenderBuilder userRecommender(final UserSimilarity us, final UserNeighborhood un, boolean pref) throws TasteException {
        return pref ? new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel model) throws TasteException {
                return new GenericUserBasedRecommender(model, un, us);
            }
        } : new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel model) throws TasteException {
                return new GenericBooleanPrefUserBasedRecommender(model, un, us);
            }
        };
    }

    public static RecommenderBuilder itemRecommender(final ItemSimilarity is, boolean pref) throws TasteException {
        return pref ? new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel model) throws TasteException {
                return new GenericItemBasedRecommender(model, is);
            }
        } : new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel model) throws TasteException {
                return new GenericBooleanPrefItemBasedRecommender(model, is);
            }
        };
    }

    public static RecommenderBuilder slopeOneRecommender() throws TasteException {
        return new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel dataModel) throws TasteException {
                return new SlopeOneRecommender(dataModel);
            }

        };
    }

    public static RecommenderBuilder itemKNNRecommender(final ItemSimilarity is, final Optimizer op, final int n) throws TasteException {
        return new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel dataModel) throws TasteException {
                return new KnnItemBasedRecommender(dataModel, is, op, n);
            }
        };
    }

    public static RecommenderBuilder svdRecommender(final Factorizer factorizer) throws TasteException {
        return new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel dataModel) throws TasteException {
                return new SVDRecommender(dataModel, factorizer);
            }
        };
    }

    public static RecommenderBuilder treeClusterRecommender(final ClusterSimilarity cs, final int n) throws TasteException {
        return new RecommenderBuilder() {
            @Override
            public Recommender buildRecommender(DataModel dataModel) throws TasteException {
                return new TreeClusteringRecommender(dataModel, cs, n);
            }
        };
    }

5). 构造算法评估模型


 public enum EVALUATOR {
        AVERAGE_ABSOLUTE_DIFFERENCE, RMS
    }

    public static RecommenderEvaluator buildEvaluator(EVALUATOR type) {
        switch (type) {
        case RMS:
            return new RMSRecommenderEvaluator();
        case AVERAGE_ABSOLUTE_DIFFERENCE:
        default:
            return new AverageAbsoluteDifferenceRecommenderEvaluator();
        }
    }

    public static void evaluate(EVALUATOR type, RecommenderBuilder rb, DataModelBuilder mb, DataModel dm, double trainPt) throws TasteException {
        System.out.printf("%s Evaluater Score:%s\n", type.toString(), buildEvaluator(type).evaluate(rb, mb, dm, trainPt, 1.0));
    }

    public static void evaluate(RecommenderEvaluator re, RecommenderBuilder rb, DataModelBuilder mb, DataModel dm, double trainPt) throws TasteException {
        System.out.printf("Evaluater Score:%s\n", re.evaluate(rb, mb, dm, trainPt, 1.0));
    }

    /**
     * statsEvaluator
     */
    public static void statsEvaluator(RecommenderBuilder rb, DataModelBuilder mb, DataModel m, int topn) throws TasteException {
        RecommenderIRStatsEvaluator evaluator = new GenericRecommenderIRStatsEvaluator();
        IRStatistics stats = evaluator.evaluate(rb, mb, m, null, topn, GenericRecommenderIRStatsEvaluator.CHOOSE_THRESHOLD, 1.0);
        // System.out.printf("Recommender IR Evaluator: %s\n", stats);
        System.out.printf("Recommender IR Evaluator: [Precision:%s,Recall:%s]\n", stats.getPrecision(), stats.getRecall());
    }

6). 推荐结果输出


    public static void showItems(long uid, List recommendations, boolean skip) {
        if (!skip || recommendations.size() > 0) {
            System.out.printf("uid:%s,", uid);
            for (RecommendedItem recommendation : recommendations) {
                System.out.printf("(%s,%f)", recommendation.getItemID(), recommendation.getValue());
            }
            System.out.println();
        }
    }

7). 完整源代码文件及使用样例：
https://github.com/bsspirit/maven_mahout_template/tree/mahout-0.8/src/main/java/org/conan/mymahout/recommendation/job

转载请注明出处：
http://blog.fens.me/mahout-recommend-engine/

打赏作者

排行榜

Blog Archives

Posted:

Tags:

Comments:

2025 微软微软技术直通车：从机器学习向RAG 大模型的范式转变

1. 分享主题：用 Copilot 构建机器学习模型

2. 会议体验和照片分享

Posted:

Tags:

Comments:

2024 湖北工业大学宣讲：企业中数据分析怎么做

1. 分享主题：企业中数据分析怎么做

2. 会议体验和照片分享

Posted:

Tags:

Comments:

从源代码剖析Mahout推荐引擎

1. Mahout推荐引擎概况

2. 标准化的程序开发过程

3. 数据模型

4. 相似度算法工具集

5. 近邻算法工具集

6. 推荐算法工具集

7. 创建自己的推荐引擎构造器

站内导航

最新文章

最新评论

最热文章