Baseline：AI比赛里的“家常菜”有多香？（Datawhale AI 夏令营）

聊聊Baseline：AI比赛里的“家常菜”有多重要？

Baseline是啥？就像做菜的基础配方

Baseline有啥用？不只是试金石

在科大讯飞AI大赛里，Baseline有多重要？

简单VS复杂：Baseline的哲学思考

半小时跑通Baseline！

Step1：报名赛事（点击跳转）

Step2：启动魔搭Notebook！（点击跳转）

Step3：半小时运行一站式 baseline！

Step4：提交文件，拿下第一个分数！(点击即可跳转官网进行提交)

进阶训练

知识点概述

什么是文本编码（Text Encoding）？

什么是文本分类（Text Classification）？

什么是文本聚类（Text Clustering）？

如何在本项目中使用大模型（Large Language Model）解题？

最后，Baseline只是“基础”吗？

聊聊Baseline：AI比赛里的“家常菜”有多重要？

你有没有这种经历？兴冲冲报名个AI比赛，觉得自己能搞出个惊艳全场的模型，结果熬夜调了一堆花里胡哨的参数，分数却被主办方给的Baseline稳稳碾压。我记得几年前第一次参加机器学习比赛，信心满满地觉得自己能上排行榜，结果跑出来的成绩连Baseline的边都摸不着。那一刻，我感觉自己像个刚学做菜的小白，费尽心思整了个“创意大餐”，结果还不如我妈随手炒的家常菜香。这，就是Baseline的魅力——简单、直接，却能让你甘拜下风。今天就来聊聊，Baseline到底是个啥？它在AI比赛里，尤其像科大讯飞AI大赛（大模型方向）里，到底有多重要？

Baseline是啥？就像做菜的基础配方

说白了，Baseline就是比赛主办方给你的一套“起跑线”模型。在机器学习里，它通常是个简单但能跑通的解决方案，帮你快速上手任务。比如，它可能是最基础的线性回归、决策树，或者一个没多少层的神经网络。用生活化的比喻来说，Baseline就像你做红烧肉时，奶奶教你的“油热了放肉、加点酱油和糖”的基本配方。不花哨，但能让你吃上一口像样的饭。

我第一次接触Baseline时，还觉得它就是个“玩具模型”，跑跑就扔了。结果发现，主办方给的Baseline往往藏着对任务的深刻理解，简直是个“宝藏”。它不只是个技术工具，更像个老司机，带你先熟悉赛道，告诉你这个任务大概长啥样。

Baseline有啥用？不只是试金石

Baseline的作用，简单来说，就是帮你少走弯路，少踩坑。具体点，它有这么几个“神通”：

试金石：拿到一个乱七八糟的数据集，你咋知道从哪儿下手？Baseline就像个现成的答案，告诉你“这个任务起码能做到这样”。你可以用它来验证自己的想法，比如“我加了个特征，效果是不是比Baseline好？”或者“我的模型是不是比Baseline更靠谱？”。跑个Baseline，立马知道自己站哪儿了。
心理安慰剂：AI比赛的压力有多大，你懂的。排行榜上全是牛人，数据集复杂得让人头皮发麻。Baseline就像个好哥们儿，拍拍你肩膀说：“别慌，先试试我这套简单的，起码能跑起来。”我见过不少新手，拿到题目直接懵，但跑了个Baseline，分数70分，信心就回来了——“原来我也能搞定，接下来再优化吧！”这种从零到一的踏实感，多少复杂模型都给不了。
偷懒神器：别小看Baseline，比赛里时间紧，Baseline能帮你快速定位问题，少干无用功。比如，Baseline的代码里可能藏着数据预处理的“套路”，或者模型结构的“巧思”。你顺着它的思路优化，往往事半功倍。

但我得说，Baseline也有点“阴险”。它太容易让人满足了，跑个不错的分数，你就觉得自己已经很牛，结果忘了去探索更深的可能性。反过来，它也可能是个陷阱——你一心想着打败Baseline，调了一堆复杂模型，最后发现绕了个大圈，还是回到了简单方法的路子上。

在科大讯飞AI大赛里，Baseline有多重要？

说到科大讯飞的AI大赛（大模型技术方向），Baseline的角色就更有意思了。这类比赛通常聚焦大模型的应用，比如自然语言处理、语音识别，或者多模态任务。数据量大，任务复杂，Baseline就成了你的“导航仪”。以2023年的讯飞AI开发者大赛为例（2025年的具体细节我没法直接看到，但逻辑差不多），主办方通常会给一个基于他们开源框架的预训练模型，比如某个经典的Transformer结构。这个Baseline不只是让你跑个分数，它还藏着主办方的“私货”——他们对任务的理解、数据的特性，甚至评判标准的偏好。

我有个朋友去年参加讯飞的语音转文本任务，拿到Baseline后发现它在数据预处理上特别注重噪声过滤。他灵机一动，把自己的模型也往这个方向优化，最后拿了个前十。反过来，我也见过有人一上来就追求“最新论文里的SOTA模型”，调了半个月，效果还不如Baseline稳。你说气人不气人？这就是Baseline的另一个隐藏作用：它提醒你，简单的方法有时候比复杂的更靠谱。

更别忘了，科大讯飞的比赛评判可不只看分数。模型的稳定性、推理速度、资源消耗这些“务实”的指标，往往都很重要。Baseline通常是这些指标的标杆，主办方给你的Baseline，基本就是他们心目中“合格”的标准。你要是连Baseline都跑不过，那可得好好反思了。

简单VS复杂：Baseline的哲学思考

聊到这儿，我突然有点跑题的冲动，想说说Baseline背后的哲学。你有没有想过，为什么我们总觉得复杂模型就一定比简单的强？是不是被那些花哨的论文标题洗脑了？AI的世界里，大家都在追更深的网络、更大的参数，但有时候，一个朴素的Baseline就能让你看清问题的本质。

我有个习惯，每次参加比赛都会先把Baseline跑透，逼自己从简单的方法里榨出点新东西。比如，调整一下特征工程，或者换个损失函数，有时候效果比堆模型强多了。这让我想起做菜：你可以加一堆奇奇怪怪的调料，但最打动人的，往往还是那碗最简单的家常菜。Baseline就是AI比赛里的“家常菜”，不花哨，但总能让人觉得踏实。

半小时跑通Baseline！

Step1：报名赛事（点击跳转）

链接：2025 iFLYTEK AI开发者大赛-讯飞开放平台

按照官网指示报名比赛即可

Step2：启动魔搭Notebook！（点击跳转）

链接：ModelScope 魔搭社区

新用户需要先注册 & 绑定阿里云账号

进入环境时，可能需要登录阿里云账号，支付宝扫码登录即可

选择【方式一：CPU】、启动！

查看Notebook

Step3：半小时运行一站式 baseline！

下载baseline文件 （大约需要2分钟）

在终端输入如下命令，回车运行！

git lfs installgit clone https://www.modelscope.cn/datasets/Datawhale/AISumerCamp_video_comments_insights_baseline.git

PS：如果没有看到文件夹的话，可点击左上角的🔄按钮刷新

打开文件，一键运行！

（大约需要10分钟）等待运行完成，下载 submit.zip 文件！

Step4：提交文件，拿下第一个分数！(点击即可跳转官网进行提交)

链接：2025 iFLYTEK AI开发者大赛-讯飞开放平台

点击【提交结果】，上传submit.zip即可

这是我跑的分数

进阶训练

在当下电商直播爆发式增长的数字化浪潮中，短视频平台积累了海量的带货视频及用户互动数据。

这些数据不仅仅是消费者对商品体验的直接反馈，更蕴含着驱动商业决策的深层价值。

带货视频评论用户洞察的核心逻辑，在于对视频内容与评论数据的联合深度挖掘。

通过智能识别视频中推广的核心商品，并结合评论区用户的情感表达与观点聚合，
企业能够精准捕捉消费者对商品的 真实态度 与 需求痛点。
这种分析方式不仅能揭示用户对商品功能、价格、服务等多维度的评价，
还能通过情感倾向聚类，构建消费者偏好画像，从而为 选品策略优化 和 网红合作评估 提供有力的数据支撑。

该压缩包内必须包含一个名为 submit 的文件夹，并且该文件夹内必须包含两个 CSV 文件： submit_videos.csv 和 submit_comments.csv 。

文件	字段要求
submit_videos.csv	video_id[标识]：需要预测的视频唯一标识product_name：识别结果-相关产品名
submit_comments.csv情感分类任务的结果+ 聚类提炼的主题词结果	video_id[标识]：需要预测的视频唯一标识comment_id[标识]：需要预测的评论唯一标识sentiment_category分类结果：关于商品的情感倾向分类数值含义：1-正面，2-负面，3-正负都包含，4-中性，5-不相关。user_scenario分类结果：是否与用户场景有关，0表示否，1表示是user_question分类结果：是否与用户疑问有关，0表示否，1表示是user_suggestion分类结果：是否与用户建议有关，0表示否，1表示是positive_cluster_theme聚类结果：按正面倾向聚类的类簇主题词negative_cluster_theme聚类结果：按负面倾向聚类的类簇主题词scenario_cluster_theme聚类结果：按用户场景聚类的类簇主题词question_cluster_theme聚类结果：按用户疑问聚类的类簇主题词suggestion_cluster_theme聚类结果：按用户建议聚类的类簇主题词

带货视频内容文本信息origin_videos_data.csv的数据格式

序号	变量名称	变量格式	解释
1	video_id	string	视频id
2	video_desc	string	视频描述
3	video_tags	string	视频标签
4	product_name	string	推广商品名称

注：product_name需根据提供的视频信息进行提取，并从匹配到商品列表[Xfaiyx Smart Translator, Xfaiyx Smart Recorder]中的一项。

评论区文本信息origin_comments_data.csv的数据格式

序号	变量名称	变量格式	解释
1	video_id	string	视频id
2	comment_id	string	评论id
3	comment_text	string	评论文本
4	sentiment_category	int	关于商品的情感倾向分类
5	user_scenario	int	是否与用户场景有关，0表示否，1表示是
6	user_question	int	是否与用户疑问有关，0表示否，1表示是
7	user_suggestion	int	是否与用户建议有关，0表示否，1表示是
8	positive_cluster_theme	string	按正面倾向聚类的类簇主题词
9	negative_cluster_theme	string	按负面倾向聚类的类簇主题词
10	scenario_cluster_theme	string	按用户场景聚类的类簇主题词
11	question_cluster_theme	string	按用户疑问聚类的类簇主题词
12	suggestion_cluster_theme	string	按用户建议聚类的类簇主题词

注：

a. 需进行情感分析的字段包括sentiment_category、user_scenario、user_question和user_suggestion。训练集中部分数据已提供标注，测试集需自行预测。其中字段sentiment_category情感倾向分类的数值含义见下表：

分类值	1	2	3	4	5
含义	正面	负面	正负都包含	中性	不相关

b. 需进行聚类的字段包括：

positive_cluster_theme：基于训练集和测试集中正面倾向（sentiment_category=1 或 sentiment_category=3）的评论进行聚类并提炼主题词，聚类数范围为 5~8。
negative_cluster_theme：基于训练集和测试集中负面倾向（sentiment_category=2 或 sentiment_category=3）的评论进行聚类并提炼主题词，聚类数范围为 5~8。
scenario_cluster_theme：基于训练集和测试集中用户场景相关评论（user_scenario=1）进行聚类并提炼主题词，聚类数范围为 5~8。
question_cluster_theme：基于训练集和测试集中用户疑问相关评论（user_question=1）进行聚类并提炼主题词，聚类数范围为 5~8。
suggestion_cluster_theme：基于训练集和测试集中用户建议相关评论（user_suggestion=1）进行聚类并提炼主题词，聚类数范围为 5~8。

注意，聚类样本包含训练集和测试集的全部满足上述条件的评论样本。

然后我们可以通过经验/资料查阅肉眼观测/代码等手段，对 赛事提供的数据 有大致的理解和把握

可以看到，视频包含多国语言，且存在空缺值。

知识点概述

分类是一种有监督学习任务。 这意味着在进行分类之前，我们已经拥有带有 明确标签 的训练数据。模型的任务是学习如何将新的、未见过的数据点（例如，一段评论或一个视频描述）分配到这些预定义的类别中的一个。

聚类是一种无监督学习任务。 这意味着在进行聚类时，我们 没有预先定义的标签 或类别信息。模型的任务是根据数据点之间的相似性，自动将它们分组到不同的“簇”（cluster）中，使得同一个簇内的数据点彼此相似，而不同簇之间的数据点差异较大。

什么是文本编码（Text Encoding）？

文本编码 是将人类可读的文本数据转换为机器可理解的数值表示的过程。这是所有文本分析任务的基础。

独热编码（One-Hot Encoding）： 将每个词表示为一个稀疏向量，向量中只有一个位置为1，其他位置为0。适用于词汇量较小的场景，但会产生高维稀疏向量，且无法捕捉词语间的语义关系。
词嵌入（Word Embeddings）： 将词语映射到低维连续向量空间，相似的词在向量空间中距离也相近。这是目前主流的文本编码方式。
- 静态词向量：例如Word2Vec、GloVe，它们为每个词生成一个固定的向量表示。
- 动态词向量/上下文词嵌入： 例如BERT、GPT等大模型，它们能根据词在句子中的上下文动态生成词向量，更好地捕捉多义词的含义。本次比赛中， 星火文本向量化模型 就属于此类。

什么是文本分类（Text Classification）？

文本分类 是根据文本内容将其自动归类到预定义类别的任务。在本次挑战赛中，情感分析就是一种多维度的文本分类任务。

情感分析（Sentiment Analysis）：识别文本所表达的情感倾向，包括正面、负面、中性等。本次比赛需要对评论进行 多维度情感分析 ，如情感倾向、用户场景、用户疑问和用户建议。
- 基于规则的方法： 预定义情感词典和规则来判断情感。
- 基于机器学习的方法： 使用朴素贝叶斯、支持向量机（SVM）等模型进行分类。
- 基于深度学习的方法： 使用循环神经网络（RNN）、卷积神经网络（CNN）、Transformer等模型，尤其适用于处理复杂语义。

什么是文本聚类（Text Clustering）？

文本聚类是根据文本内容的相似性，将文本自动分组，而无需预先定义类别。本次挑战赛要求按商品对指定维度的评论进行聚类，并提炼类簇总结词。

聚类算法：
- K-Means： 经典聚类算法，需要预设聚类数量K。
- 层次聚类（Hierarchical Clustering）： 构建一个树状结构（谱系图），可以直观地展示聚类过程。
- DBSCAN：基于密度的聚类算法，能够发现任意形状的簇，并且不需要预设聚类数量。
聚类评估指标：
- 轮廓系数（Silhouette Coefficient）：
- 衡量聚类结果的紧密性和分离度。值越接近1表示聚类效果越好，越接近-1表示聚类效果越差。