一场AI界的“科技罗生门”：模型指纹揭露谁在“套壳”？

最新推荐文章于 2025-07-12 09:06:47 发布

mao_feng

最新推荐文章于 2025-07-12 09:06:47 发布

阅读量1k

点赞数 17

CC 4.0 BY-SA版权

文章标签：人工智能科技模型指纹盘古大模型

本文链接：https://blog.csdn.net/mao_feng/article/details/149174192

HonestAGI项目是一场由匿名技术团队发起的AI模型原创性验证行动，通过"模型指纹"技术指控华为盘古大模型抄袭阿里Qwen模型。该项目引发了AI行业的广泛讨论，不仅涉及技术方法的科学性，还触及开源生态的规则边界、模型知识产权的法律界定以及大模型开发的伦理标准。这一事件本质上反映了AI行业在快速发展中对模型原创性判定标准的缺失与焦虑，以及开源协作与商业利益之间的复杂平衡。

一、HonestAGI是什么

HonestAGI项目由一个名为"HonestAGI"的匿名技术团队发起，他们于2025年6月30日在GitHub上发布了一份研究报告，指控华为盘古大模型(Pangu Pro MoE)抄袭了阿里巴巴的通义千问(Qwen-2.5 14B)模型。该项目的核心是通过"模型指纹"技术分析不同大模型的参数分布，以判断是否存在抄袭行为。

通俗地说，"模型指纹"类似于人类的指纹识别，每个AI大模型都有其独特的"指纹"特征。HonestAGI团队认为，通过分析模型内部参数的分布模式，可以像识别指纹一样确认模型的来源。他们发现华为盘古Pro MoE模型与阿里Qwen-2.5 14B模型在注意力参数分布上的相关性高达0.927，远超其他模型对比的正常范围（业内同类模型对比通常不超过0.7）。这种极高的相似度，让他们质疑盘古模型可能是在Qwen模型基础上进行"升级"或"套壳"而来，而非完全从零开始训练的原创模型。

除了参数分析，HonestAGI团队还发现盘古模型官方在GitCode（类似GitHub的国内代码托管平台）发布的代码中异常包含了Qwen 2024的许可证声明："transformers"组件的版权归属于Qwen团队、阿里巴巴集团和HuggingFace团队。这一发现进一步强化了他们的指控。

二、"模型指纹"技术的原理与实现方法

"模型指纹"技术是一种用于识别和区分不同深度学习模型的技术方法，旨在为模型提供独特标识，以解决模型知识产权保护、来源追溯和相似性分析等问题。HonestAGI团队提出的"模型指纹"具体实现方法如下：

参数分布分析：该技术的核心是对模型内部参数进行分析，特别是注意力机制中的Q、K、V、O矩阵。这些矩阵是Transformer架构中的关键组件，用于计算输入序列中不同位置之间的关联性。HonestAGI团队提取了这些矩阵的标准差（σ）作为特征，因为标准差能够反映参数分布的稳定性和一致性。

跨层归一化生成特征签名：团队对每个Transformer层提取相关矩阵计算标准差，然后将这些标准差按层排成序列并进行归一化处理，形成一个特征向量。这个特征向量就是所谓的"模型指纹"，它能够描述模型的内在特征和训练历史。

相似性计算：为了判断两个模型之间的相似性，团队使用皮尔逊相关系数（Pearson correlation coefficient）来计算两个模型指纹向量之间的相关性。如果相关性极高（如0.927），则表明这两个模型可能有相同的来源或训练历史。

这种方法的特点：

鲁棒性：理论上，模型指纹能够在大量持续训练后保留，即使模型架构发生变化（如从Dense变为MoE）或进行大规模继续训练。
内在性：指纹是由模型架构和训练过程自然产生的，而不是通过人为添加水印等方式实现的。
简单性：仅需对参数矩阵使用简单的统计方法（如torch.std()计算标准差）即可生成指纹。

然而，HonestAGI团队的方法也存在明显的局限性和争议点。首先，这种方法过于依赖参数分布的相似性，而忽略了模型架构、训练数据和训练过程的差异性。其次，参数标准差的计算方法缺乏权威文献支持，且未验证已知同源模型的对比结果。最后，设定0.9为抄袭阈值缺乏统计学或行业标准依据。

三、围绕HonestAGI项目的争议与各方回应

HonestAGI项目的指控引发了华为盘古团队、开源社区和业内人士的强烈回应，争议主要集中在以下几个方面：

1. 技术方法的科学性争议

盘古团队否认抄袭指控，并质疑HonestAGI的评估方法不科学。他们使用相同方法评估了其他模型对，如pangu-72b-a16b vs. Qwen2.5-14b（0.92）、baichuan2-13b vs. Qwen1.5-14b（0.87）、baichuan2-13b vs. pangu-72b-a16b（0.84）、baichuan2-13b vs. Qwen2.5-14b（0.86）。这些结果显示，不同模型之间可能存在较高的参数分布相似性，而不仅仅是盘古与Qwen之间的相似性。

盘古团队强调，他们模型是基于昇腾硬件平台开发、训练的基础大模型，创新性地提出了分组混合专家模型（MoGE）架构，有效解决了大规模分布式训练的负载均衡难题，提升训练效率。他们承认部分基础组件的代码实现参考了业界开源实践，但严格遵循了开源许可证的要求。

学术界的研究也支持盘古团队的质疑。例如，模型指纹方法存在局限性，参数分布可能因模型架构、训练路径或后处理技术而相似。模型窃取者可以通过微调、重训、剪枝或蒸馏等技术混淆模型参数，逃避指纹检测。

盘古代码中包含Qwen团队的许可证声明引发了对法律合规性的讨论。业内人士指出，这是一份标准的开源声明，当盘古大模型团队使用了第三方开发的开源软件时，根据Apache 2.0协议的要求，必须向用户说明这一事实。

3. 团队身份与动机质疑

HonestAGI团队的身份和动机也受到质疑。有网友指出，论文作者除这篇文章外没有其他科研成果，联名的五个人既没有留邮箱，也无法在Google Scholar上找到任何信息。此外，作者自称是韩国学生，却使用outlook邮箱，说话有中式英语味道，引发了对其真实身份的怀疑。

更引人注目的是，HonestAGI团队在GitHub上发布论文后，似乎已经下线了之前关于盘古大模型的研究报告。他们表示，计划在论文最终定稿并提交所有代码后，将其提交给同行评审会议（可能是ICLR或之后的会议）。

4. 前员工爆料的真实性

在争议升级过程中，一名自称是盘古大模型团队前员工的人在GitHub上发布了《盘古之殇：华为诺亚盘古大模型研发历程的心酸与黑暗》的文章，揭露了盘古大模型涉嫌"套壳、续训、洗水印"的内幕。文章声称，华为内部确实存在大规模的"套壳"行为，例如他们的135B模型其实是拿阿里千问110B改的，连代码里的名字都懒得改，还叫"Qwen"。

然而，这篇文章的真实性也受到质疑。部分网友认为文章中的一些技术细节描述较为具体，有一定的可信度；但也有用户指出文章可能存在情绪化、片面性等问题，部分观点缺乏足够的证据支持。

四、事件对AI行业的影响与启示

HonestAGI项目的争议对AI行业产生了深远影响，并引发了一系列重要启示：

1. 技术诚信与评估机制的缺失

事件暴露了AI模型原创性判定的科学性不足。目前，大模型领域的原创性评估主要依靠企业自身的声明，缺乏透明、科学的验证机制。这促使行业反思并推动建立更透明的评估标准，如训练日志审计、独立第三方验证等。

2. 开源生态的规则边界需要明确

Apache 2.0等开源协议允许代码复用和修改，但未明确禁止参数复用。事件引发了对开源生态规则边界的讨论，特别是如何界定"合理复用"与"抄袭"的界限。未来，开源协议可能需要更明确地规定参数复用的规则，以避免类似的争议。

3. 大模型开发的成本与创新模式

事件反映了大模型开发的算力与数据壁垒。训练一个14B参数的模型需要大量的计算资源和时间，这促使一些企业寻求参数复用以降低成本。然而，这种做法可能涉及学术诚信或商业道德问题。行业需要在降低研发成本和维护技术诚信之间找到平衡点。

4. 法律与行业规范的滞后性

从法律角度看，参数相似性难以直接构成侵权证据。目前的版权法主要保护代码和训练数据，而非模型参数。材料61指出，AI模型的版权保护应关注训练过程中的个性化选择（如数据处理、参数调整），而非仅参数分布。这表明法律和行业规范需要与时俱进，以适应AI技术的发展。

5. 伦理与行业共识的建立

事件引发了对AI伦理和行业共识的思考。大模型领域普遍存在"全自研"的宣传与事实之间的差距，企业往往在宣传中强调自主创新，而实际上可能借鉴了开源成果。未来，行业需要建立更清晰的伦理标准和原创性判定框架，以维护技术发展的健康生态。

五、未来展望与解决方案

HonestAGI项目的争议为AI行业提供了宝贵的经验教训，也指明了未来的发展方向：

1. 技术层面的改进

模型指纹技术需要进一步完善。现有的参数分布分析方法存在局限性，未来可以结合多种特征（如激活值、梯度信息、模型架构等）进行综合分析，提高检测的准确性和鲁棒性。有相关工作提到模型水印、哈希等技术也可以作为补充手段，增强模型的可追溯性。

2. 法律与行业规范的完善

法律和行业规范需要与时俱进，明确模型参数的知识产权保护范围。可以借鉴传统软件行业的做法，建立模型训练过程的记录和审计机制，确保模型的"血统"清晰可追溯。同时，开源协议也需要进一步细化，明确参数复用的规则和限制。

3. 开源生态的健康发展

开源是AI技术进步的重要驱动力，但需要在开放共享和保护知识产权之间找到平衡。企业可以在开源的同时，通过技术手段（如水印、指纹）保护自己的模型，防止未经授权的复制和修改。同时，行业也需要建立更透明的开源贡献和模型继承机制，明确标注模型的来源和改进过程。

4. 企业行为的规范与自律

企业需要在宣传和技术实践中保持一致，避免夸大"全自研"的宣传。在借鉴开源成果时，应明确标注和尊重原作者的贡献。同时，企业也应投资于基础研究和技术创新，减少对他人成果的依赖。

5. 社区监督与共建

开源社区的监督和共建是确保技术健康发展的重要力量。未来，可以建立由多方参与的模型原创性验证平台，提供独立、透明的评估服务。同时，社区也需要加强技术交流和知识共享，促进共同进步而非恶性竞争。

六、结论

HonestAGI项目的争议反映了AI行业在快速发展中面临的深层次问题：如何在开放共享与保护知识产权之间找到平衡，如何建立科学、透明的模型评估机制，以及如何在激烈竞争中保持技术诚信。尽管HonestAGI团队的方法存在局限性和争议，但他们的初衷值得肯定——推动AI行业的透明化和规范化。

未来，随着技术的进步和规范的完善，AI模型的原创性验证将变得更加科学和可靠。企业、学术界和开源社区需要共同努力，建立一个既鼓励创新又尊重知识产权的健康生态。只有这样，AI技术才能真正服务于人类社会的可持续发展，而不是陷入无休止的争议和诉讼中。