如何为你的大模型选对许可证
在大模型快速演进的这几年里,我们在惊叹技术奇迹的同时,也越来越清晰地意识到:开源模型不是把参数、权重丢到GitHub、HuggingFace、AtomGit上那么简单。
开源让技术扩散更快、生态更繁荣,但对于模型开发者来说,开源模型目前还处于一种"摸着石头过河"的探索状态:
- 模型参数到底是不是著作权? 在许可证未明确提及的情况下,能不能被下游随意拿去使用?
- 训练数据是否构成数据权利? 如果下游用你的模型生成了侵权作品,你会不会成为共同被告?
- 开源软件许可证(如 MIT、Apache-2.0)到底能不能覆盖模型参数、数据、生成物的授权和责任边界划分?
这些问题越来越像悬在模型开发者头上的达摩克利斯之剑,而每一个模型从业者,其实都绕不开它们。
为了帮助模型开发者和模型下游的使用者降低合规风险,也为了让开源模型生态更健康,是时候聊聊大模型究竟该如何选择许可证这个话题了。
一、开源大模型面临的"隐性风险"正在变成显性风险
从业者都知道,模型开源的几个问题点主要集中在三类:
模型参数到底算不算受著作权保护?
软件之所以受著作权保护是因为代码是开发者逐行写出来的"表达"。但模型参数并不是写出来的,而是训练出来的。因此在知识产权保护体系中,它和传统软件完全不同,其是否属于著作权法所保护的"表达"形式,能否被著作权保护存在巨大的不确定性。这意味着:你在用开源软件许可证开源模型时可能无法通过许可证的著作权授权来对最关键的模型参数、权重进行许可。数据、参数、模型结构……究竟该怎么授权?
根据 OSI 对"开源人工智能"的定义,开源 AI 必须同时授权:- 数据(Data Information)
- 代码(Code)
- 参数(Parameters) 三大要素,才能让用户拥有"使用、研究、修改、分享"四项自由。但传统开源软件许可证根本不涉及任何参数和数据的授权。
模型生成物的权利和责任到底算谁的?
如果下游用户利用上游开源模型生成的内容侵权,模型提供者是否会被追责?模型该如何进行法律保护的子弹可能还会"飞一会儿",但模型开发者和下游用户显然都需要在许可证中明确权责。如果这些风险不被妥善防范,则开源模型背后都可能隐藏着不确定的法律成本。
二、为什么很多团队仍坚持使用"开源软件许可证"?
行业里我们能看到大量模型选择 MIT、Apache-2.0 等软件许可证。以深度求索(DeepSeek)为例:其最初为大模型定制了 DeepSeek License,但后来基于以下原因,选择统一采用 MIT 协议:
- 非标准许可证可能增加开发者理解成本;
- MIT 足够宽松,有利于生态扩散。
这反映了一个现实:即便不适配,主流的宽松型开源软件许可证依然是目前最容易被社区接受、理解和传播的方式。然而从前面的风险讨论可以看到:开源软件许可证并不能完整覆盖"开源大模型"的授权需求,特别是最为核心的模型参数的授权需求。
三、当传统许可证不够用:行业开始设计"模型专用许可证"
正因为模型产生的方式与软件明显不同,国内外知名的开源基金会——开放原子开源基金会与 Linux 基金会先后发布了两套专为大模型设计的许可证:
- 开放原子模型许可证(OpenAtom Model License)(2024年中);
- OpenMDW 模型许可证(2025年初)。
这两个许可证的出现,标志着行业正式进入"模型需要用模型许可证开源"的时代。
四、模型专用许可证究竟解决了哪些核心痛点?
模型许可证可以覆盖模型三大核心要素的授权:参数、数据、模型结构。
这是传统软件许可证完全无法做到的。而开放原子模型许可证明确将"模型参数"纳入许可范围。且模型开发者可以根据自身情况和许可意愿,选择是否对以下要素:- 模型结构
- 训练数据
- 训练代码
- 推理代码 进行开源。这从根本上解决了开源软件许可证关键对象——模型参数授权缺失的问题。
授予的权利更明确、更全面
传统软件许可证通常只覆盖软件的著作权并附带许可部分专利权。但模型涉及多种知识产权元素,因此开放原子模型许可证在保留了著作权、专利权许可的基础上,还增加了"其他知识产权"兜底授权条款,以此确保模型开发者可以通过该许可证将其就模型拥有的相关权利充分许可给下游用户。而OpenMDW 则采用枚举方式,在著作权、专利权许可基础上增加了数据集和商业秘密的授权。模型提供者对模型生成物"不主张权利"
例如开放原子模型许可证明确说明:- 模型提供者不主张对生成物的任何权利;
- 模型使用者对生成物拥有完全权利并承担相关责任。 这为模型开发者和下游用户都提供了明确的法律边界。
托管服务(MaaS)场景的简化许可
开放原子模型许可证针对托管服务场景(MaaS),提供了更易用的简化许可条件,并将其四条开源许可条件:- 提供许可证副本
- 进行修改说明
- 保留权属声明
- 不得用于非法用途 豁免为,在MaaS场景中,仅遵从以下两条开源许可条件:
- 保留权属声明;
- 不得用于非法用途。 这一调整降低了MaaS场景的合规难度,增强了工程实用性,从而大幅提升相关产品的使用体验。
国际化与本地化两不误:语言友好 + 法律适用灵活
- 采用中英双语
- 未限定适用法
- 若适用中国法,则以中文版本为准 这给国内团队、国际合作、海外生态均留下充分空间。
五、开放原子模型许可证 vs OpenMDW:你该选哪个?
| 项目 | 开放原子模型许可证 | OpenMDW 模型许可证 |
|---|---|---|
| 许可对象覆盖度 | 全量:参数、结构、数据、代码 | 相同但以"列举方式"授权 |
| 授权方式 | 著作权 + 其他知识产权兜底授权 | 著作权 + 数据集 + 商业秘密 |
| 模型生成物 | 明确不主张任何权利,明确被许可方自担风险及责任(更清晰) | 仅许可方不施加限制或义务 |
| 托管服务(MaaS)适用性 | 支持"简化许可条件"(最友好) | 无特别简化机制 |
| 语言/法律适用 | 中英双语,适用法灵活 | 仅采用英文文本 |
| 中国本地生态支持度 | Mobius、vivo BlueLM、HaiRuo-72B-Health等模型均采用开放原子模型许可证 | 刚发布、生态待发展 |
六、写在最后:开源大模型生态需要的是一个"对的工具"
当模型规模从几十亿参数扩展到上千亿参数,当训练数据从 TB 级攀升至 PB 级,当开源不再只是"技术传播",而是成为产业协作、数据合规、国际化运营的关键部分时,上游模型团队更迫切需要一个:
- 足够专业
- 许可对象及授权足够全面
- 兼顾法律与工程可用性
- 与产业生态深度对齐
的许可证工具。开放原子模型许可证恰好在这些方面做到了行业需要的平衡。它不是唯一方案,但对于中国的大模型从业者来说,或许是目前最值得认真考虑的一个"工具"。
在大模型产业高速演进的今天,"开源"几乎成为每一家模型团队在技术路线之外的核心战略议题之一。模型开源能带来声望、带来生态、带来用户,带来商业机会。但伴随而来的,还有不可忽视的风险:模型参数算不算著作权保护的"表达",是否真正向下游进行了许可?下游用你的模型生成的内容侵权,你是否要承担责任?模型权重被下游微调后商用,你还能否主张自己的权益?这些问题没有一个是"送分题",而是困扰整个行业并造成集体焦虑的"压轴题"。
而所有这些问题,最终都会汇聚到一个共同入口:许可证选择。许可证并不是开源模型可有可无的附属品,而是开源模型真正的"安全起点"。没有适配许可证的开源模型,好似"皇帝的新衣",虽可能一时享有人云亦云的"华美"盛誉,却终将免不了窗户纸捅破后的尴尬与风险。