当数据贡献者成为牺牲品:如何平衡AI时代的利益格局

张开发
2026/4/16 1:27:50 15 分钟阅读

分享文章

当数据贡献者成为牺牲品:如何平衡AI时代的利益格局
随着闭源模型越来越多一个尖锐的问题浮出水面贡献数据的公众反而成了牺牲品——工作被挤占、模型在涨价、收益却与己无关。数以亿计的用户在互联网上分享内容这些数据被用于训练各种AI模型。然而数据的原始贡献者既无法获得任何经济回报也对自己的数据如何使用毫不知情。科技公司基于这些数据训练出强大的闭源模型并通过API调用收费而真正的贡献者却获益为零。PODLPublic Open Data License公共开放数据许可协议正是为了解决这一系统性不公平而设计的。本文抛砖引玉期待引发更多讨论和思考。PODL - Public Open Data License公共开放数据许可协议版本 1.0 (2026 年 4 月)版权所有 © 2026 数据贡献者序言本许可协议以下简称本协议旨在保护公众开放共享数据的权益确保数据在促进人工智能AI和技术发展的同时维护数据来源的透明度、保护贡献者的权益并防止数据被用于损害公共利益的目的。本协议采用差异化许可机制鼓励模型开源对开源模型采取宽松政策对闭源商业模型要求更高的透明度和回报义务。通过行使本协议所授予的权利您以下简称使用者同意接受本协议所有条款和条件的约束。第一条 定义1.1 “数据” 指依据本许可协议发布的、由数据贡献者自愿提供的所有公开共享数据包括但不限于原始数据、经过整理、清洗、标注的数据集、文本、图像、音频、视频及其他任何形式的信息集合。1.2 “衍生模型” 指使用本协议下的数据作为训练数据之一无论其在整体训练数据中所占比例大小所产生、训练、微调或改进的人工智能模型、机器学习模型、算法或其他基于数据训练的系统。1.3 “开源模型” 指符合以下条件的衍生模型(i) 其模型权重、架构及推理代码已向公众完全、无歧视地公开(ii) 公众可自由下载、使用、修改和再分发该模型。1.4 “闭源模型” 指不符合本协议第 1.3 条开源模型定义的任何衍生模型包括但不限于以下情况(i) 模型权重未公开(ii) 仅通过应用程序编程接口API或其他远程调用方式提供服务(iii) 以任何限制公众自由使用、修改或再分发的许可证发布。1.5 “商业性使用” 指以营利或商业利益为目的使用数据或衍生模型的行为包括但不限于(i) 销售、许可、出租或转让数据或衍生模型(ii) 将数据或衍生模型整合到商业产品或服务中(iii) 使用数据或衍生模型直接或间接提供付费服务。除外情形尽管有前述规定以下情况不属于本协议定义的商业性使用中的模型收费属明确允许的行为任何服务提供商基于开源模型提供 API 托管服务且其收取的费用明确仅限于覆盖与该服务直接相关的计算资源、带宽、技术运维及基础设施成本开源模型的开发者向衍生模型的商业性使用者收取的、明确用于分摊模型训练过程中产生的计算资源、数据清洗和人工标注等直接成本的费用。1.6 “数据来源披露” 指衍生模型的发布者公开声明其训练数据中包含了本协议数据的行为该声明应至少包含(i) 所使用的 PODL 数据集的名称和版本(ii) 数据获取的时间或时间范围。1.7 “收益分享” 指闭源模型的商业性使用者根据本协议第四条的规定向数据贡献者社区进行贡献的行为。第二条 基本权利与限制2.1 权利授予数据贡献者或适用的版权持有人特此授予使用者一项全球性、非排他性、免版税、不可再许可向第三方分发数据本身除外的许可允许使用者行使以下权利(a) 复制权以任何媒介或格式复制和存储数据的权利。(b) 修改权修改、转换、改编、翻译或以其他方式创作数据衍生作品的权利。© 分发权通过任何方式向公众分发、传播、展示或提供数据或其复制件的权利。(d) 使用权为任何目的包括研究和模型训练使用、访问和分析数据的权利。2.2 权利限制上述权利的行使须严格遵守本协议第三条透明度要求、第四条差异化许可机制和第五条使用限制的规定。任何违反上述条款的行为均构成对本协议的违反并导致本协议授予的权利自动终止。第三条 训练数据透明度要求3.1 披露义务任何使用本协议数据训练衍生模型的发布者无论该模型是开源还是闭源必须在首次发布该模型及其任何后续版本时履行以下披露义务(a) 公开声明在随模型一同发布的论文、技术报告、模型卡Model Card、产品文档、API 文档或其他显著相关的材料中以清晰和易于理解的方式声明其训练数据包含了 PODL 许可的数据。(b) 披露内容该声明至少应包含第 1.6 条所定义的数据来源披露所要求的全部信息。© 披露位置该声明应置于合理显著的位置确保模型的下游使用者能够方便地获知。3.2 持续义务本条规定的数据披露义务在衍生模型的整个生命周期内持续有效包括但不限于模型的更新、升级、版本迭代和衍生版本的发布。第四条 差异化许可机制4.1 开源模型鼓励政策对于符合本协议第 1.3 条定义的开源模型其发布者和使用者享有以下宽松政策(a) 自愿原则(i) 署名鼓励但不强制要求在模型发布时声明具体的数据来源。(ii) 收益分享鼓励但不强制要求向数据贡献者社区进行收益分享。(iii) 数据透明度仅需满足本协议第三条规定的最低限度披露要求。(b) 商业使用开源模型被明确允许用于任何商业性用途包括但不限于第 1.5 条除外情形中列举的基于开源模型提供 API 服务、将模型集成到商业产品中以及为覆盖服务成本而收费的行为。© 目的本条旨在通过宽松政策积极鼓励衍生模型的开源以促进技术共享和社区生态的繁荣发展。4.2 闭源模型约束政策对于任何属于本协议第 1.4 条定义的闭源模型其发布者和商业性使用者必须遵守以下强制性要求(a) 强制署名必须在与该闭源模型相关的所有产品文档、市场营销材料、技术白皮书、API 文档及其他对外宣传资料中以清晰和显著的方式声明“本模型训练数据包含采用 PODL (Public Open Data License) 许可的公开数据”。在技术可行且不泄露商业机密的前提下应列出具体使用的 PODL 数据集名称。(b) 强制收益声明若闭源模型进行任何商业性使用并产生直接收入其商业运营主体应在第 4.2(a) 条所述的透明度报告中公开声明其为数据贡献者社区做出的贡献。贡献形式可包括但不限于向 PODL 数据贡献者基金提供资金支持、向社区回馈清洗后的新数据、公开模型训练方法等。具体的贡献方式和内容由使用者自行声明并接受社区监督。© 透明度报告闭源模型的商业运营主体应每年公开发布一份透明度报告概要说明本协议数据的使用情况以及本年度为数据贡献者社区所做的贡献。该报告应可通过公开渠道获取。(d) 审计权利PODL 数据贡献者社区或经授权的管理机构有权委托独立的第三方审计机构对闭源模型发布者的数据使用声明的准确性进行审计。审计费用由社区或管理机构承担但若审计结果发现存在故意的、重大的虚假声明则该次审计的全部费用应由被审计方承担。第五条 使用限制与禁止用途5.1 禁止用途无论衍生模型是开源或闭源任何使用者均不得将使用本协议数据训练的模型用于以下任何目的或场景(a) 大规模监控供政府机构、执法部门或商业实体用于对人群进行大规模、无差别的监控、追踪或社会信用评分。(b) 军事用途用于武器系统、自动化或自主武器的开发、部署或目标锁定或用于任何直接与军事行动、作战决策相关的支持系统。© 歧视与伤害用于生成或传播基于种族、民族、国籍、性别、性取向、宗教、年龄、残疾状况或社会经济地位的歧视性、诽谤性或仇恨性内容或用于故意生成、传播虚假信息、操纵公共舆论以及其他对社会公共利益有明显损害的活动。(d) 侵犯隐私用于在未经信息主体明确同意的情况下挖掘、推断或关联个人隐私数据或试图对已匿名化、去标识化的数据进行重新识别。5.2 合规承诺衍生模型的使用者应建立并维持合理的内部合规审查机制以尽其最大努力确保对模型的使用不违反本条规定的禁止用途。5.3 违规后果若发现任何违反本条规定的使用行为数据贡献者社区或经授权的管理机构有权(a) 要求使用者立即停止任何违规使用行为。(b) 根据本协议第九条的规定撤销对该使用者的数据使用授权。© 保留追究其他法律责任的权利。第六条 数据贡献者权益与收益分享机制6.1 贡献者权利数据贡献者对其贡献的数据保留以下精神权利(a) 署名权在数据被使用于衍生模型的训练时有权根据本协议第四条的要求获得适当的署名或来源声明。(b) 完整权有权反对任何对其贡献的数据进行的、可能有损其声誉的歪曲、篡改或其他不当使用。© 撤回权在特定、有限的情况下例如数据包含重大错误或面临无法预见的新法律风险数据贡献者可尝试撤回其数据授权。任何撤回行为均不具有追溯力不影响撤回行为生效前已经使用该数据训练的衍生模型的权利状态。6.2 收益分享机制(a) 分享基金鼓励根据本协议第 4.2(b) 条进行贡献的使用者将资金支持存入一个独立的、为数据贡献者集体利益而设立的PODL 数据贡献者基金。该基金的资金应用于(i) 向符合条件的数据贡献者进行分配(ii) 支持和维护 PODL 数据基础设施(iii) 资助新的公共数据收集和整理项目(iv) 覆盖 PODL 社区的运营和必要管理成本但此项支出在任何情况下不得超过当年基金总收入的百分之二十20%。(b) 分配原则基金的收益分配应遵循透明、公正、可追溯的原则力求依据不同数据集的贡献度和被使用比例进行分配并优先考虑个人贡献者和小型非营利研究机构的利益。© 管理机构建议由一个独立的、多方参与的PODL 管理委员会负责基金的监督、管理和分配。该委员会的构成和议事规则应另行制定。第七条 免责声明与责任限制7.1 数据现状提供本数据系按现状AS IS和可提供性AS AVAILABLE基础提供。在法律允许的最大范围内数据贡献者不对数据的准确性、完整性、可靠性、适销性、特定目的适用性、非侵权性做任何明示或默示的保证。数据贡献者不保证数据不包含任何错误、病毒或其他有害组件。7.2 责任限制在法律允许的最大范围内在任何情况下数据贡献者均不对因使用或无法使用本数据而导致的任何直接、间接、附带、特殊、惩罚性或后果性损害包括但不限于数据丢失、业务中断、商誉损失、利润损失或其他金钱损失承担任何责任无论此类损害是基于何种法律理论合同、侵权或其他即使已被告知发生此类损害的可能性。7.3 使用者责任数据使用者应自行评估本数据对其特定用途的适用性并独立承担因使用本数据而产生的一切风险和责任。第八条 协议版本与兼容性8.1 版本更新PODL 管理委员会可不时发布本协议的更新版本“新版本”。新版本将在保持本协议核心原则不变的前提下力求适应技术发展和法律环境变化。新版本草案应提前至少九十90天公示以征求公众意见。8.2 版本选择数据贡献者在发布其数据时可选择特定版本的本协议如 “PODL 1.0”。数据使用者可以选择遵守该数据发布时所适用的协议版本或遵守由 PODL 管理委员会发布的任何更新版本。8.3 协议兼容本协议力求与知识共享Creative Commons系列、开放数据共享Open Data Commons系列等主流的开放数据和内容许可协议在精神上保持兼容。若使用者在本协议条款与其他适用许可协议条款之间产生冲突则以本协议的条款为准。第九条 终止与撤销9.1 自动终止除根据本协议另有规定外使用者对本协议的任何违反将导致本协议所授予的全部权利自动、即时终止。9.2 补救期对于非故意的首次违规行为在数据贡献者或 PODL 管理委员会向使用者发出书面通知后使用者有三十30天的补救期。若使用者在补救期内完全纠正了违规行为其在本协议下的权利将自纠正之日起恢复。9.3 故意与重复违规对于故意的或重复发生的违规行为数据使用授权将被永久撤销且该使用者此后将不再被授予任何使用 PODL 许可数据的权利。第十条 其他条款10.1 法律适用本协议的订立、效力、解释、履行及争议的解决均适用数据主要发布地的法律。若无法确定主要发布地则适用大多数数据贡献者所在地的法律。10.2 争议解决因本协议引起或与本协议有关的任何争议各方应首先通过友好协商解决。协商不成的任何一方均有权将争议提交至有管辖权的法院诉讼解决或根据共同约定提交仲裁。10.3 可分割性如果本协议的任何条款被有管辖权的法院或仲裁庭认定为无效、非法或不可执行该条款应被视为可从本协议中分割且不影响本协议其余条款的有效性和可执行性。10.4 完整协议本协议包含其附录构成数据贡献者与使用者之间关于本数据使用的完整协议并取代之前所有与此相关的口头或书面沟通、陈述和约定。附录 A声明模板A.1 开源模型声明模板推荐格式本模型的训练数据包含采用 PODL (Public Open Data License) 许可的公开数据。 我们衷心感谢所有数据贡献者为推动开放科学所做出的无私奉献。 使用的 PODL 数据集概览 - [数据集名称] [版本号] - [可选其他数据集...]A.2 闭源模型声明模板强制格式本模型训练数据包含采用 PODL (Public Open Data License) 许可的公开数据。 根据具有法律约束力的 PODL 协议要求我们在此承诺 1. 公开我们所使用的 PODL 数据来源。 2. 公开声明我们为数据贡献者社区所做的贡献。 使用的 PODL 数据集明细 - [数据集名称] [版本号] 本年度对 PODL 社区的贡献声明 - [在此处描述贡献内容如资金支持、数据回馈等] 我们的年度透明度报告可在此处查阅[在此处插入报告链接]A.3 API 服务声明模板本 API 服务是基于一个开源模型提供的托管服务。该开源模型的训练数据包含 PODL 许可的数据。 我们明确声明我们对此 API 服务的收费仅限于覆盖相关的计算资源、带宽及运维成本我们不对底层模型本身收取任何许可费用。附录 B采用指南B.1 数据贡献者如何采用在您的数据集根目录下的 README.md 或元数据文件中加入以下声明This dataset is released under the terms of the PODL v1.0. Full license text: [Link to LICENSE file or PODL website]将本许可协议的全文即本文档以 LICENSE 或 LICENSE.md 的文件名包含在您的数据集中。在数据托管平台如 Hugging Face Hub, Kaggle Datasets 等的许可选项中选择 “PODL-1.0” 或 “other” 并明确注明 “PODL-1.0”。B.2 模型使用者如何合规识别审查您的训练数据源确认是否包含任何标记为 PODL 许可的数据。披露按照本协议第三条的要求在模型发布时公开数据来源信息。分类明确判断您将要发布的衍生模型是开源模型还是闭源模型。履行义务若为开源模型自愿遵循署名和收益分享的建议但必须完成第三步的披露。若为闭源模型必须履行强制署名、强制贡献声明及发布透明度报告的全部义务。避免禁止用途在内部建立机制确保模型的使用不落入第五条规定的禁止范围。B.3 常见问题问闭源模型对社区的贡献是否有最低要求答本版本协议侧重于透明度和声明义务不设定强制性的最低贡献金额或比例。我们鼓励使用者根据自身商业化成功的程度以合理和可持续的方式回馈社区。虚假或误导性的声明将受到第 4.2(d) 条审计权利的约束。问收益分享金支付给谁答本版本协议鼓励资金支持形式的贡献捐献至由 PODL 管理委员会设立的官方基金账户。在正式基金建立前使用者可在透明度报告中说明其承诺。具体信息请关注 PODL 官方网站待建的后续通知。问我们最初发布了一个开源模型但后来决定将其转为闭源模式。该怎么处理答从模型转为闭源例如不再公开新版本的权重之日起该模型及其后续版本将被视为闭源模型必须遵守本协议第 4.2 条的全部规定包括自此时间点后发布的版本的贡献声明义务。结语PODL协议的愿景是建立一个公平、透明且可持续的AI数据生态系统。我们希望通过清晰的规则平衡数据贡献者、模型开发者与公众三者之间的利益共同塑造一个开放、负责任的技术未来。我们诚挚邀请所有认同此理念的数据贡献者、模型开发者和使用者共同采用 PODL。

更多文章