人工智能时代的数据治理:重塑数据、机构和实践的十大转变

张开发
2026/4/10 2:48:33 15 分钟阅读

分享文章

人工智能时代的数据治理:重塑数据、机构和实践的十大转变
本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能也是人工智能的直接结果。随着人工智能系统快速发展并开始影响社会几乎所有领域关于治理的讨论主要集中在模型及其输出上它们的透明度、公平性、问责制和一致性。然而这种关注虽然必要却并不全面。人工智能系统的可靠性、公平性和有效性完全取决于其训练和运行所依据的数据。数据治理并非人工智能治理的边缘部分而是其基石。与此同时人工智能的兴起不仅对数据治理提出了新的要求更从根本上改变了数据治理。为了应对人工智能的能力和风险数据的定义、管理方式、使用权限以及监管机制等都在被重新定义。本文探讨了数据治理正在重塑的 10 个关键领域或转变——这些转变既是为了适应人工智能也是人工智能的直接结果。1. 重新定义数据的含义从历史上看数据治理的重点在于结构化的表格数据集。如今重心已转移到非结构化数据文本、图像、音频、视频和多模态内容这些数据为大规模模型提供了支持。大型语言模型LLM尤其依赖于从网络上抓取的大量语料库这引发了关于出处、同意、版权和代表性等方面的新治理挑战。与此同时人工智能不再仅仅是数据的消费者它也是数据的生产者。人工智能系统生成的合成文本、图像和信息越来越多地被反馈到训练流程中这引发了模型崩溃的担忧也使得对机器生成数据本身的治理框架变得尤为必要。2. 从 FAIR 到 FAIR-RFAIR原则——可查找性、可访问性、可互操作性和可重用性——长期以来一直是数据管理的指导原则并且仍然是实现负责任地访问和重用数据的基础。但人工智能系统需要更多。新增的“R”面向人工智能的准备则意在将 FAIR 原则的适用范围从可访问性和互操作性扩展到数据必须能够被算法使用的世界。这意味着不仅要考虑技术特性还要考虑治理、质量和伦理。FAIR-R 邀请各机构提出以下问题数据是否已充分标注、平衡和记录足以满足机器学习的需求代理机构、来源和目的是否明确定义谁来决定什么才算“负责任的再利用”我们看到需要将FAIR 扩展到 FAIR-RReady-for-AI以包含以下内容用于机器可解释的结构化元数据更好地记录血统和出处偏见和代表性评估符合负责任的人工智能实践。简而言之数据现在不仅必须可重复使用而且必须能够以安全、可审计且符合社会价值观的方式被机器重复使用。3. 情境作为基础设施的兴起缺乏上下文的数据在人工智能系统中越来越难以使用。模型不仅需要原始输入还需要关于含义、关系和预期用途的结构化信息。这促使人们开发出新的协议例如模型上下文协议 (MCP)该协议旨在规范上下文例如工具、记忆和环境信息的结构并将其与数据一起传输到人工智能系统。上下文正在成为一种基础设施——受到管理、管理和标准化——塑造着人工智能系统如何解释数据和处理数据。4. 从数据管理到战略数据管理传统的数据管理侧重于合规性、标准管理和质量控制。但在人工智能时代这远远不够。战略性数据管理的需求日益增长——这是一种积极主动、目标明确的方法它使数据使用与业务价值保持一致预计下游人工智能应用跨行业的代理应用关系实现大规模的负责任再利用数据管理员的角色正在从数据保管者转变为数据生态系统的协调者。5. 人工智能时代的新型许可制度现有的数据许可框架例如知识共享在设计之初并没有考虑到人工智能训练。对此出现了新的方法包括专门针对人工智能的许可证和信号机制例如“ cc-signal ”这些机制指示数据是否以及如何用于模型训练。这些发展反映了更广泛的转变从静态许可转向偏好信号和更动态、机器可读的数据权利治理。6. 社会许可与参与式治理仅靠法律合规和获得用户同意已不足以使人工智能系统中的数据使用合法化。公众信任越来越依赖于更广泛的社会许可概念。我们看到参与式机制公民大会、利益相关者咨询、社区治理模式的兴起这些机制使受影响群体能够影响有关如何使用其数据的决策。这标志着同意从一种交易转变为一种过程。7. 新的制度形式数据共享及其他为了应对数据提取和集中带来的风险新的制度安排正在涌现包括数据共享、合作社和信托机构。这些模型旨在融入集体治理使数据使用与社区偏好和共同目标保持一致重新分配数据生成的价值。在人工智能领域此类安排对于确保数据不仅被提取而且被调动起来用于集体行动和公共利益至关重要。8. 合成数据作为一种治理工具合成数据——即人工生成的、模仿现实世界模式的数据集——已逐渐成为解决隐私、访问和稀缺性挑战的一种方法。如果以负责任的方式实施其治理意义包括它可以实现安全的数据共享而不会泄露敏感信息它可以填补代表性不足数据集中的空白它引发了关于保真度、偏差放大和滥用等方面的问题。因此合成数据不仅仅是一种技术解决方案它本身就是一个新的治理对象。9. 人工智能在数据治理中的应用人工智能不仅受数据治理的约束而且越来越多地被用于执行数据治理。应用领域包括自动化数据发现与分类质量评估和异常检测监控合规性和使用模式对数据集和模型进行偏差和风险审核。这既带来了效率的提升也带来了新的风险因为治理本身也实现了部分自动化。10. 人工智能代理在数据治理中的兴起最后人工智能代理能够自主进行多步骤决策的系统的兴起标志着数据管理和治理领域进入了一个新阶段。这些代理已被用于协商数据访问权限执行治理规则动态管理数据管道作为用户和数据生态系统之间的中介这引发了关于治理系统中授权、问责和控制的根本性问题在这种系统中机器代表人类行事。小结数据治理是一种动态实践数据治理是人工智能系统赖以构建的基础。但在人工智能时代它不再是静态的基础而是一个动态的、不断发展的实践和系统并受到其所支持的技术的塑造。我们正迈向这样一个世界数据治理塑造人工智能人工智能重塑数据治理两者在一个持续的反馈循环中共同演化。未来的挑战不仅仅是调整现有框架而是要将数据治理重新构想为一种鲜活的实践和系统——能够确保人工智能不仅服务于效率和创新而且服务于公平、问责制和公共利益。

更多文章