AI数据合规

AI 训练数据从哪来：爬虫、版权、个人信息的三条红线（AI 数据第一篇）

2026.05.22 16 分钟

这篇文章写给 AI 公司的创始人、技术负责人，以及正在评估 AI 项目的投资人。

过去一年，几起事件把同一个问题推到了台前。Anthropic（Claude 的开发方）以 15 亿美元与作家群体达成和解，平均每部作品赔偿约 3000 美元 ^[1]；爱奇艺起诉 MiniMax，理由是后者使用其影视素材训练大模型 ^[2]；2026 年 4 月，Meta 收购 Manus 的交易被国家发改委否决 ^[3]。这些事件指向的是同一个核心问题，即 AI 训练所用的数据究竟来自何处，是否合规。

就训练数据合规而言，当前的风险可以归纳为三条并列的红线：

第一条是爬虫。 它早已不只是技术问题，可能触及刑事责任；遵守 Robots 协议，并不等于数据获取合法。
第二条是版权。 中国法律没有”合理使用”这样的开放性兜底条款，但司法实践已经形成输入端相对宽松、输出端相对严格的分类思路。
第三条是个人信息。 它较为隐蔽，也容易被忽视；需要特别说明的是，去标识化并不等于匿名化。

有一点需要先讲清楚：监管当下看的，不是企业声称自己合规，而是企业能不能拿出证据证明自己合规。证据链的分量，已经重于制度文本本身。文末会提到 Manus 事件，它属于另一条线索，也就是数据与技术对外输出的问题，将在下一篇展开。

一、为什么现在必须聊这件事

中国对 AI 的监管推进速度，在全球范围内处于前列。

2023 年 8 月，《生成式人工智能服务管理暂行办法》施行，首次明确训练数据应当具有合法来源 ^[4]。2025 年 4 月，国家标准 GB/T 45654-2025 发布，并于同年 11 月 1 日实施，将训练数据的合规要求作了量化处理，例如违法不良信息占比超过 5% 即不得采集、人工抽检数量不少于 4000 条且合格率不低于 96% ^[5]。2025 年 9 月 1 日，《人工智能生成合成内容标识办法》生效，AI 生成内容须依规标识 ^[6]。

执法层面同样在推进。截至 2025 年 12 月 31 日，全国累计有 748 款生成式 AI 服务完成备案、435 款应用完成登记 ^[7]。2025 年 4 月至 6 月，“清朗·整治 AI 技术滥用”专项行动第一阶段累计处置违规 AI 产品 3500 余款、清理违法违规信息 96 万余条 ^[8]。2025 年 11 月，国家网信办首次集中查处一批未落实 AI 生成内容标识规定的应用，处置方式包括约谈、责令限期改正、下架下线 ^[9]。

可以看到，AI 合规的要求已经从原则细化为义务，而且可执行、可核查，三条红线背后都有相应的执法力量。

二、第一条红线：爬虫——技术问题与刑事风险

不少 AI 公司至今仍把爬取数据视为工程问题，关注的是爬虫是否高效、能否绕过更多的反爬机制。但 2024 年最高人民法院案例库收录的一份参考案例，已经否定了这种思路。

丁某案：突破反爬即构成犯罪

2024 年最高人民法院案例库收录的参考案例”丁某提供侵入计算机信息系统程序案”（入库编号 2024-18-1-253-001），底层判决为江苏无锡梁溪法院（2022）苏 0213 刑初 223 号 ^[11]。

被告丁某向他人提供了一款名为”客多多精准获客”的软件，该软件通过非法获取 X-Gorgon 值绕过某短视频平台的签名校验，在未经授权的情况下获取服务器中用户昵称、UID、留言、评论等访问受限数据。

法院在裁判要旨中明确指出：

具有避开或者突破网络平台等计算机信息系统安全保护措施，使他人未经授权非法获取访问受限的数据的软件，属于刑法第二百八十五条第三款规定的专门用于侵入计算机信息系统的程序。

据此，丁某构成提供侵入计算机信息系统程序罪，被判处有期徒刑一年六个月、缓刑两年，并处罚金 3 万元，同时被禁止在缓刑期内从事互联网相关经营活动。

这一案例传递出三点信息：

突破反爬是定罪关键。 判断爬取行为是否构成犯罪，关键在于是否突破了反爬措施。
数据是否公开并非决定因素。 一旦绕过对方的技术屏障，所访问的数据即属于受限数据。
提供工具者也可能担责。 即便企业自己不实施爬取，向他人提供爬虫工具的，也可能单独构成犯罪。

不少 AI 公司的训练语料采购自第三方数据服务商。这里需要追问的是，这些服务商的数据来源是否合法。如果对方是通过破解反爬措施获取的，在”明知”的认定标准下，采购方同样难以免责。

爬虫三问

AI 公司在启动一项新的爬取任务之前，至少应当回答三个问题。

目标网站是否设有反爬措施，自己是否绕过了这些措施。 无论数据是否公开，绕过即可能构成犯罪。
自己的使用方式是否会对原网站构成实质性替代。 如构成替代，则可能落入不正当竞争。
如果数据采购自第三方，对方的来源是否合法。 明知来源不法仍使用的，采购方也要承担责任。

爬虫这条红线，已经从单纯的民事责任，发展为民事与刑事责任并存。

三、第二条红线：版权——输入宽松，输出严格

中国的著作权法与美国存在明显差异。

美国设有合理使用（fair use）这一开放性条款。只要使用行为具有转换性、且不损害原作品的市场，理论上都有获得豁免的可能。正因如此，Anthropic、Meta 在美国的诉讼中仍可主张训练 AI 属于合理使用 ^[17]。

中国《著作权法》第 24 条采用的是封闭式列举，明确列出 13 种合理使用情形，包括个人学习、适当引用、课堂教学、科学研究等，其中并不包含 AI 模型训练 ^[12]。这意味着，以商业为目的的大规模训练，原则上仍需取得授权。

不过，司法实践并未完全照此处理。中国法院在裁判中形成了一条较为清晰的思路，即对输入端的训练阶段相对宽松，对输出端的生成内容相对严格。这一思路主要通过两起奥特曼案确立。

广州互联网法院：输出端要担责

第一起案件被称为”奥特曼 AI 第一案”，案号为（2024）粤 0192 民初 113 号，于 2024 年 2 月 8 日作出判决 ^[13]。

原告是奥特曼相关 IP 在中国的独家被授权方。被告是一家 AI 公司，用户在其服务中输入”奥特曼”等提示词，即可生成与正版奥特曼形象高度相似的图片。

法院判决的要点有三：

认定侵权。 被告侵犯了原告就奥特曼形象享有的复制权和改编权。
未尽合理注意义务。 被告既没有设置投诉举报机制，也没有作出风险提示，更没有对生成内容进行显著标识。
判赔并责令整改。 判决被告赔偿 1 万元，并要求其采取技术措施，防止生成实质性相似的图片。

这是全球范围内首份认定 AIGC 平台侵犯著作权的生效判决。它传递的信号很明确，AI 公司需要为自身产品所生成的侵权内容承担责任。

杭州互联网法院：输入端留有空间

同样是奥特曼，在不同法院得到的处理并不相同。

杭州互联网法院作出（2024）浙 0192 民初 1587 号判决，二审杭州中院以（2024）浙 01 民终 10332 号判决于 2024 年 12 月 30 日维持原判 ^[14]。

触手 AI 平台允许用户上传图片训练 LoRA 模型，再据此生成新的图片。有用户上传奥特曼图片，训练出奥特曼 LoRA 模型，并生成大量奥特曼图片在平台上发布，原告据此提起诉讼。

与广州互联网法院不同的是，杭州互联网法院在判决中专门论述了训练阶段的合理使用问题。法院在判决中指出：

一般情况下数据训练只是对语料数据做结构特征分析时暂时保留了在先作品，数据训练及生成过程中未将在先作品展示给公众。

也就是说，训练阶段对原作品的临时性复制，如果没有向公众展示原作品，没有影响原作品的正常使用，也没有不合理地损害权利人的合法利益，是有可能构成合理使用的。这是中国法院首次在裁判中为 AI 训练阶段的合理使用留出空间。

最终判决认定，被告作为平台对用户的侵权行为构成帮助侵权，赔偿 3 万元。需要注意的是，这一赔偿针对的是输出端，而非训练行为本身。

把两起案件放在一起看，规则就比较清晰了：

输入端（训练阶段）。 临时性复制存在合理使用的空间，前提是没有影响原作品的正常使用，也没有损害权利人的合法利益。
输出端（生成阶段）。 平台需要尽到合理注意义务，包括设置投诉举报机制、作出风险提示、对内容进行标识、对关键词进行拦截，否则需要承担责任。

海外参照：Anthropic 的 15 亿美元和解

如果把输入端存在合理使用空间当作可以放心的理由，Anthropic 的经历值得参考。

在 Bartz 诉 Anthropic 案中，加州北区联邦法院的 Alsup 法官于 2025 年 6 月 23 日作出了区分性裁定 ^[15]：

训练行为本身。 训练大模型这一行为构成合理使用，因为它具有高度的转换性。
盗版来源的获取行为。 从盗版库（如 LibGen、PiLiMi）下载并保存 700 万册以上图书，是独立的侵权行为，不受合理使用保护。

对于盗版图书，法官在裁定中明确指出，其在性质上属于”无可补救的侵权”。

2025 年 8 月，双方达成和解。同年 9 月 25 日，Alsup 法官初步批准了 15 亿美元的和解金额，涉及约 48.246 万部作品，平均每部约 3000 美元 ^[16]。

这一过程中有三点值得关注：

盗版语料应零容忍。 即便训练阶段被认定为合理使用，盗版来源仍会被独立追责。
数据销毁义务具有可执行性。 和解条款要求 Anthropic 销毁所有源自盗版库的文件及其衍生副本。
完成训练并不等于实现合规。 Anthropic 在训练属于合理使用这一争点上胜诉，却因数据来源问题付出了代价。

回到中国的语境。中国没有合理使用这样的兜底条款，本就比美国更为严格。加之爱奇艺诉 MiniMax 案、北京画师诉 AI 训练相关案件仍在司法程序之中 ^[2]，未来两年内，中国涉及训练数据的著作权纠纷，数量和维权成本都可能上升。

操作建议

在版权这条线上，建议重点做好两件事。

建立训练数据来源台账。 每一批语料的来源、所依据的协议、获取方式都应当可追溯，不应使用来源于盗版库的数据。
在输出端做好过滤与标识。 对可能涉及他人 IP 的关键词设置拦截，对生成内容进行标识，并建立投诉响应机制。

四、第三条红线：个人信息——风险隐蔽且容易被忽视

爬虫和版权属于相对显性的风险，数据来源是看得见的。个人信息则属于隐性风险，它隐藏在数据内部，企业自身往往意识不到已经触线。

合法处理路径：AI 训练的现实选择有限

《个人信息保护法》第 13 条列举了七种合法处理个人信息的情形，包括取得个人同意、为订立或履行合同所必需、履行法定义务所必需、应对突发公共卫生事件等紧急情况、为公共利益实施新闻报道等、在合理范围内处理已公开的个人信息，以及法律行政法规规定的其他情形 ^[18]。

将这些情形代入 AI 训练的场景，可以逐一分析。

个人同意。 面对海量训练数据，逐一取得同意很难实现。
合同所必需。 企业与训练数据所涉主体之间大多不存在合同关系。
法定义务与公共利益。 商业性质的 AI 公司很难据此主张。
合理范围内处理已公开的个人信息（第 27 条）。 这是目前相对可行的主要路径。

但”合理范围”本身的边界并不清晰。学界较为主流的观点主张作目的限定的解释，即如果用户当初公开信息的目的是分享个人生活，企业却将其用于训练商业 AI 模型，就超出了合理范围。

中国法院目前尚无直接对应的判例。德国科隆高等地区法院（OLG Köln）于 2025 年 5 月 23 日作出的判决可供参照，案号为 15 UKl 2/25。该判决认定，Meta 可以基于 GDPR 项下的正当利益，使用 Facebook、Instagram 上的公开数据训练 AI，但需同时满足三项条件，即事前告知、提供退出机制，以及对训练数据进行去标识化处理 ^[19]。

中国《个保法》第 27 条所称的合理范围，与欧盟的正当利益在内核上相通，在适用结果上，也可能形成类似的三项要求。

一个容易被忽视的区分：去标识化不等于匿名化

这是企业在实践中容易出问题的环节。

《个保法》第 73 条对这两个概念作了明确区分 ^[18]：

去标识化。 指个人信息经过处理，在不借助额外信息的情况下无法识别特定自然人。经过去标识化的数据仍属于个人信息，依然受《个保法》约束。
匿名化。 指个人信息经过处理无法识别特定自然人，且不能复原。匿名化后的数据不属于个人信息，不再受《个保法》约束。

业内多数所谓”脱敏”操作，在技术上只能达到去标识化的效果。无论是把姓名替换为”用户 A”，还是对身份证号作哈希处理，结果都是可逆的。这类数据进入训练集，并不能免除相应的合规义务。

要在保留数据可用价值的同时实现真正的匿名化，技术上难度很大。数据的可用价值与匿名化的程度，二者往往难以兼得。

敏感个人信息：单独同意是硬性要求

《个保法》第 28 条列举了七类敏感个人信息，包括生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹，以及不满 14 周岁未成年人的个人信息。

第 29 条规定，处理敏感个人信息应当取得单独同意。这一同意须独立于一般同意，需要单独勾选、单独告知 ^[18]。

在医疗 AI、金融 AI、人脸识别等场景中，未经单独同意将敏感个人信息纳入训练集，企业面临的风险是双重的。

行政层面。 《个保法》第 66 条规定的罚款上限为 5000 万元，或上一年度营业额的 5%。
刑事层面。 可能涉及侵犯公民个人信息罪。

用户对话数据能否用于训练

不少大模型公司有一项默认做法，即把用户与 AI 的对话数据回流至训练集，用于优化下一版模型。

《生成式人工智能服务管理暂行办法》第 11 条为这种做法划定了明确边界 ^[4]：

不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。

将用户对话用于训练，需要满足以下要求。

明确告知。 在用户协议中写明这一用途。
取得单独同意。 不能将其混入一长串概括性的同意之中。
提供退出机制。 让用户能够方便地找到退出选项，建议在首页四次点击之内即可到达。
响应查阅与删除请求。 在 15 天内予以回应。

GB/T 45654-2025 的规定更为具体，要求训练数据中含有个人信息或敏感个人信息的，应当分别取得个人同意或单独同意 ^[5]。

真实处罚案例

上述要求并非停留在纸面。可以看几起 2025 年以来的实际处罚。

2025 年 6 月。 上海市委网信办对 3 款未履行备案或登记程序的 AI 应用依法约谈，并作出行政处罚 ^[8]。
2025 年 11 月 25 日。 国家网信办首次集中查处一批未落实 AI 生成内容标识规定的应用，处置方式包括约谈、责令限期改正、下架下线 ^[9]。
2026 年 2 月 12 日。 国家网信办专项行动处置违规账号 13421 个，清理违法违规信息 54.3 万余条 ^[20]。

监管在处置上的一个特点，是先下架、再讨论。AI 产品一旦被认定存在合规问题，下架往往是第一时间采取的措施，而不会先行召开听证会。对于依赖产品营收的创业公司而言，这种处置方式的影响相当大。

操作建议

在个人信息这条线上，需要落实的合规动作相对较多。

修订用户协议。 把用户输入用于训练设置为独立的勾选项，并提供四次点击之内可达的退出路径。
开展个人信息保护影响评估（PIA）。 在产品上线前完成，并每半年复审一次。
做好训练数据脱敏审计。 明确区分哪些数据属于去标识化、哪些属于真正的匿名化，前者仍需履行《个保法》项下的义务。
留存敏感信息单独同意凭证。 在医疗、金融、生物识别等场景中，应当保留可追溯的同意记录。

五、三条红线对比

三条红线虽然并列，但在适用的法律、风险等级和判定标准上各有侧重，可以放在一张表里对照：

维度	爬虫	版权	个人信息
主要法律	《反不正当竞争法》、《刑法》第 285 条	《著作权法》	《个保法》、生成式 AI 暂行办法
风险等级	民事赔偿与刑事责任	民事赔偿	民事赔偿、行政罚款与刑事责任
典型案例	大众点评诉百度案 ^[10]、丁某案	广互、杭互两起奥特曼案	网信部门专项执法处置
关键判定标准	是否突破反爬措施、是否构成实质性替代	输入端临时复制、输出端实质性相似	是否取得同意或单独同意
海外参照	无	Anthropic 15 亿美元和解	德国 Meta 案中的正当利益
最低合规动作	来源台账、反爬合规审查	数据来源审计、输出端过滤	单独同意、PIA、退出机制

六、结语：监管要的不是制度链，而是证据链

这三条红线都不是抽象的原则，而是可以被执法的具体义务。

监管真正关注的，不是企业是否备有一份 AI 合规制度文件，而是以下这些问题。

训练数据的每一条来源能否溯源
个人信息的每一次使用是否都有同意凭证
输出端的拦截规则是否留有更新日志
用户投诉的响应是否有时间记录

这就是证据链。监管的重心，已经从企业声称做了什么，转向核查企业实际做了什么。

回到本文开头的问题，AI 训练所用的数据究竟从何而来。答案并非单一来源，而是开源数据、商业采购、用户授权、合成数据等多种来源的组合，每一种都需要相应的合规凭证。数据野蛮生长的阶段已经过去，接下来的竞争，在于哪家企业的数据合规基础工作做得更为扎实。

七、下一篇预告：Manus 事件，红线之外的合规命题

本文讨论的三条红线，针对的是数据如何进入的问题。除此之外，还有一条同样重要的线索，即数据与技术如何对外输出。

Manus 的经历颇具代表性。它于 2025 年 3 月发布，一度被外界称为”下一个 DeepSeek”；同年 7 月将总部迁至新加坡，并裁减了国内大部分员工；12 月 30 日宣布以约 20 亿美元的价格出售给 Meta，几乎成为 Meta 历史上规模排名第三的并购；2026 年 1 月商务部启动审查；4 月 27 日，交易被否决。

监管真正针对的，是中国孵化技术、海外重组、再出售给硅谷的整条路径，而非新加坡公司这一主体本身。

对于抱有出海退出预期的 AI 创业公司，Manus 事件确立了一条新的红线，即法人主体的迁移并不能规避监管，技术的源头是有国籍的，训练数据和模型权重尤其如此。

下一篇将详细讨论这一事件，以及它对投资人和创始人的现实意义。

参考文献

[1] NPR. “Anthropic to pay authors $1.5 billion in settlement over chatbot training material.” 2025 年 9 月 5 日. https://www.npr.org/2025/09/05/g-s1-87367/anthropic-authors-settlement-pirated-chatbot-training-material

[2] 新浪财经. “爱奇艺起诉 MiniMax，打响视频平台诉大模型侵权第一枪.” 2025 年 1 月 8 日. https://finance.sina.com.cn/roll/2025-01-08/doc-ineefkfz1347216.shtml

[3] 第一财经. “触及红线被叫停，Meta 数十亿收购 Manus 遭否决.” 2026 年 4 月 27 日. https://www.yicai.com/news/103154862.html

[4] 国家互联网信息办公室等. 《生成式人工智能服务管理暂行办法》. 2023 年 7 月 13 日. https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

[5] 国家标准化管理委员会. 《GB/T 45654-2025 网络安全技术生成式人工智能服务安全基本要求》. 2025 年 11 月 1 日实施.

[6] 国家互联网信息办公室等四部门. 《人工智能生成合成内容标识办法》. 2025 年 3 月 14 日. https://www.cac.gov.cn/2025-03/14/c_1743654685899683.htm

[7] 国家互联网信息办公室. 《关于发布 2025 年生成式人工智能服务已备案信息的公告》. 2026 年 1 月 9 日. https://www.cac.gov.cn/2026-01/09/c_1769688009588554.htm

[8] 国家互联网信息办公室. 《中央网信办深入开展”清朗·整治 AI 技术滥用”专项行动第一阶段工作》. 2025 年 6 月 20 日. https://www.cac.gov.cn/2025-06/20/c_1752129980667315.htm

[9] 国家互联网信息办公室. 《网信部门依法集中查处一批存在人工智能生成合成内容标识违法违规问题的移动互联网应用程序》. 2025 年 11 月 25 日. https://www.cac.gov.cn/2025-11/25/c_1765795550841819.htm

[10] 人民网. “百度因不正当竞争赔大众点评 323 万.” 2017 年 9 月 6 日. http://finance.people.com.cn/n1/2017/0906/c1004-29518135.html

[11] 最高人民法院案例库. “入库参考案例：丁某提供侵入计算机信息系统程序案”（入库编号 2024-18-1-253-001）. https://www.court.gov.cn/zixun/xiangqing/449641.html

[12] 全国人民代表大会常务委员会. 《中华人民共和国著作权法》（2020 年修订）.

[13] 腾讯新闻. “全球 AIGC 平台侵权第一案宣判，奥特曼战胜 AI.” 2024 年 3 月. https://news.qq.com/rain/a/20240304A03D2Y00

[14] 杭州互联网法院公开案件信息. 2024 年 12 月.

[15] Susman Godfrey LLP. “Susman Godfrey Secures $1.5 Billion Settlement in Landmark AI Piracy Case.” 2025 年 9 月. https://www.susmangodfrey.com/wins/susman-godfrey-secures-1-5-billion-settlement-in-landmark-ai-piracy-case/

[16] The Authors Guild. “What Authors Need to Know About the $1.5 Billion Anthropic Settlement.” 2025 年 9 月. https://authorsguild.org/advocacy/artificial-intelligence/what-authors-need-to-know-about-the-anthropic-settlement/

[17] Copyright Alliance. “Kadrey v. Meta Decision: Did Meta Just Win the Battle, But Lose the War?” 2025 年 6 月. https://copyrightalliance.org/kadrey-v-meta-decision/

[18] 全国人民代表大会常务委员会. 《中华人民共和国个人信息保护法》（2021 年）.

[19] 德国科隆高等地区法院（OLG Köln）裁定，案号 15 UKl 2/25. 2025 年 5 月 23 日.

[20] 国家互联网信息办公室. 《网信部门从严整治传播无 AI 标识的虚假不实信息问题》. 2026 年 2 月 12 日. https://www.cac.gov.cn/2026-02/12/c_1772636033171974.htm

本文涉及的法规与案例依据截至 2026 年 5 月，AI 监管动态变化较快，具体以最新规定为准。

如所在企业正在评估训练数据合规，欢迎邮件交流：niufang@grandall.com.cn