导读(下篇)

  1. 语料从哪儿来 · 爬虫、采购和著作权——爬虫红线、公开数据 ≠ 可商用、第三方采购怎么尽调、作品当训练数据有没有侵权。
  2. 出境前的几件事——要做的自查、要签的合同条款、技术上可以怎么替代,结合几个常见场景说一下。

上篇讲了”出境”的边界、敏感数据的识别和三条出境路径,建议先看上篇。


一、语料从哪儿来 · 爬虫、采购和著作权

出境只是合规链路的下半段。上半段是语料怎么进来的,如果上半段就有瑕疵,出境再合规也立不住。这一节把训练语料的几类来源分别说一下。

监管对”合法来源”的硬要求

《生成式人工智能服务管理暂行办法》第七条把训练数据的合法性义务写得很直白:训练数据应当”具有合法来源”,不得侵害他人依法享有的知识产权,涉及个人信息的应当取得同意 [1]

TC260-003 把这条原则进一步拆开。商业采购的语料,要求交易方提供来源、质量、安全等承诺及证明材料,否则不得使用;自采爬虫,要求遵守网络协议、爬取频率合理、避开非公开数据;开源数据集,要求核对授权协议是否允许商用 [2]。GB/T 45654-2025 把这套要求升级为推荐性国家标准,实施日期为 2025 年 11 月 1 日 [3]

爬虫的红线

爬虫违法的边界,过去几年判例已经基本画清。2025 年 6 月,最高检在一篇专题文章中明确:网络爬虫破解加密接口、绕过反爬机制获取数据,可同时构成非法获取计算机信息系统数据罪、非法控制计算机信息系统罪、侵犯公民个人信息罪 [4]

一个有代表性的案例:江苏常州天宁区检察院办理的某公司爬虫案,被告破解电商 App 的加密接口获取非公开数据,2024 年 1 月和 2024 年 12 月两次判决,单位被判罚金 20 万元,主犯被判有期徒刑三年缓刑五年 [4]。罪名是非法获取计算机信息系统数据罪和非法控制计算机信息系统罪并罚。

这套口径直接传导到 AI 训练场景。“为了训大模型才爬的”在法庭上没有特殊豁免;关键看技术手段(有没有绕过反爬、有没有破解加密接口)、目标数据性质(有没有触及非公开数据或者个人信息)、爬取频率(是否对目标服务器造成影响)。

公开数据集 ≠ 可商用

很多团队默认”开源就能用”。这个假设要小心。

最常见的中文与多语种公开语料源 Common Crawl,服务条款里写得很清楚:只提供访问接口,不授予对爬取内容的任何权利;遵守 robots.txt 仅仅意味着收录环节合规,版权风险原样传递给下游训练方。也就是说,你从 Common Crawl 拿到一份语料,真正的版权状态取决于这些语料原始网页的著作权,不取决于 Common Crawl 这个集子本身。

国内的开源语料集相对清晰一些。智源研究院的 WuDaoCorpora 累计开放 200GB 中文语料,采用申请制,向 770 多个研究团队提供过,包括微软、哈佛、斯坦福、华为、阿里、腾讯、鹏城实验室等 [5]。它属于研究导向的合规分发样本,但商用使用前仍需要核对其许可协议,不能假设”国内开源 = 国内随便用 + 出境随便传”。

第三方采购的尽调要点

向数据服务商或者出版方采购语料,合规层面要做的事情比一般的供应商尽调更多:

  • 来源链路是否清晰——卖方有没有底层授权或者自有版权
  • 是否包含个人信息——如果有,是否取得了”同意”以及同意是否覆盖”用于大模型训练”这一具体目的
  • 是否触及敏感行业数据或者潜在的重要数据
  • 卖方对来源、质量、安全的书面承诺与证明材料是否齐备(这是 TC260-003 的硬要求)
  • 一旦出现侵权或者合规争议,违约责任、赔偿、回购、配合调查等条款是否落实

著作权层面的几个判例

国内已经积累了几个有方向性的判例。

北京互联网法院的”春风送来了温柔”案,审理的是 Stable Diffusion 文生图作品的著作权归属与侵权问题。法院认定,用户通过提示词、参数选择对生成结果的”独创性选择与安排”可以构成美术作品;被告未经授权将该图去水印转载,侵害署名权和信息网络传播权 [6]。这个案件本身没有直接涉及训练语料,但它确认了 AI 生成物可以是受著作权法保护的作品,后续训练阶段的侵权分析就有了承接点。

广州互联网法院 2024 年 2 月生效的”奥特曼案”,直接处理 AI 平台的输出侵权问题。被告的 Tab 平台生成与奥特曼形象”实质性相似”的图片,法院认定侵害复制权、改编权,判赔 1 万元,并要求平台采取关键词过滤、显著标识、举报机制 [7]。这个案件的落点是,平台对训练或者输出阶段的著作权侵权要承担直接或者注意义务责任,不能用”是用户提示词输出的,我没有主观故意”作为免责理由。

海外有两个案件可以对照看。NYT v. OpenAI 在 2025 年 3 月 26 日,法官驳回部分 DMCA 请求,但保留了核心著作权侵权与不正当竞争 misappropriation 请求进入实体审理,另外发布了会话日志保存令 [8]。Getty Images v. Stability AI 在英国高等法院 2025 年 11 月的判决,核心著作权请求被驳回(理由是训练发生在英国境外,管辖不足),但商标侵权部分成立,AI 输出复现 Getty 水印被归责到模型方而非用户。

这两个案件给国内的提示是:训练数据来源选择会影响后续的管辖与责任承担;把训练放到海外,不天然规避国内的合规义务。

二、出境前的几件事

把上下两篇的要点合到一起,落到出境前的实操层面,大致是这样一份清单。

第一件 · 数据分级和盘点

不分级就没法判断走哪条路径。最低限度的盘点要回答三个问题:

  • 训练语料里包含哪些类型的数据——个人信息、敏感个人信息、行业敏感数据、潜在重要数据、有版权问题的内容
  • 各类数据的来源和授权链路——自采、爬虫、用户授权、第三方采购、开源集
  • 数据量级——按当年累计计算,个人信息有多少人份、敏感个人信息有多少人份、是否触及自贸区负面清单

GB/T 43697-2024 是分级的工具书;GB/T 39335-2020《信息安全技术 个人信息安全影响评估指南》是 PIA 的标准模版 [9]

第二件 · 个人信息保护影响评估(PIA)

PIA 是法定义务,不是可选项。《个人信息保护法》第五十六条规定,向境外提供个人信息应当事前做 PIA;标准合同备案、安评申报都要把 PIA 报告作为附件提交。

PIA 至少要覆盖:

  • 处理目的、方式、范围的合法性、正当性、必要性
  • 对个人权益的影响和安全风险
  • 处理者采取的保护措施与风险的匹配程度
  • 境外接收方的承诺义务、管理能力、技术能力

第三件 · 合同条款的硬约束

走标准合同路径的,《个人信息出境标准合同办法》给出了固定模版,主要的强约束条款包括 [10]

  • 接收方义务——按合同约定目的、方式、范围处理,采取技术与管理措施,接受监督
  • 再传输限制——除合同约定情形外,接收方不得再向其他境外主体提供
  • 第三方权利——个人作为第三方受益人,可直接向境内处理者或者境外接收方主张权利
  • 举报渠道——任何组织和个人可向网信部门举报,合同生效后 10 个工作日内向省级网信办备案
  • 违约责任——出现违约时,接收方在境外的财产受境内司法管辖

不走标准合同的,也建议在 DPA(数据处理协议)里参照这套结构写,起码留下完整的责任和救济链路。

第四件 · 技术替代方案

技术上能不”出”的,尽量不出。常用的几条路径:

  • 境内训练 + 境内部署——把训练和推理都放在境内,模型对外提供服务时再考虑出境
  • 自贸区负面清单内的”轻路径”——业务主体设在自贸区,数据类型避开负面清单,可以不走三条路径直接出境
  • 可信执行环境(TEE)/ 隐私计算 / 联邦学习——把”出境的是计算结果而不是原始数据”作为设计目标。信通院 2024 年发布了《隐私计算产品通用安全分级白皮书》;北京 2025 年公布首批 21 个可信数据空间试点,覆盖跨境在内的 16 个领域
  • 数据本地化 + 节点隔离——典型如 TikTok 的”Project Texas”(在美国设立 USDS 子公司隔离美国用户数据)和”三叶草计划”(在爱尔兰、挪威建数据中心隔离欧洲数据)

技术替代方案是真有用的,但也不是合规免死金牌。2025 年 4 月,爱尔兰数据保护机构因为”欧洲数据传到中国供工程师访问”对 TikTok 处以 5 亿欧元以上罚款,直接给”假本地化、真出境”做了反面案例。同样的逻辑监管侧也讲过:不得采取数量拆分、关联公司或者第三方中转等手段规避安评改走标准合同,构成犯罪的追刑事责任。技术架构上的本地化要做到真隔离、真隔断,不能只是”对外说本地化、对内仍互通”。

三类常见场景的处理思路

场景一 · 境内 AI 公司租用境外算力跑训练

实务里通常按出境处理。需要识别上传到境外 GPU 的训练数据是否包含个人信息、敏感个人信息或者潜在重要数据;若超过阈值,需要走相应路径。如果数据本身可以匿名化或者用合成数据替代,优先考虑;不能替代的,考虑把训练放回境内或者使用境外算力厂商在境内部署的本地化实例,但要核实是否真隔离。

场景二 · 境外大厂在境内采购中文语料

合规重心在卖方。卖方需要确保所售语料来源合法、不含未授权的个人信息或者重要数据、有完整的授权证明材料;采购合同应当写明用途限制、再转售限制、知识产权与个人信息合规保证、违约救济。买方也需要做尽调,理由是 GB/T 45654-2025 要求服务提供者对训练数据承担最终合规责任,买回去之后出问题”卖方没说”不是抗辩。

场景三 · 中外联合训练

阿里在 2025 年和新加坡 AI 研究机构 AISG 联合训练 Qwen-Sea-Lion-v4,基座模型用阿里 Qwen3-32B,AISG 贡献 1000 亿东南亚语 token [11]。这种模式的合规设计思路是”基座归属与数据归属分离”:基座模型的提供方负责模型权重合规,数据贡献方负责数据来源合规,出境环节按数据流向分别评估。涉及个人信息或者重要数据的数据交换,需按上篇讲的三条路径之一处理;只交换聚合结果或者梯度的,通常争议较小,但建议在合作协议里明确约定数据范围、最小化处理义务和违约责任。

三、结语

把 2024 到 2025 年这一波监管节奏梳一下,中文 AI 语料出境的合规框架其实趋于明朗:一边是《促进和规范数据跨境流动规定》和自贸区负面清单把门槛放低,一边是 GB/T 43697-2024、GB/T 45654-2025、TC260-003 和《个人信息出境认证办法》把门内的要求做实。这套思路对认真做合规的企业是利好,对”先做再说”的玩家是雷区。

对正在做大模型出海的团队,三件事建议放在最前面:一是语料来源合规(上半段就要立得住),二是数据分级和 PIA,三是路径选择不能只看哪条快,还要看哪条稳。这三件事做扎实,后面的安评、标合或者认证才能跑得动。

参考文献

[1] 国家互联网信息办公室等七部门. 生成式人工智能服务管理暂行办法. 2023-07-13. https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

[2] 全国信息安全标准化技术委员会. 生成式人工智能服务安全基本要求(TC260-003). 2024-02-29. https://www.tc260.org.cn/upload/2024-03-01/1709282398070082466.pdf

[3] 国家市场监督管理总局. GB/T 45654-2025 网络安全技术 生成式人工智能服务安全基本要求. 2025-04-25. https://www.spc.org.cn/online/f67d3f376e0a0a0ff5317fb36b32a30a.html

[4] 最高人民检察院. 准确把握网络爬虫犯罪的认定标准. 2025-06-03. https://www.spp.gov.cn/spp/llyj/202506/t20250603_697192.shtml

[5] 中国科学技术信息研究所. 北京智源研究院”悟道”中文超大规模数据集 WuDaoCorpora. 2023-09-19. https://www.ncsti.gov.cn/kjdt/scyq/zgckxc/zgcdt/202309/t20230919_133994.html

[6] 北京互联网法院. (2023)京 0491 民初 11279 号民事判决书(李某诉刘某侵害作品署名权及信息网络传播权纠纷案). 2023-11. https://www.bjinternetcourt.gov.cn/details.html?id=255

[7] 21 世纪经济报道. 全球首例!广州互联网法院判决生成式 AI 平台侵害奥特曼著作权. 2024-02-26. https://www.21jingji.com/article/20240226/herald/133a6c2f9c0b045899e4dea10c5778eb.html

[8] NPR. New York Times’ copyright case against OpenAI to go forward. 2025-03-26. https://www.npr.org/2025/03/26/nx-s1-5288157/new-york-times-openai-copyright-case-goes-forward

[9] 全国信息安全标准化技术委员会. GB/T 39335-2020 信息安全技术 个人信息安全影响评估指南. 2020. https://www.tc260.org.cn/advice/detail.html?norm_id=20180523160439

[10] 国家互联网信息办公室. 个人信息出境标准合同办法. 2023-02-24. https://www.cac.gov.cn/2023-02/24/c_1678884830036813.htm

[11] 至顶网. 阿里通义大模型 Qwen 携手新加坡 AI Singapore 联合训练 Qwen-Sea-Lion-v4. 2025-11. https://m.zhiding.cn/article/3174414.htm


本文涉及法规与判例依据截至 2026 年 5 月,数据出境政策仍在动态完善,具体以官方最新规定为准。

如有训练语料出境合规相关问题,欢迎邮件交流:niufang@grandall.com.cn