AI数据合规

训练数据出海：中文 AI 语料出境合规要点（上）——边界、数据与路径

2026.05.23 12 分钟

导读（上篇）

“把语料送出去”到底算不算出境——除了直接传文件，调用境外 API、存到境外云盘、境外团队远程看库、模型权重外发，这些动作都可能被算成出境，先把边界说清。

语料里最容易出问题的两类数据——个人信息和”重要数据”的识别思路，不堆法条，按场景讲。

三条出境路径，自己对照走哪条——安全评估、标准合同、个人信息保护认证；按数据量和企业类型对照，叠加 2024 年放宽的豁免情形。

下篇会接着讲语料从哪儿来（爬虫、采购、著作权）以及出境前要做的几件事。

去年下半年到现在，问大模型语料出境的客户明显多了起来。最常见的几个场景：境内 AI 团队租了一批新加坡的 GPU 跑训练，数据要不要传过去；研发负责人长期在多伦多，平时通过 VPN 登录北京机房的语料库；公司想把训练日志同步到 Azure 北美区域做备份；再或者，境外母公司想拿一份中文语料样本去美国训一个多语种基座模型。

这些场景看着五花八门，合规上其实只有一个核心问题：有没有”数据出境”动作，以及这个动作落在哪条监管通道里。 这篇文章分上下两部分把训练语料场景下”出境”的几条线讲完。上篇说边界、敏感数据和路径选择，下篇说语料来源、合同条款和落地场景。

一、“把语料送出去”到底算不算出境

很多人下意识把”出境”等同于”传文件”。监管的口径其实宽得多。

国家网信办 2022 年颁布的《数据出境安全评估办法》第二条对”出境”做了定义，落到一句话就是”数据处理者向境外提供在境内运营中收集和产生的重要数据和个人信息” ^[1]。配套的答记者问把这句话拆得更明白，数据出境包括两类动作：一是把境内收集、产生的数据传输或者存储到境外；二是数据本身停留在境内，但是境外的机构、组织或者个人可以访问或者调用 ^[2]。

后一种情形容易被忽略。把数据库放在腾讯云上海节点，境内的服务器没动，但是给伦敦的工程师开了一个远程访问账号，让他能随时跑 SQL、拉日志、下载切片，这在监管口径里和把数据直接传到伦敦没有本质区别。同理，境内 AI 公司把训练任务跑在 Azure 美东区域的 GPU 上，数据流是从境内出去的，即便最终模型权重回到了境内，中间这段也是典型的出境行为。

2025 年 10 月，网信办发布了《数据出境安全管理政策问答》，做了几个反向澄清 ^[3]。其中一条是：境外机构、组织的工作人员人在境内，查询、调取、下载、导出存储在境内的数据，只要数据没有传输到境外，不属于数据出境活动；判定的关键是”访问或者调用行为发生地”在不在境外。这个口径反过来印证了前一段的判断：人在哪儿、数据流向哪儿，比”数据物理位置”更重要。

另外一个常被问的是模型权重。一个用大量中文语料训练出来的基座模型，把权重打包传给境外母公司，算不算数据出境？监管目前没有明文界定。《数据出境安全评估办法》和《促进和规范数据跨境流动规定》的规制对象都是”个人信息”和”重要数据”，而模型权重在性质上更接近无形资产，不直接落入这两类。但权重是训练语料的统计学产物，在某些情形下被认为能”记忆”训练集中的具体信息，尤其是个人信息或者重要数据。实务里通常按谨慎口径处理： 如果训练集本身包含规模化的个人信息，且能合理推断权重存在记忆风险，出境前就要做相应评估，不能仅以”传的是模型不是数据”作为豁免依据。

把这一节的边界归纳一下，以下动作通常都会被纳入”数据出境”口径，需要事先识别：

把语料文件、数据库切片、训练日志传到境外服务器或者云盘
调用境外大模型 API 训练或者推理，且请求中含有境内收集的个人信息或者重要数据
把境内库放在境内服务器但开放给境外人员远程访问、查询、下载
在境内租用境外厂商的”本地化”实例，但实际数据流经境外节点
把含有上述数据的统计产物（包括但不限于模型权重）交付给境外主体

判定要点不是”动作长得像不像传文件”，而是数据类型、数量阈值与境外主体的访问能力。下面两节会接着讲这两个判定要素：什么数据敏感、过哪个阈值要走什么路径。

二、语料里最容易出问题的两类数据

中文 AI 语料里真正会触发出境监管的，主要是两类：个人信息（含敏感个人信息），以及”重要数据”。这两类是独立的红线，不能合并处理。

个人信息的识别

《个人信息保护法》第二十八条把”敏感个人信息”定义为”一旦泄露或者非法使用，容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息”，并具体列出几类：生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹，以及不满十四周岁未成年人的个人信息 ^[4]。

训练语料场景里，个人信息很容易”夹带”进来。论坛抓取的帖子带评论者昵称、IP 和 UA；医疗问答语料里包含病情描述、用药史；法律文书爬下来的内容里有当事人姓名、身份证号、家庭地址。这些都属于个人信息；前两类里的医疗健康数据和金融账户，直接构成敏感个人信息。

监管对训练语料里的个人信息处理有专门要求。《生成式人工智能服务管理暂行办法》第七条要求，训练数据中涉及个人信息的，应当取得个人同意，或者符合法律、行政法规规定的其他情形；第十一条更明确，提供者应当”不收集非必要个人信息” ^[5]。换言之，你不能用”为了训练大模型”作为收集任意个人信息的合法性基础；原始收集环节就要把范围卡住。

TC260 在 2024 年 3 月发布的《生成式人工智能服务安全基本要求》（TC260-003）进一步把这条原则下沉到操作层面：要求服务提供者在采集前后对语料来源做安全评估，通过关键词、分类模型、人工抽检过滤违法、不良信息和违法个人信息数据；单一来源违法不良信息占比超过 5%，该来源不得使用 ^[6]。这套标准在 2025 年 4 月被升级为国家推荐性标准 GB/T 45654-2025《网络安全技术生成式人工智能服务安全基本要求》，2025 年 11 月 1 日实施 ^[7]。

重要数据的识别

“重要数据”的法定定义来自《数据出境安全评估办法》：“一旦遭到篡改、破坏、泄露或者非法获取、非法利用等，可能危害国家安全、经济运行、社会稳定、公共健康和安全等的数据” ^[1]。

过去很长一段时间，“重要数据”是个让人头疼的概念：法条上有定义，行业目录却迟迟没出。2024 年开始，这个状态有了变化。

第一个变化是国家标准。2024 年 3 月发布的 GB/T 43697-2024《数据安全技术数据分类分级规则》，在附录 G 给出了重要数据的识别指南，把判断要素具体化为：领域、群体、区域、精度、规模、深度、覆盖度，以及在经济建设、政治建设、文化建设、社会建设、生态文明建设五个维度上的重要性 ^[8]。它没有给出一个数字阈值清单，但给出了一套判断框架。

第二个变化是地方的负面清单。2024 年 5 月，天津自贸区率先发布数据出境负面清单，把 13 大类 46 个子类的数据明确为需要安评的范围，覆盖战略物资、自然资源与环境、工业、金融、生物医药、气象、汽车、集成电路、国际贸易、互联网平台等行业 ^{[9, 10]}。2024 年 8 月，北京自贸区发布负面清单，在 5 个领域、23 个场景、198 个数据字段上做了细化，其中人工智能被单列为一个领域，这是目前唯一明确点名 AI 的自贸区负面清单。2025 年 2 月，上海自贸区公布了再保险、航运、商贸 3 个领域、84 个数据项；海南、浙江也已经跟进，合计 17 个领域已覆盖 ^[11]。

第三个口径，网信办在 2025 年 4 月的官方答疑中明确：未被相关部门、地区告知或者公开发布为重要数据的，企业不需要作为重要数据申报安评 ^[12]。也就是说，如果你拿不准某类数据算不算重要数据，可以参照 GB/T 43697-2024 做自评估，不需要”主动认领”；一旦被告知掌握重要数据，应当在 2 个月内申报安评 ^[3]。

回到训练语料场景。中文语料里高密度的舆情、地理、人口、气象、金融、医疗数据，在量级或者精度达到一定门槛后，会落入重要数据的判断框架。比如全国乡镇级别的实时舆情走向数据、覆盖较大区域的高精度地理或交通流量数据、规模化的临床病历数据等，都是需要单独识别的对象。

还有一点要强调：监管明确，向境外提供的个人信息不包括重要数据；反过来，重要数据不能走个人信息出境的标准合同或者认证通道，只能走安评 ^[13]。两条线得分开评估。

三、三条出境路径，自己对照走哪条

2022 年到 2023 年，数据出境的强制路径有三条：安全评估、标准合同、个人信息保护认证。2024 年 3 月 22 日，《促进和规范数据跨境流动规定》出台，大幅收窄了强制申报的范围，叠加自贸区负面清单和 2025 年 10 月正式落地的认证办法，目前的格局是”三条路径 + 一组豁免 + 地方负面清单”，可操作性比早期清晰了许多。

阈值对照

按《促进和规范数据跨境流动规定》，出境的硬阈值现在是这样的 ^[13]：

主体 / 数据类型	路径
关键信息基础设施运营者（CIIO），向境外提供任何个人信息或者重要数据	安全评估
其他主体，涉及重要数据	安全评估
其他主体，自当年 1 月 1 日起累计向境外提供 100 万人以上个人信息（非敏感），或者 1 万人以上敏感个人信息	安全评估
其他主体，累计 10 万人以上不满 100 万人个人信息（非敏感），或者不满 1 万人敏感个人信息	标准合同或认证
其他主体，累计不满 10 万人个人信息（非敏感）	豁免

五类场景化豁免

除了人数阈值，《促进和规范数据跨境流动规定》还规定了几类场景化豁免，即便涉及个人信息也不需要走三条路径 ^[13]：

国际贸易、跨境运输、学术合作、跨国生产制造和市场营销中收集和产生的、不包含个人信息或者重要数据的数据
为订立、履行个人作为一方当事人的合同所必需（跨境购物、跨境寄递、跨境汇款、机票酒店预订、签证、考试服务等）
按照依法制定的劳动规章制度和签订的集体合同实施跨境人力资源管理所必需
紧急情况下保护自然人的生命健康和财产安全所必需
在境外收集的个人信息传至境内处理后再传至境外，且处理过程中没有引入境内的个人信息或者重要数据

对训练语料企业最实用的是第一条和第五条。比如境外公司在海外收集的英文语料传入境内做清洗加工，清洗过程中没有混入境内的个人信息或者重要数据，再传回境外训练，整条链路可以走豁免。这种”境外采—境内洗—境外训”的链路设计在 2024 年之后明显增多。

自贸区负面清单

负面清单的逻辑是”清单内强监管，清单外原则上自由出境”。如果你的数据出境业务恰好落在自贸区，且数据类型不在该自贸区公布的负面清单内，可以直接出境，不需要走三条路径。

天津自贸区在 13 大类 46 子类内强监管 ^[9]；北京自贸区在 5 个领域、23 个场景、198 个字段内强监管，其中人工智能被明确列入 ^[11]；上海自贸区目前圈出再保险、国际航运、零售餐饮酒店 3 行业、6 个场景、84 个数据项 ^[14]。对训练语料企业来说，把数据加工和出境主体放在自贸区，是当前最现实的”轻路径”选项之一。

个人信息保护认证落地

2025 年 10 月 17 日，网信办和市场监管总局联合公布《个人信息出境认证办法》，2026 年 1 月 1 日施行，认证证书有效期三年 ^[15]。认证适用的人数阈值与标准合同重合，即非 CIIO、不含重要数据，且累计 10 万人以上不满 100 万人个人信息（非敏感）或者不满 1 万人敏感个人信息。

认证和标准合同是平行选项，企业可二择一。两者的差别主要在执行方式上：标准合同备案是”申报制”，合同条款基本固定；认证是”第三方机构审查”，有效期内适用于多次出境，对长期、规模化的出境业务更友好。

这一年下来的实际效果

2024 年新规实施后，监管侧的数据可以反向印证这套”宽进 + 精管”的思路。2025 年 3 月网信办披露，新规实施一年内，数据出境安评月均受理量下降约 60%，标准合同月均备案量下降约 50%；安评的平均用时从法定的 45 个工作日压缩到 30 个工作日以内 ^[11]。

截至 2025 年 4 月的累计数据：网信办完成数据出境安全评估项目 298 个，其中涉及重要数据的 44 个，不通过 7 个，不通过率约 15.9%；申报的 509 个重要数据项中准予出境 325 个，准予率约 63.9% ^[12]。

这两组数字告诉我们：一是不在强制申报范围内的业务，真的可以不申报，监管不希望企业”为了交而交”；二是真正进入安评流程的重要数据出境，通过率并不低，审得严但不刻意卡。

上篇到这里。下篇接着讲：语料从哪儿来（爬虫红线、公开数据集、第三方采购、著作权判例），以及出境前要做的几件事（数据分级、PIA、合同条款、技术替代方案与场景拆解）。

参考文献

[1] 国家互联网信息办公室. 数据出境安全评估办法. 2022-07-07. https://www.cac.gov.cn/2022-07/07/c_1658811536396503.htm

[2] 国家互联网信息办公室. 国家互联网信息办公室有关负责人就《数据出境安全评估办法》答记者问. 2022-08. https://www.cicpa.org.cn/ztzl1/hyxxhckzl/zcyxs/202208/P020220802389548833277.pdf

[3] 国家互联网信息办公室. 数据出境安全管理政策问答. 2025-10-31. https://www.cac.gov.cn/2025-10/31/c_1763633376984070.htm

[4] 全国人民代表大会常务委员会. 中华人民共和国个人信息保护法. 2021-08-20. https://www.cac.gov.cn/2021-08/20/c_1631050028355286.htm

[5] 国家互联网信息办公室等七部门. 生成式人工智能服务管理暂行办法. 2023-07-13. https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm

[6] 全国信息安全标准化技术委员会. 生成式人工智能服务安全基本要求（TC260-003）. 2024-02-29. https://www.tc260.org.cn/upload/2024-03-01/1709282398070082466.pdf

[7] 国家市场监督管理总局. GB/T 45654-2025 网络安全技术生成式人工智能服务安全基本要求. 2025-04-25. https://www.spc.org.cn/online/f67d3f376e0a0a0ff5317fb36b32a30a.html

[8] 国家市场监督管理总局、国家标准化管理委员会. GB/T 43697-2024 数据安全技术数据分类分级规则. 2024-03-15 发布，2024-10-01 实施. https://www.ndls.org.cn/standard/detail/8b31ddebc6034555fd412a7b25f95143

[9] 天津市商务局. 中国（天津）自由贸易试验区数据出境管理清单（负面清单）（2024 年版）有关问题的解读. 2024-05-09. https://shangwuju.tj.gov.cn/tjsswjzz/zwgk/jdhy/202405/t20240509_6620807.html

[10] 王峰. 天津自贸区”小切口”探路数据出境负面清单，如何破解重要数据识别难题. 21 世纪经济报道. 2024-05-10. https://www.21jingji.com/article/20240510/herald/530eb36c0c5514dce784f5022280db7a.html

[11] 新华社. 国家网信办公布《促进和规范数据跨境流动规定》实施一年成效. 2025-03-21. https://www.news.cn/politics/20250321/00c2fcd43af64adfad27a2be1d00a0a0/c.html

[12] 国家互联网信息办公室. 关于发布《数据出境安全评估申报指南（第三版）》等的解读. 2025-04-09. https://www.cac.gov.cn/2025-04/09/c_1745906286623776.htm

[13] 国务院. 促进和规范数据跨境流动规定. 2024-03-22. https://www.cac.gov.cn/2024-03/22/c_1712776611775634.htm

[14] 临港新片区管委会. 中国（上海）自由贸易试验区临港新片区数据出境一般数据清单. 2025-02. https://www.lingang.gov.cn/upload/1/cms/content/editor/23c0db06-4b70-4c3d-a566-6ae4ddfb3bc5.pdf

[15] 国家互联网信息办公室、国家市场监督管理总局. 个人信息出境认证办法. 2025-10-17. https://www.cac.gov.cn/2025-10/17/c_1762449728720008.htm

本文涉及法规与口径依据截至 2026 年 5 月，数据出境政策仍在动态完善，具体以官方最新规定为准。

如有训练语料出境合规相关问题，欢迎邮件交流：niufang@grandall.com.cn