周宇：生成式人工智能技术应用法律风险及合规要点 - 大成研究

2022年底以来，随着ChatGPT-3.5、Stable Diffusion、Midjourney等强人工智能的破圈，围绕着各类人工智能应用项目迅速发展。但同时，人工智能应用项目也带来了传播虚假信息、隐私泄露、知识产权侵权等潜在风险问题，对此全球多国也纷纷出手，出台了各自的监管政策，以期规范人工智能健康发展。

2023年3月30日，意大利个人数据保护局（DPA）以违反GDPR为由，宣布暂时禁止使用ChatGPT。

2023年5月11日，欧洲议会内部市场委员会和公民自由委员会以84票赞成，7票反对和12票弃权通过《欧盟人工智能法案》（EU Artificial Intelligence Act，“欧盟AI法案”）提案的谈判授权草案[1]。欧洲议会发布的声明称，一旦获得批准，该法案将成为全世界首部有关人工智能的法规。法律通过后，违反规定的公司最高可被处以4000万欧元或其全球年营业额7%的罚款。

欧盟AI法案针对不同类型的人工智能系统制定了相应的监管措施，区分了不可接受的风险、高风险、有限风险和低或轻微风险四种风险类型，并针对不同类型施加了不同的监管措施以及相应类型的人工智能系统的提供者义务。对于不可接受的风险（包括可能扭曲用户行为、导致用户伤害的系统，预测性警务系统，无针对抓取面部数据建立面部识别数据库的系统等），欧盟AI法案明确禁止其投放市场，或在欧盟境内使用。因此也有议员对该法案持批评的态度。德国议员阿克塞尔·沃斯表示，这项法案是“朝着正确方向迈出的一步”，但是以对人工智能的恐惧来限制其发展，可能会扼杀新技术涌现的机会。

中国国家网信办于2023年4月11日推出《生成式人工智能服务管理办法（征求意见稿）》（下称“征求意见稿”），旨在促进生成式AI健康发展和规范应用，其中明确规定“研发、利用生成式人工智能产品，面向中华人民共和国境内公众提供服务的”均适用该办法。该条规定明确了该办法的适用范围和对象，确立了“长臂管辖”规则，将境外主体向境内提供服务情形也纳入适用范围。

与欧盟AI法案不同的是，征求意见稿将监管范围限定在生成式人工智能，并未禁止某一类型技术的应用，相反的，征求意见稿第三条、第四条明确提出支持和鼓励技术发展，表明中国保护社会伦理道德秩序和舆论导向，引领新兴技术的价值取向的监管目标。该征求意见稿所展现的监管方式与此前出台的《互联网信息服务算法推荐管理规定》（“《算法规定》”）、《互联网信息服务深度合成管理规定》（“《深度合成规定》”）有异曲同工之妙，共同建立了以内容安全和社会影响为监管目标的监管机制，同时，为技术研发和应用预留了政策空间。

我们拟从该征求意见稿所折射的监管目标和监管尺度出发，总结生成式人工智能技术在中国境内应用面临的主要法律风险和监管合规要点。

一、内容违法违规风险

1. 对生成内容的基本要求。征求意见稿第四条列举了提供生成式人工智能产品或服务时应遵守的法律法规要求和道德准则。实质上是对服务提供者施以内容审查义务。该条是对生成内容合规性的原则性规定，是对《网络安全法》《算法规定》《深度合成规定》等法律法规中关于内容合规要求在生成式人工智能技术背景下的汇总和重申。

2. 生成内容应真实准确。征求意见稿第四条第四款规定“利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息”。然而，我们理解，以目前生成式人工智能的技术水平，还尚达不到确保生成内容100%真实准确的程度，类似生成“林黛玉倒拔垂杨柳”的事例仍屡见不鲜。但从监管的侧重点出发，我们认为该款规定应旨在要求服务提供者应当“采取措施”，在技术可以实现的范围内尽量避免虚假信息的产生。

生成式人工智能的快速发展与深度神经网络的结构升级有密切联系，而实验证明，深度神经网络的学习能力和模型大小呈正相关，伴随着模型参数量的增加，相对应深度神经网络的能力一般会取得大幅提升[2]。可以认为用于训练模型参数的数量和质量，直接影响生成式人工智能所生成内容的质量。

同时，实践中生成式人工智能服务提供者可能通过向第三方采购取得训练数据，对此，我们建议应当审查第三方知识产权协议、要求其提供数据合法性来源证明，尽到服务提供者的注意义务，并建立防控措施、穷尽可能的手段避免虚假信息的产生，以减轻内容违法违规的风险。

3. 违规内容应及时处置。征求意见稿第十三条、第十五条规定了提供者应建立侵权内容处理机制，对侵权和违规内容应当采取措施，停止生成，防止危害持续。并且，还应在3个月内通过模型优化训练等方式防止再次生成。在实践中，识别违规内容产生的原因，并再次通过模型优化训练消除违规内容可能存在较高技术难度，并且能否在3个月内完成也有待实践的检验，因此这一要求在实践中落地可能面临较大挑战。

因此，生成式人工智能服务提供者对模型训练数据的清洗和筛选尤为重要。我们建议服务提供者应高度重视在使用训练数据之前，通过字段设置等技术结合人工审查手段，去除数据中的违法违规内容和错误内容。通过对训练数据中侵权信息、违法信息、虚假信息、错误信息的筛选和处理，最大程度保证训练出来的模型的准确性。此外，在训练过程中，应进行调试和优化，并注意及时、定期检查和纠正错误或虚假的信息。

二、数据安全风险

美国时间3月25日，OpenAI官方确认有1.2%的ChatGPT Plus的用户数据可能被泄露，而包括意大利在内的有关国家的监管机构已对大语言模型及其数据安全问题开启调查行动。目前数据安全是生成式人工智能领域亟须解决的突出问题。

对此，征求意见稿第五条首先强调了生成式人工智能服务提供者应当承担的个人信息处理者的法定责任，并在第六条规定了安全评估和算法备案的前提性和必要性。其中明确要求生成式人工智能服务提供者应当根据《算法规定》《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》（“《安全评估规定》”）进行算法备案和申报安全评估。根据算法备案要求，在算法备案前，生成式人工智能服务提供者应当设置算法安全机构，建立完善的公司内部规章制度，主要包括算法安全自评估制度、算法安全监测制度、算法安全事件应急处置制度、算法违法违规处置制度、用户真实身份核验以及注册信息留存措施。

根据《安全评估规定》，生成式人工智能服务提供者应当制定相关安全措施，包括用户操作日志、发布内容的留存措施，对违法有害信息的防范处置和记录保存措施，个人信息保护和防范违法信息传播的技术措施，建立投诉举报渠道，建立协助网信部门、公安机关、国安机关等监管的工作机制等。

除了上述算法备案和安全评估所需的内控制度和措施之外，征求意见稿第七条规定算法训练数据包含个人信息的，应当征得个人信息主体同意或者符合法律、行政法规规定的其他情形。第十一条要求提供者在提供服务过程中，对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息，不得根据用户输入信息和使用情况进行画像，不得向他人提供用户输入信息。

因此，生成式人工智能服务提供者应当遵守《个人信息保护法》《网络安全法》《数据安全法》等法律法规中针对个人信息保护的相关规定，通过技术及人工手段落实个人信息保护义务，例如：

1. 采用匿名化、脱敏等技术手段对算法训练数据中的个人隐私信息进行及时处理，避免个人信息泄露或被滥用。

2. 若用户输入的信息包含能够推断用户身份的信息，不得非法留存，并应进行定期删除。

3. 建立人工审查机制，及时监督、发现和纠正个人信息留存、泄露和滥用问题。

4. 服务提供者还应在产品或官网、主页等位置公开处理投诉的机制和方式，落实用户投诉接收处理机制，并及时处理个人关于更正、删除、屏蔽个人信息的请求。

三、知识产权侵权风险

生成式人工智能模型的技术原理是通过对现有数据的学习，学习到数据的分布规律和特点，然后基于这些规律和特点来生成新的数据或完成任务。其中最广为人知的生成式模型是生成对抗网络（GAN）。GAN模型由两个神经网络组成，分别为“生成器” 和 “判别器”。生成器根据数据分布样本生成具有相似分布的样本，而判别器则根据生成器生成出来的样本以及真实数据对两者进行判断分辨。在对抗中，生成器会尝试生成能混淆判别器的样本，而判别器会不断学习，以识别真实样本和生成器生成的样本。这样的对抗过程将导致生成器的输出越来越接近真实数据的分布，生成器最终可以产生逼真的新数据。GAN的变种如条件GAN（CGAN）等技术可以更加精细地控制生成样本的特征。

该技术原理决定了生成式人工智能的创作也需要创作素材来“喂养”。通常这些创作素材是以数据形式表现的各种数字化作品。从内容生成的过程上看，生成式人工智能服务提供者可能面临的较为突出的法律风险，主要集中在训练数据的输入端。生成式人工智能服务提供者利用爬虫技术等各种方式取得未经授权获取版权作品和侵权信息的，可能涉及著作权侵权、不正当竞争、侵犯商业秘密等知识产权侵权风险。

目前生成式人工智能生成的内容主要是文本、图片、声音、视频、代码。其中，在生成文字的任务中，基于大型语言模型的生成式人工智能输出的结果往往不是训练文本的原文复述，所以知识产权侵权风险相对较低。但是，在生成图片、声音、视频、代码的领域，存在较为突出的侵权风险。

对此，征求意见稿第七条明确规定，用于生成式人工智能产品的预训练、优化训练数据应当不含有侵犯知识产权的内容。并且提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。

该条规定对生成式人工智能服务提供者提出了明确的要求，即在算法训练阶段，应当对算法训练数据来源的合法性和侵权风险进行审查，从数据源头上切断知识产权侵权风险。例如在一些生成图片人工智能模型的生成产品中，可能出现与训练图像较为近似的图像结果，生成式人工智能服务提供者需要在模型设置、训练资料的选取，以及训练、调试和优化过程中注意此类生成结果侵权的风险。

我们注意到，通过爬虫爬取的互联网各类公开数据用于模型训练是否属于合理使用目前在国内外均极具争议。征求意见稿第七条的要求如何落地也有待实践检验。另外，人工智能生成的结果是否具有著作权，应当由谁享有著作权，目前在学术界和实务界也争论颇多。在中国著作权法的框架下，主要争议观点集中于“属于人工智能的设计者”还是“属于人工智能的使用者”。这关系到技术创新发展与政策支持、法律规制的匹配和衔接问题，我们后续对此争议问题也将另行撰文展开论述。

四、结语

随着ChatGPT作为新一代大语言模型的崛起，其所实现的功能已远超人们的想象，成为科技领域2023年度的标志性产品，被许多人称为“新的iPhone时刻”。在这样的科技浪潮面前，井喷式涌现出的生成式人工智能各类应用，有望成为未来经济发展的重要支撑。但同时，生成式人工智能的出现也会对经济秩序、社会秩序造成冲击，产生一系列的法律风险。

我们应当认识到，我国生成式人工智能科技研发领域与世界领先水平的差距。站在立法者的角度，需要在鼓励技术创新的同时，平衡其可能带来的负面影响。既要把握技术演进的向上向善的大方向，又要同时激活市场主体创新热情，实现弯道超车，这也极大考验立法者和执法者的社会治理智慧。

对于广大技术开发者和应用者而言，需要在现有《个人信息保护法》《网络安全法》《数据安全法》这三驾马车的框架下，结合征求意见稿所展现的监管思路，对产品进行风险评估，根据现有知识产权、个人信息保护、数据安全等法律规则，设计符合立法者的监管目标的产品和内控合规制度，防范法律风险。

特别声明：

大成律师事务所严格遵守对客户的信息保护义务，本篇所涉客户项目内容均取自公开信息或取得客户同意。全文内容、观点仅供参考，不代表大成律师事务所任何立场，亦不应当被视为出具任何形式的法律意见或建议。如需转载或引用该文章的任何内容，请私信沟通授权事宜，并于转载时在文章开头处注明来源。未经授权，不得转载或使用该等文章中的任何内容。

本文作者