我的个人资料,AI的免费“养料”?

大模型数据“投喂”的法律边界

2025-03-18 作者: 来源: 大众日报
  四川大学法学院创新与竞争法研究中心主任,副教授,博士生导师 袁嘉
  □ 袁嘉

  人工智能大模型的发展依赖海量数据的“投喂”,这一过程既是技术迭代的必然需求,也引发了版权侵权、数据安全、隐私保护等法律争议。如何在保护知识产权、保障数据和隐私安全与促进技术进步之间寻求平衡,成为制约国产人工智能大模型发展的核心难题。
大模型数据使用的法律争议
  人工智能大模型的训练需基于海量文本、代码及图像数据,借助机器学习算法提炼知识规律。国产人工智能大模型一直面临激烈的国际竞争,在美国OpenAI公司的GPT系列大模型爆火之后,国内的通义千问、文心一言、豆包和Kimi等大模型纷纷开启了追赶的步伐,今年年初的DeepSeek更是以其优良的性能和超低成本震惊全球AI产业界,并得到了行业和终端用户的认可和喜爱。然而,上述大模型的快速发展也面临着较大的法律风险,未经授权的数据抓取与复制,常被谴责为“数据盗窃”或“非法牟利”行为。例如,某国产大模型因使用未获授权的文学作品训练,被原著作者起诉索赔,引发行业对数据来源合法性的广泛讨论。与此同时,数据安全风险亦不容忽视:训练数据可能包含敏感信息(如商业秘密、个人隐私),若未经过脱敏处理直接使用,可能违反《数据安全法》《个人信息保护法》和《反不正当竞争法》。这种矛盾凸显了技术快速发展与法律规制滞后之间的紧张关系。
  针对大模型数据使用的法律争议,学界提出以“公共领域”理论重构规制框架。黄汇等学者的研究表明,大模型数据使用行为可划分为输入端(即训练阶段)和输出端(即生成阶段)两大层面,需针对性地实施差异化规制措施。在训练阶段,大模型训练的核心在于学习“非作者价值”的元知识,如语言规律和逻辑结构,而非直接复制具体作品的独创性内容。这种使用未对原作品市场价值造成可感知的损害行为,应被纳入公共领域范畴。例如,统计语言模型对文学作品的碎片化学习,本质是对公共知识资源的再利用。而在生成阶段,若大模型生成内容与训练作品构成实质性相似,则可能挤压原作者的创作空间,需通过《著作权法》予以规制。此时需区分“合理借鉴”与“搭便车”行为,避免逆向激励效应。
技术角度解决侵权风险的可能性
  从技术角度出发,大模型的打磨和优化必须依赖高质量和大规模的数据使用。当前大模型训练面临“数据幻觉”与“灾难性遗忘”等问题:低质量数据可能导致模型输出失真(如错误推荐、工业误判),甚至放大社会偏见。为了提高数据的质量,大模型训练往往需要使用更多可能具有创新成果属性的受保护数据,这一根本矛盾如果无法解决,也将导致侵权风险。当然,技术层面的革新可以为解决数据需求与效率平衡问题提供新的途径:例如,GPT-4.5等模型通过“强度平衡算法”和“硬件优化对齐”,在减少计算成本的同时保持性能。Claude 3.7 Sonnet通过其先进的编程能力,允许开发者动态调节推理资源分配,实现“用更少的数据思考得更智慧”。这种技术突破显著降低了数据规模的门槛,为小规模数据集的高效利用提供了可能。而建立数据清洗、验证与溯源体系也对从技术上降低侵权风险至关重要。一般情况下,数据质量的下降是导致大模型误答率上升的主要原因。企业可通过区块链技术记录数据来源,结合AI审核工具自动筛查敏感信息,提升数据质量,实现合规与效率的双重目标。只要数据质量显著提升,对于侵权数据的使用需求就能降低,这是从技术角度解决侵权风险问题的基本原理。
  构建“立法—技术—行业”协同的治理体系
  首先,从立法层面,可以细化合理使用条款。在《著作权法》中,增设人工智能大模型训练作为合理使用情形之一,既符合原有合理使用制度的定位,又能兼顾权利人的利益。同时,《人工智能法(学者建议稿)》提出的“大模型训练合理使用制度”也具有现实意义,但需进一步明确适用条件。
  其次,从技术层面,应当推动数据匿名化与合成数据。利用生成对抗网络(GANs)生成合成数据,既能保留数据特征,又可规避版权风险。DeepSeek等企业已尝试通过算法优化减少对真实数据的依赖。这样一来,也大大降低了数据使用的侵权风险。
  最后,从行业层面,应当建立数据共享生态。推动政府、企业、学术机构共建开放数据集(如国家语料库),并提出人工智能训练数据透明度的要求,通过标准化协议实现合规共享。例如,欧盟《人工智能法案》要求大模型开发者披露使用受版权保护的材料来训练人工智能,并鼓励公共数据开放,以提高透明度和确保人工智能系统的安全性。
  人工智能大模型数据使用的法律边界并非非黑即白,需在公共领域理论指导下,结合技术优化与制度创新实现动态平衡。未来,那些能在数据质量、使用效率与合规性之间找到最优解的企业,将主导人工智能的下一个竞争周期。这要求法律回应技术变革的敏捷性,同时为创新保留必要的容错空间。正如每一次技术革命都会引发巨大的社会变革,人工智能时代的数据治理亦需在保护与解放之间开辟新路径。
  □ 袁嘉

  人工智能大模型的发展依赖海量数据的“投喂”,这一过程既是技术迭代的必然需求,也引发了版权侵权、数据安全、隐私保护等法律争议。如何在保护知识产权、保障数据和隐私安全与促进技术进步之间寻求平衡,成为制约国产人工智能大模型发展的核心难题。
大模型数据使用的法律争议
  人工智能大模型的训练需基于海量文本、代码及图像数据,借助机器学习算法提炼知识规律。国产人工智能大模型一直面临激烈的国际竞争,在美国OpenAI公司的GPT系列大模型爆火之后,国内的通义千问、文心一言、豆包和Kimi等大模型纷纷开启了追赶的步伐,今年年初的DeepSeek更是以其优良的性能和超低成本震惊全球AI产业界,并得到了行业和终端用户的认可和喜爱。然而,上述大模型的快速发展也面临着较大的法律风险,未经授权的数据抓取与复制,常被谴责为“数据盗窃”或“非法牟利”行为。例如,某国产大模型因使用未获授权的文学作品训练,被原著作者起诉索赔,引发行业对数据来源合法性的广泛讨论。与此同时,数据安全风险亦不容忽视:训练数据可能包含敏感信息(如商业秘密、个人隐私),若未经过脱敏处理直接使用,可能违反《数据安全法》《个人信息保护法》和《反不正当竞争法》。这种矛盾凸显了技术快速发展与法律规制滞后之间的紧张关系。
  针对大模型数据使用的法律争议,学界提出以“公共领域”理论重构规制框架。黄汇等学者的研究表明,大模型数据使用行为可划分为输入端(即训练阶段)和输出端(即生成阶段)两大层面,需针对性地实施差异化规制措施。在训练阶段,大模型训练的核心在于学习“非作者价值”的元知识,如语言规律和逻辑结构,而非直接复制具体作品的独创性内容。这种使用未对原作品市场价值造成可感知的损害行为,应被纳入公共领域范畴。例如,统计语言模型对文学作品的碎片化学习,本质是对公共知识资源的再利用。而在生成阶段,若大模型生成内容与训练作品构成实质性相似,则可能挤压原作者的创作空间,需通过《著作权法》予以规制。此时需区分“合理借鉴”与“搭便车”行为,避免逆向激励效应。
技术角度解决侵权风险的可能性
  从技术角度出发,大模型的打磨和优化必须依赖高质量和大规模的数据使用。当前大模型训练面临“数据幻觉”与“灾难性遗忘”等问题:低质量数据可能导致模型输出失真(如错误推荐、工业误判),甚至放大社会偏见。为了提高数据的质量,大模型训练往往需要使用更多可能具有创新成果属性的受保护数据,这一根本矛盾如果无法解决,也将导致侵权风险。当然,技术层面的革新可以为解决数据需求与效率平衡问题提供新的途径:例如,GPT-4.5等模型通过“强度平衡算法”和“硬件优化对齐”,在减少计算成本的同时保持性能。Claude 3.7 Sonnet通过其先进的编程能力,允许开发者动态调节推理资源分配,实现“用更少的数据思考得更智慧”。这种技术突破显著降低了数据规模的门槛,为小规模数据集的高效利用提供了可能。而建立数据清洗、验证与溯源体系也对从技术上降低侵权风险至关重要。一般情况下,数据质量的下降是导致大模型误答率上升的主要原因。企业可通过区块链技术记录数据来源,结合AI审核工具自动筛查敏感信息,提升数据质量,实现合规与效率的双重目标。只要数据质量显著提升,对于侵权数据的使用需求就能降低,这是从技术角度解决侵权风险问题的基本原理。
  构建“立法—技术—行业”协同的治理体系
  首先,从立法层面,可以细化合理使用条款。在《著作权法》中,增设人工智能大模型训练作为合理使用情形之一,既符合原有合理使用制度的定位,又能兼顾权利人的利益。同时,《人工智能法(学者建议稿)》提出的“大模型训练合理使用制度”也具有现实意义,但需进一步明确适用条件。
  其次,从技术层面,应当推动数据匿名化与合成数据。利用生成对抗网络(GANs)生成合成数据,既能保留数据特征,又可规避版权风险。DeepSeek等企业已尝试通过算法优化减少对真实数据的依赖。这样一来,也大大降低了数据使用的侵权风险。
  最后,从行业层面,应当建立数据共享生态。推动政府、企业、学术机构共建开放数据集(如国家语料库),并提出人工智能训练数据透明度的要求,通过标准化协议实现合规共享。例如,欧盟《人工智能法案》要求大模型开发者披露使用受版权保护的材料来训练人工智能,并鼓励公共数据开放,以提高透明度和确保人工智能系统的安全性。
  人工智能大模型数据使用的法律边界并非非黑即白,需在公共领域理论指导下,结合技术优化与制度创新实现动态平衡。未来,那些能在数据质量、使用效率与合规性之间找到最优解的企业,将主导人工智能的下一个竞争周期。这要求法律回应技术变革的敏捷性,同时为创新保留必要的容错空间。正如每一次技术革命都会引发巨大的社会变革,人工智能时代的数据治理亦需在保护与解放之间开辟新路径。