数据:共谱数智未来

2024-02-27 作者: 来源: 大众日报
  □ 林志杰 罗钦芳

  作为数字经济时代关键的新型生产要素和创新要素,数据已融入生产、消费、流通、分配和社会服务管理等各个环节,是人工智能发展的重要保障与动力。近日,国家数据局等十七部门印发了《“数据要素×”三年行动计划(2024—2026年)》,旨在充分发挥数据要素乘数效应,赋能经济社会发展。
数据是人工智能发展的基石
  数据要素是数字化、网络化、智能化的基础,是人工智能发展的基石。近年来,大数据相关技术、产品、应用和标准的快速发展,为人类识别复杂系统提供了全新的思维方式、探知手段和决策范式,进一步推动了人工智能的创新。
  首先,人工智能的发展,依赖于高质量数据的供给和对海量数据的标注与学习。大数据为深度学习等人工智能算法提供了庞大的样本空间,人工智能在不同场景的大规模应用,都需要基于海量数据进行标注、学习和训练,从中发现规律、获取信息、作出决策。
  其次,数据为人工智能的发展提供了更加广泛多样的信息来源。一方面,数字技术的发展使得数据多样性成为常态,呈现出多源异构和富媒体特点;另一方面,大数据环境下,支撑人工智能进行管理决策的信息从领域内部扩展至跨域环境。结构化、半结构化以及非结构化的跨领域数据使得人工智能技术和应用可以从多方面多角度获取多模态信息,提升其对复杂世界的认知能力。
  最后,数据不仅是人工智能模型的输入原料,同时也为模型的持续创新提供推动力,发挥着创新要素的作用。一方面,基于多源异构的大数据,模型开发者与应用者能够不断对现有模型进行迭代优化,创新算法模型;另一方面,丰富的数据集有助于提高模型的泛化能力,使其在面对新信息时也能够进行有效的学习与识别。
我国大数据的发展现状
  党的十八大以来,在以习近平同志为核心的党中央坚强领导下,我国高度重视大数据等数字技术的发展。通过全社会的共同努力,大数据相关技术与实践应用取得了重要进展。
  数字基础设施规模能级大幅跃升。根据最新数据,截至2023年底,我国累计建成5G基站337.7万个。截至2022年底,我国移动物联网终端用户数达18.45亿户,是全球首个实现“物超人”的主要经济体;在用数据中心机架总规模超过650万标准机架,近5年年均增速超过30%;在用数据中心算力总规模超180EFLOPS,位居世界第二。
  数据资源规模持续增长。2022年,全国数据产量达8.1ZB,全球占比10.5%,位居世界第二;累积数据存储量达724.5EB,同比增长21.2%;全国一体化政务数据共享枢纽发布各类数据资源1.5万类,累计支撑共享调用超过5000亿次。据测算,到2025年全球数据规模将达到175ZB,其中我国数据规模将达到48.6ZB,成为全球最大的数据圈。
  数据交易快速增加。2022年,我国数据交易行业市场规模达876.8亿元,同比增长42%,占全球数据市场交易规模的13.4%,占亚洲数据市场交易规模的66.5%。预计到2025年,中国数据交易行业市场规模有望达到2046亿元,到2030年有望达到5155.9亿元。
数据赋能人工智能的问题与对策
  “十四五”时期,我国数字经济转向深化应用、规范发展、普惠共享的新阶段。近年来,人工智能与大数据技术和产业体系日臻成熟,然而,数据赋能人工智能的过程中,依然面临一些问题和挑战,亟待突破。
  一是数据供给质量不高。一方面,尽管我国数据资源丰富,但真正开放、共享和有效使用的数据量仍然偏低。数据“只生产不外流”的现状导致了大量“数据孤岛”的产生,制约了数据的高质量供给;另一方面,数据资源在不断加速累积的同时,价值数据的密度也不断降低,影响了数据的高质量供给。
  要加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,优化数据供给结构;要秉持公共数据取之于民、用之于民的原则,加速推进公共数据分类分级授权使用,打破“数据孤岛”,强化数据要素的高质量供给,发挥公共数据在数据要素开发利用中的基础性、引领性、示范性作用;要加速探索开展数据质量标准化体系建设,推动数据要素供给调整优化,提高数据要素供给数量和质量。
  二是数据产权界定存在困难。数据作为新型生产要素,具有无形性、非消耗性、易复制等特点,对传统产权制度提出了新的挑战。在数据生产、流通、使用等过程中,不同主体对数据有着不同利益诉求,且呈现复杂共生、相互依存、动态变化等特点,传统权利制度框架难以突破数据产权的困境。
  要以解决市场主体遇到的实际问题为导向,通过建立数据产权管理法律法规,细化数据资源持有权、数据加工使用权和数据产品经营权的“三权分置”框架,创新数据产权观念,淡化数据所有权,强调数据使用权,加速推动构建完备的数据产权制度体系,充分释放数据要素价值。
  三是数据流通交易机制不畅。首先,当前数据交易暂缺少统一的定价和评估机制,数据流通依靠点对点单独交易,信息不对称致使数据流通的透明度较低;其次,对于不同行业、组织、设备而言,数据标准与接口难以统一,数据流通整合的可操作性较弱;再次,尽管我国已逐渐形成具有中国特色的数据保障制度体系,但仍缺乏更加明确、具有针对性的政策法规。
  要加速统筹构建数据交易场所,坚持场内集中交易与场外分散交易相结合,形成多层次、多元化的市场交易体系;要加快推进数据采集和接口标准化,加强异构数据互联互通容器技术,为不同主体设备之间的数据流通提供更加可信可靠的技术支持;要聚焦业务需求,结合具体场景需求,鼓励行业内企业与地方探索创新模式,制定更加详实的数据流通规则与标准,促进数据整合互通和互操作,推动人工智能在多行业多领域的应用。
  四是数据治理体系有待进一步完善。首先,条块分割的行业和传统的属地治理模式难以适应数据要素跨地区、跨行业、跨层级流通交易的治理需求;其次,数据的生成与使用通常涉及多方主体(例如买方、卖方、平台),数据治理责任与流程确认变得更加复杂;再次,数据安全风险与隐私保护问题随着数据规模的增大以及人工智能技术的发展变得更加突出;最后,庞大的数据量与多样的数据类型对支撑数据治理的技术提出了更高的要求。
  要加强数据治理前瞻布局,站在数据强国的战略高度,逐步健全政策顶层设计,打破地区、行业、层级的壁垒;要引导基层政府、市场、社会组织与民众等数据相关主体,通过互动、协商、合作,实现对数据要素的共同治理,构建政府、企业、社会多方协同的治理模式;要贯彻总体国家安全观,加速健全完善数据分类分级、重要数据保护、风险评估、应急管理等,发展好数据安全产业,为国家数据安全保障提供有力支撑;鼓励产学研用多方主体创新,加快推进数据可信流通、安全保障等核心技术攻关,推动隐私计算、量子计算、区块链等与数据治理相关的数字技术创新。  
  (作者分别系清华大学经济管理学院长聘副教授,清华大学经济管理学院博士后)
  □ 林志杰 罗钦芳

  作为数字经济时代关键的新型生产要素和创新要素,数据已融入生产、消费、流通、分配和社会服务管理等各个环节,是人工智能发展的重要保障与动力。近日,国家数据局等十七部门印发了《“数据要素×”三年行动计划(2024—2026年)》,旨在充分发挥数据要素乘数效应,赋能经济社会发展。
数据是人工智能发展的基石
  数据要素是数字化、网络化、智能化的基础,是人工智能发展的基石。近年来,大数据相关技术、产品、应用和标准的快速发展,为人类识别复杂系统提供了全新的思维方式、探知手段和决策范式,进一步推动了人工智能的创新。
  首先,人工智能的发展,依赖于高质量数据的供给和对海量数据的标注与学习。大数据为深度学习等人工智能算法提供了庞大的样本空间,人工智能在不同场景的大规模应用,都需要基于海量数据进行标注、学习和训练,从中发现规律、获取信息、作出决策。
  其次,数据为人工智能的发展提供了更加广泛多样的信息来源。一方面,数字技术的发展使得数据多样性成为常态,呈现出多源异构和富媒体特点;另一方面,大数据环境下,支撑人工智能进行管理决策的信息从领域内部扩展至跨域环境。结构化、半结构化以及非结构化的跨领域数据使得人工智能技术和应用可以从多方面多角度获取多模态信息,提升其对复杂世界的认知能力。
  最后,数据不仅是人工智能模型的输入原料,同时也为模型的持续创新提供推动力,发挥着创新要素的作用。一方面,基于多源异构的大数据,模型开发者与应用者能够不断对现有模型进行迭代优化,创新算法模型;另一方面,丰富的数据集有助于提高模型的泛化能力,使其在面对新信息时也能够进行有效的学习与识别。
我国大数据的发展现状
  党的十八大以来,在以习近平同志为核心的党中央坚强领导下,我国高度重视大数据等数字技术的发展。通过全社会的共同努力,大数据相关技术与实践应用取得了重要进展。
  数字基础设施规模能级大幅跃升。根据最新数据,截至2023年底,我国累计建成5G基站337.7万个。截至2022年底,我国移动物联网终端用户数达18.45亿户,是全球首个实现“物超人”的主要经济体;在用数据中心机架总规模超过650万标准机架,近5年年均增速超过30%;在用数据中心算力总规模超180EFLOPS,位居世界第二。
  数据资源规模持续增长。2022年,全国数据产量达8.1ZB,全球占比10.5%,位居世界第二;累积数据存储量达724.5EB,同比增长21.2%;全国一体化政务数据共享枢纽发布各类数据资源1.5万类,累计支撑共享调用超过5000亿次。据测算,到2025年全球数据规模将达到175ZB,其中我国数据规模将达到48.6ZB,成为全球最大的数据圈。
  数据交易快速增加。2022年,我国数据交易行业市场规模达876.8亿元,同比增长42%,占全球数据市场交易规模的13.4%,占亚洲数据市场交易规模的66.5%。预计到2025年,中国数据交易行业市场规模有望达到2046亿元,到2030年有望达到5155.9亿元。
数据赋能人工智能的问题与对策
  “十四五”时期,我国数字经济转向深化应用、规范发展、普惠共享的新阶段。近年来,人工智能与大数据技术和产业体系日臻成熟,然而,数据赋能人工智能的过程中,依然面临一些问题和挑战,亟待突破。
  一是数据供给质量不高。一方面,尽管我国数据资源丰富,但真正开放、共享和有效使用的数据量仍然偏低。数据“只生产不外流”的现状导致了大量“数据孤岛”的产生,制约了数据的高质量供给;另一方面,数据资源在不断加速累积的同时,价值数据的密度也不断降低,影响了数据的高质量供给。
  要加快公共服务领域数据集中和共享,推进同企业积累的社会数据进行平台对接,优化数据供给结构;要秉持公共数据取之于民、用之于民的原则,加速推进公共数据分类分级授权使用,打破“数据孤岛”,强化数据要素的高质量供给,发挥公共数据在数据要素开发利用中的基础性、引领性、示范性作用;要加速探索开展数据质量标准化体系建设,推动数据要素供给调整优化,提高数据要素供给数量和质量。
  二是数据产权界定存在困难。数据作为新型生产要素,具有无形性、非消耗性、易复制等特点,对传统产权制度提出了新的挑战。在数据生产、流通、使用等过程中,不同主体对数据有着不同利益诉求,且呈现复杂共生、相互依存、动态变化等特点,传统权利制度框架难以突破数据产权的困境。
  要以解决市场主体遇到的实际问题为导向,通过建立数据产权管理法律法规,细化数据资源持有权、数据加工使用权和数据产品经营权的“三权分置”框架,创新数据产权观念,淡化数据所有权,强调数据使用权,加速推动构建完备的数据产权制度体系,充分释放数据要素价值。
  三是数据流通交易机制不畅。首先,当前数据交易暂缺少统一的定价和评估机制,数据流通依靠点对点单独交易,信息不对称致使数据流通的透明度较低;其次,对于不同行业、组织、设备而言,数据标准与接口难以统一,数据流通整合的可操作性较弱;再次,尽管我国已逐渐形成具有中国特色的数据保障制度体系,但仍缺乏更加明确、具有针对性的政策法规。
  要加速统筹构建数据交易场所,坚持场内集中交易与场外分散交易相结合,形成多层次、多元化的市场交易体系;要加快推进数据采集和接口标准化,加强异构数据互联互通容器技术,为不同主体设备之间的数据流通提供更加可信可靠的技术支持;要聚焦业务需求,结合具体场景需求,鼓励行业内企业与地方探索创新模式,制定更加详实的数据流通规则与标准,促进数据整合互通和互操作,推动人工智能在多行业多领域的应用。
  四是数据治理体系有待进一步完善。首先,条块分割的行业和传统的属地治理模式难以适应数据要素跨地区、跨行业、跨层级流通交易的治理需求;其次,数据的生成与使用通常涉及多方主体(例如买方、卖方、平台),数据治理责任与流程确认变得更加复杂;再次,数据安全风险与隐私保护问题随着数据规模的增大以及人工智能技术的发展变得更加突出;最后,庞大的数据量与多样的数据类型对支撑数据治理的技术提出了更高的要求。
  要加强数据治理前瞻布局,站在数据强国的战略高度,逐步健全政策顶层设计,打破地区、行业、层级的壁垒;要引导基层政府、市场、社会组织与民众等数据相关主体,通过互动、协商、合作,实现对数据要素的共同治理,构建政府、企业、社会多方协同的治理模式;要贯彻总体国家安全观,加速健全完善数据分类分级、重要数据保护、风险评估、应急管理等,发展好数据安全产业,为国家数据安全保障提供有力支撑;鼓励产学研用多方主体创新,加快推进数据可信流通、安全保障等核心技术攻关,推动隐私计算、量子计算、区块链等与数据治理相关的数字技术创新。  
  (作者分别系清华大学经济管理学院长聘副教授,清华大学经济管理学院博士后)