1. 首页
  2. 金融科技

AI大模型训练背后,一条数据产业链正在形成

  文章转载来源:腾讯科技

  作者:腾讯科技 郭晓静

图片来源:由无界 AI生成图片来源:由无界 AI生成

  “大力出奇迹”、“暴力美学”,这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”,除了“巨大的算力”之外,还有海量的数据。a16z 创始人 Marc Andreessen在Data+AI大会上也提出,二十几年来互联网积累的海量数据,是这一次新的AI浪潮兴起的重要原因,因为前者为后者提供了可以用来训练的数据。

  据OpenAI披露,GPT-3.5的文本语料多达45TB,相当于 472 万套中国四大名著,而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。而7月18日,Facebook母公司Meta发布首个开源可商用的大语言模型的Llama2,预训练预料高达2 万亿token。

  有能力获得海量的、高质量的数据,被看做未来大模型公司的核心竞争力之一,也是各大巨头AI军备竞赛的必争之地。数据也被看作决定未来发展的关键生产要素。根据《数字中国发展报告(2022年)》统计,数据要素所能释放的数字经济潜力将无比巨大,我国2022年数据产量达到8.1ZB,全球占比10.5%,位居世界排名第二,数字经济发展处于领先优势。

  然而,数据作为全新的生产要素,也带来一系列亟待解决的问题:究竟如何理解数据?如何对数据确权?如何挖掘数据的价值?是否真的能交易流通?数据是否能真的作为一种资产,计入到企业的财务报表中?安全性如何管理?为此,我们对话了北京邮电大学科学技术研究院副院长曾雪云教授,请她深度解答了相关问题。

  以下为对话实录:

  腾讯科技:普通人可能会关心,大模型训练的数据从哪里来?有没有用我的个人数据,这些数据是否会有确权的问题?

  曾雪云教授:大模型计算的这些数据是个人数据。个人数据相对于企业数据来说,它有一个权属问题原则上,我的数据我做主。

- 星际资讯

免责声明:投资有风险,入市须谨慎。本资讯不作为投资建议。

下一篇:OpenAI:ChatGPT将遵守爬虫协议,网站可拒绝白嫖
« 上一篇
上一篇:PayPal稳定币的内核:科技巨头版CBDC?
下一篇 »

相关推荐