AI大模型训练背后，一条数据产业链正在形成

• 2023-08-09 11:39:00 • 金融科技 • 阅读

　　文章转载来源：腾讯科技

　　作者：腾讯科技郭晓静

图片来源：由无界 AI生成

　　“大力出奇迹”、“暴力美学”，这两个词一直伴随ChatGPT的讨论出现。而“大力”和“暴力”，除了“巨大的算力”之外，还有海量的数据。a16z 创始人 Marc Andreessen在Data+AI大会上也提出，二十几年来互联网积累的海量数据，是这一次新的AI浪潮兴起的重要原因，因为前者为后者提供了可以用来训练的数据。

　　据OpenAI披露，GPT-3.5的文本语料多达45TB，相当于 472 万套中国四大名著，而 GPT-4 在 GPT-3 和 GPT-3.5 训练数据集的基础上又增加了多模态数据。而7月18日，Facebook母公司Meta发布首个开源可商用的大语言模型的Llama2，预训练预料高达2 万亿token。

　　有能力获得海量的、高质量的数据，被看做未来大模型公司的核心竞争力之一，也是各大巨头AI军备竞赛的必争之地。数据也被看作决定未来发展的关键生产要素。根据《数字中国发展报告（2022年）》统计，数据要素所能释放的数字经济潜力将无比巨大，我国2022年数据产量达到8.1ZB，全球占比10.5%，位居世界排名第二，数字经济发展处于领先优势。

　　然而，数据作为全新的生产要素，也带来一系列亟待解决的问题：究竟如何理解数据？如何对数据确权？如何挖掘数据的价值？是否真的能交易流通？数据是否能真的作为一种资产，计入到企业的财务报表中？安全性如何管理？为此，我们对话了北京邮电大学科学技术研究院副院长曾雪云教授，请她深度解答了相关问题。

　　以下为对话实录：

　　腾讯科技：普通人可能会关心，大模型训练的数据从哪里来？有没有用我的个人数据，这些数据是否会有确权的问题？

　　曾雪云教授：大模型计算的这些数据是个人数据。个人数据相对于企业数据来说，它有一个权属问题。原则上，我的数据我做主。

- 星际资讯

免责声明：投资有风险，入市须谨慎。本资讯不作为投资建议。