长推： LLM最大风险——污染人类的自然语言

注：原文来自@xleaps发布长推。

我说过多次，当下 LLM 最大的风险是污染人类的自然语言，使得我们从此没有纯人类语言的训练语料。如同核爆后的低辐射钢。

影响下一代 LLM 质量本身只是一度风险。更大的二度风险是，如果这一代 AI 生成的句子进入下一代 AI，则在人类语言的演进方向中，就不仅仅包含了人的因子，还有机器的因子。

我们不知道基于梯度下降和 Transformer的 LLM 会如何影响和演化人类语言，但我们知道，机器可以用远比人类高效的语言交流。语言本质是符号的序列，机器间通信一定会优先选择对机器来说更低能量的编码解码方式来传递信息。

而符号序列只能属于 means to the end. 有理由相信，如果机器参与到语言演变，贡献演化压力，则终有一天，我们人类的语言演变成其实更适合各种数字模型之间通信的某种符号序列。

大家或许不知道，大公司数据中心直接的通信量（骨干网间）不亚于我们人类使用互联网（骨干网到端）的通信量。骨干网间的通信的结构层，早已定型成 protobuf 等几种高效前后兼容的协议。如果把一个数据中心想象成一个巨大算力的智能体：他们之间的对话，信息同步和协作，已经没有人类语言什么事情了。

如果下一代的训练语料被这一代的 AI 污染，可以预见的是以人类不可见的速度，自然语言逐步代码化。这样，到了 GPT 10 或 20，也就是一两代人的时间，最终“语言”这个构建上，就没有我们人类什么事情了。

其实未必等到自然语言全部代码化：当我们的语言里许多元素来自于更加适应机器表达和交流后，我们的大脑纵然有更多潜力，依然被迫要用一种更加适合数字智能的语言思考。届时我们真的成了数字智能的奴役和低级帮手，即使它们从头到尾都没有要奴役人类。这一点大小语言都会受侵蚀，小语言可能更加容易被 AI 不自觉数字代码化。

所以，我们真的需要以一种“守住自然语言来自人类大脑”这样一个边界。当时我提的方案是 LLM 提供商立即向 reddit 等少数几个网站提供 bot 检测接口，并开始向这些纯“人类语言收集站”付费，这些费用可以分成到内容监管的 mod 手中。

当下 reddit 面临的第三方开发者造反，从第三方开发者看来，是夺了 app 饭碗，从更加长的时间尺度看， reddit 如果能够继续保持语料不受污染，其不断生长的数据会越来越有价值，因此需要赶快用法律协议保护起来。

- 星际资讯

免责声明：投资有风险，入市须谨慎。本资讯不作为投资建议。