关于 Grok 3 发布后的思考
关于 Grok 3
- 昨天中午 Grok 3 正式发布,马斯克亲自上阵进行宣传。
- 训练规模:采用 20万张 H100 训练;
- 当然直播中也说到,受实际训练中故障率的影响,大致是100K+的卡实际起作用;
- 从 OpenAI 着急要建超算中心来看,OpenAI 的训练集群规模应该不会比马斯克的大。
- 模型参数规模:
- 拿这个问题询问 https://grok.com/chat
- 答案是:1.8万亿
- 这个规模大致和 GPT-4o 差不多。
- 能力:
- 从目前 https://lmarena.ai/ 的排名看,基座模型的能力暂居第一;
- 但是和 O3-mini、Gemini 2、DeepSeek R1 仍然大致差不多的水平,并没有达到马斯克发布前吹嘘的高度。
一点思考
- 人类有史以来的语言(文字、影音)资料基本上全部压缩进大语言模型的神经网络中了;
- 前段时间一些 AI 界大佬认为基座模型卷规模的路径已经快到尽头了;
- OpenAI、DeepSeek所发现的推理链是继续提高模型能力的新路径;
- 前不久的一篇论文 https://arxiv.org/abs/2502.03387 提出一个观点:少即是多,我觉得是一个新方向。
少即是多
- 现在大模型相比人类的优势主要是知识的广博,而非思考的深入;本质上是因为把人类有史以来的知识全部压缩进那个超大的神经网络了。
- 人类的优势是逻辑思维能力,可以从很少的 Token 出发推理出很深入的成果,例如数学。
- 在动物界,人脑的神经网络规模不是最大的,人脑和体重的比和大猩猩也类似,人脑除了思考,还需要管理身体,用于思考的神经网络规模和消耗的能量并没有非常大。
- 人类科学发展史揭示:现象背后的科学规律一般是非常简洁而优雅的。
- 简单的模式经过迭代可以演变为非常复杂的现象。
- 人出生时并非白纸一张,由基因生成的大脑是一张基础的神经网络,先天具有一些神奇的结构模式。
- 人类大脑具有极强的可塑性,人类的智能相应的可以适应各种不同的生长环境;
- 可以想象,在地球出生的人类,和未来火星上出生的人类,以及太空飞船上生长的人类,在思维方式和行为模式上会有区别;
- 婴儿出生时的大脑所携带的那张最基础的神经网络是生物进化的瑰宝,是宇宙的奇观。
- 各种动物出生时的大脑所携带的神经网络都是由基因决定的,有些类型的动物虽然已存在上亿年,但基因不会改变,基础的神经网络就不会改变,高级智能就无法产生。
- 人类可能也是一样,智能的上限是由这张基础神经网络决定了的,除非发生基因变异。
- 神经网络在快速思考时是基于概率的,所以人的感性是不精确的、模糊的、凭感觉的、艺术的。
- 但人类的神经网络一定具有一些神奇的结构模式,使得我们有理性思考的能力;
- 这些神奇的结构可能主要存在于额叶中,也可能是全局存在的,至少是作用于全局的;
- 理性思考是慢速的、痛苦的、耗能的。
- 要让大语言模型象人一样思考,需要找到或生成这种神奇的神经网络结构。
- 这种神奇的结构应该是精炼的小型规模的;
- 这种神奇的结构的作用机理也许是类似于:简单的模式经过迭代演变为非常复杂的模式。
- 要生成这种神奇结构,只能依靠解决数学问题的途径,而不是解决编程问题等其它的途径;
- 编程本质是工程,不是科学,解决方案可以是多种多样的;
- 我在使用 AI 进行编程时,同一个需求,同一个 AI,也会给出不同的解决方案。
- 有趣的是,现代数学已经证明:数学本质上是人的思维方法,并不是客观存在。
- 换句话说就是:人类的基因决定了人的基础神经网络,这张神经网络的结构决定了人的思维方法,思维方法最本质、最底层的那部分就是数学。
- 目前有一种研究,是构件一个数字化的世界,让 AI 在这个世界中生活,以期进化成人工智能。
- 我觉得通过这种方法,可能进化出来动物级的智能,进化出人类的智能,绝对需要那些能够产生数学思维能力的神奇的结构。
AI 的未来
- 也许还有一种可能性,其实数字化的世界永远产生不了象人一样的智能,但可以产生一些在特定领域超越人的智能。
- 例如目前的大语言模型在知识的广度上绝对是远远超越了人类;不久的将来,象编程这种事情,AI 一定会超越人类。
- 例如人类的自我意识、情感等等,也许和人的内分泌的化学物质,和人的血肉是紧密相连的,也许是数字世界难以模拟的。
- 如果能够解码人的自我意识、情感等等,让人的意识进入数字世界,那人类就可以抛弃目前这个脆弱的肉体,实现长生不老。
- 也许我们最终即使知道了如何形成那些神奇结构,也无法让 AI 生成类似人的自我意识和情感,得到的只是一个可以帮助我们解决科学问题的助手,那样不失为一个更好的未来。
- 就象 AlphaGo 下出来的围棋,人类难以看懂,如果一个擅于推理的人工智能诞生了,它解决科学问题的方法和结论,将都是人类所无法完全理解的。