模态语言模型其

ritu2000 · Post by **ritu2000** » Thu Dec 26, 2024 4:46 am

对在像素空间中有重建例如你重建一个真实的场景；而如果你看不到那个场景则会使用生成技术。这两者实际上是非常相似的。整个对话中你一直在谈论语言和像素或许这是一个好时机来讨论空间智能与语言方法的对比比如它们是互补的还是完全不同的？我认为它们是互补的。我不确定如何定义“完全不同”但我可以尝试做个对比。如今很多人都在谈论、开放以及多模态模型。大家觉得这些模型既能处理像素也能处理语言。那么它们是否能实现我们想要的空间推理呢？为了回答这个问题我们需要打开这些系统的“黑箱”看看它们是如何在底层工作的。

语言模型和我们现在看到的多底层沙特阿拉伯电话号码列表的表示是“一维的”。我们谈论上下文长度、、序列、注意力机制但归根结底这些模型的表示是基于一维的序列化令牌。这种表示在处理语言时是非常自然的因为文本本身就是由一维的离散字母序列组成的。这种一维表示是成功的基础现在我们看到的多模态也是如此它们将其他模态（如图像）“硬塞进”这种一维的表示中。而在空间智能领域我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。

从算法的角度来看这为我们处理数据和获得不同类型的输出提供了新的机会帮助我们解决一些截然不同的问题。即使从一个粗略的层面来看你可能会说：“多模态也能看图像。”确实可以但它们在处理图像时没有将三维的本质置于其方法的核心。我完全同意讨论一维与三维表示的根本性区别是非常核心的。此外还有一个稍微哲学化的观点但对我来说同样重要：语言本质上是一种纯生成的信号世界上不存在语言。你走到大自然中不会看到天上写着文字。无论你输入什么数据语言模型几乎都可以通过足够的泛化将相同的数据吐出来这就是语言生成的特质。