如果机器人有人工智能嗅觉?
机器人通过感知目标实现行动与语言,以及基于行动与语言实现感知目标。 我们承诺在 2030 年之前,盲人拥有机器导盲犬,城市拥有机器犬去缉毒与反恐,你拥有的保姆机器人能感知食物变质,以及向你报告,孩子们是否在家里饮酒或抽烟。
为什么现在是人工智能嗅觉?
如今的机器人正接入 VLA 模型理解物体与空间关系,这让我们回顾 SLAM 时,意识到摆脱了迷人的错误。
尽管 SLAM 有着货币化的成功案例——扫地机器人,但那无法扩展智能,只能做一件事的机器人显然不像未来。
生物智能更是启示,没有几何地图也能迁徙上千公里和把食物藏着再找回。
总之,摆脱定位与地图,迎来多模态模型,把计算能耗从终端转移到预训练仍是飞跃。
机器人尚未达到货币化的临界点。对于重复型工作,机器得比生物运行的更快与更久。对于工程型工作,机器得与生物的智能持平。
换言之,机器必须超越生物,这同样是智能涌现的临界点。
智能涌现会如何发生?许多声称掌握自动驾驶的电车企业正参与人形机器人,他们的观点是“汽车是四个轮的机器人”。
于是同样的事不可避免——故障发生,盖上黑布。缺少地图和视觉失灵时如何自主移动的问题,没有现成答案。
使用 RGB 图片与视频的海量数据来理解物理世界的物体与空间,这一范式已经在自动驾驶时付出惨痛的教训。RGB 是为人类视觉而设计,并非为机器人理解物理世界。
尽管汽车与机器人的场景非常不同,但汽车在搭载算力与训练数据规模远远多于机器人的条件下,智能没有涌现。
如果新观点是“做家务比开车要简单 100 倍”,这反而印证了该范式是迷人的错误——它只在特定场景有效,智能仍无法扩展。
智能涌现需要机械降神,人工智能嗅觉为机器人带来机械降神。
正如 Richard Sutton 所说:General methods that leverage computation are ultimately the most effective。
我们进一步延伸:基于物理本体的感知最终最为通用。
为此,我们提出 GuGu 猜想:机器增加感知维度时,完成目标的所需能耗减少,智能涌现。
以及,智能涌现比例律:
I ∝ S / E
I:智能
S:感知维度
E:完成目标的所需能耗
这提供了直观且可操作的机器设计原则:增加感知维度,减少能源消耗,智能就会涌现。生物智能如此,机器智能也会如此。 人工智能嗅觉正是我们用来验证的途径,我们期待更多的研究员与工程师验证猜想。
我们如何做到的?
GuGuSniff-EMO 是语言-嗅觉-动作(L-O-A)的本体模型,直接从物理世界学习。
嗅觉即物理 —— 物理世界的分子通过传感器转化为电信号,无需算法补偿,感知来自本体。
嗅觉即语言 —— 电信号通过事件驱动、稀疏编码、语义向量映射与上下文学习,感知生成标签。
嗅觉即动作 —— 基于本体浓度梯度的上升或下降,实现自主的追踪与规避,自适应的开始与终止,感知实现目标。
我们之后做什么?
物理世界存在许多常量,如果智能没有类似引力或光速的常量,生物与机器的智能就没有上限。
智能是宇宙对抗熵的西西弗斯式努力,我们扩展智能的自由意志,正是宇宙意志。
关于如何扩展智能,我们期待任何合作。比如同样基于物理本体构建通用感知硬件的组织,以及强化学习的研究者。
同时,人工智能与机器人引发了社会担忧:机器人会造成多数人失业吗?进而勒紧裤腰带吗?
担忧并非源自“少数人影响多数人”的失衡感,事实上,这种失衡在技术不发达与市场不自由之前就已存在。
担忧源自“未来的多数人”成为“过去的少数人”的迷失感——我们之后做什么?
制度的乌托邦全都失败了,以至于技术与市场的乌托邦到来时,我们反而不知所措,就像见证机械降神却忘记戏剧必须结尾。