日期: 2024-12-29 类型:智能硬件
空间智能作为AI发展的下一重要里程碑,有望引领人工智能进入全新发展阶段。
02世界模型作为空间智能的核心,通过模拟环境帮助人工智能预测外部世界状态变化,提高决策质量和安全性。
04空间智能技术已在无人驾驶、医疗等领域展现广泛应用前景,推动算法逐步发展和技术进步。
达尔文在《物种起源》中认为,约5.4亿年前的寒武纪,出现了单个感光细胞的生物体。视觉能力被认为引发了寒武纪生命大爆发,这是一个动物物种大量进入化石记录的时期。一旦有了视力,生物就会变得更积极主动,神经系统开始进化,视觉变成了洞察力,因此视觉让生物的进化加速。
图像和视频模型与大型语言模型的出现预示着AI在视觉领域的潜力,但它们只是触及了更大可能性的皮毛,当前只是人工智能的“第一章”。为实现更高水平的人工智能,空间智能(Spatial Intelligence)作为人工智能从二维空间向三维世界进阶的一把钥匙浮出水面,它不仅要让人工智能能够“看见”世界,还要让其能够理解三维世界,并在其中进行互动和学习,这是从单纯的视觉识别到真正理解、操作现实世界的跨越。
这一技术概念的提出,将为包括具身智能、无人驾驶、车路云一体化等在内的人工智能场景应用翻开新的一章。
如今,我们正站在智能时代的转折点上,空间智能成为推动人工智能突破当前能力限制的关键。正如视觉能力催生了生物智能,空间智能有望引领人工智能进入一个全新的发展阶段,但必须让人们看到落到实处的可能。
被誉为“AI教母”的李飞飞教授首次创业即选择了空间智能方向,引发了行业对这一领域的广泛关注。
在温哥华举行的2024年TED大会上,她发表了题为《有了空间智能,AI将会理解现实世界》的演讲,将空间智能描述为AI发展的下一个重要里程碑。“机器视觉是远远不足。”李飞飞说,“视觉化为洞察、看见成为理解、理解导致行动,行动的冲动是所有具有空间智能的生物的天性”。
人们所熟知的人工智能大模型是拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型,通常可处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。传统的通用大模型擅长处理文本、语音、图像和视频等四类数据,但对机器人来说,理解空间坐标、清楚自己在什么位置、怎么样做目标抓取才是核心。这也进一步强调了空间智能与现有人工智能技术的本质区别。
空间智能被认为是实现通用AI(AGI)的关键一环,能够理解为机器在三维空间当中的感知、理解和交互的能力。它在二维世界的基础上增加了深度信息,变成三维且极具立体,目标是将AI模型从像素的2D平面提升到立体的3D世界,赋予它们与人类一样丰富的空间智能。这样的空间智能最后呈现出来的方式可能是两个虚拟的智能体的交互,也可能是成为机器人的“大小脑”,进而实现实体交互。
尽管OpenAI的Sora模型可以文生视频,但就本质而言,它仍属平面二维模型,没有三维立体理解能力,只有通过空间智能,才能看到世界、感知世界、理解世界并让智能体自主做事,从而形成良性闭环。
形成空间智能的核心在于建立“世界模型”,让机器人具备类似人类感知的“灵性”。具体来说,要建立能够对空间几何与物理过程进行精准建模、理解与推理的“世界模型”,使包括视觉、力觉、触觉等在内的各类机器人传感器具备人类感知的能力。
世界模型的基本思想,源自于对人类和动物如何理解世界的观察。我们的大脑能够模拟可能的未来场景,并基于这些模拟做出决策。借鉴这一机制,世界模型旨在为AI系统提供一个内部环境的模拟,使其能够预测外部世界的状态变化,从而在不同情境下做出适应性决策。
这个模型通过无监督的方式从未标记的数据中学习,从而无需明确指示就能理解世界动态。该模型架构由六个模块组成,包括执行控制的配置器、理解当前状态的感知模块、预测的世界模型、决策的成本模块、规划行动的行动模块,以及追踪状态和成本的短期记忆模块。
在强化学习领域,世界模型已经显示出其强大的潜力。通过在模型中模拟环境,人工智能不但可以在虚拟环境中“想象”执行动作的后果,还能够在实际执行之前评估不同行动方案的效果,极大提高了学习效率和决策质量。此外,在自主决策系统,如无人驾驶汽车和机器人中,世界模型能够帮助系统更好地预测和应对可能的变化,提高了安全性和可靠性。
世界模型的最大优点是其环境模拟与预测的能力,这种能力使得AI系统可以在进行实际操作之前,通过内部模拟来评估不同行为的后果,这在资源有限或风险较高的情境下特别的重要。世界模型还支持决策支持和规划能力的提升,允许系统在多个可能的未来中“看到”并选择最优路径。
然而,世界模型的构建和应用也面临着显著的挑战。首先,环境模拟的准确性极大地依赖于模型的复杂度和所拥有的数据质量。要精确地预测复杂环境中的动态变化,需要大量的数据和强大的计算资源,这对于资源有限的项目来说可能是一个限制。
其次,构建一个能够泛化到多种不同环境的世界模型是极具挑战性的,因为现实世界的复杂性和不可预测性远远超出了任何现有模型的处理能力。
尽管世界模型在理论上具有巨大潜力,但在实际应用中任旧存在许多未知数。例如,如何确保模型的预测准确性,怎么样处理模型可能的偏差,以及如何在不同的应用场景中调整模型参数以适应特定的需求等问题都要进一步的研究和探索。
世界模型的潜在应用场景范围极为广泛,不相同的领域对于其理解与预测能力有着差异化的要求。
以自动驾驶为例,世界模型需要实时精准地把握道路状况,并对其变化趋势做精确预测,重点聚焦于对环境的瞬时感知以及复杂变化趋势的预估判断。在机器人技术领域,世界模型对于导航、物体识别检测以及任务规划等关键任务起着不可或缺的作用,要求其能够精准地解析外部动态环境,并构建具有交互性和实体体验感的环境场景。而在虚拟社会系统模拟方面,世界模型需要敏锐地捕捉并预测更为抽象的行为动态,诸如社会交往互动以及人类决策制定等过程。
目前,空间智能的发展处于起步阶段,但整体发展速度很快。Omdia最新报告数据显示,全球空间计算市场规模预计将在2029年超过100亿美元,在消费的人和企业用例中被广泛采用,其累计平均增长率(CAGR)将达18%。另据泰伯智库预测,到2030年,中国元宇宙市场规模将到达8500亿元;其中与空间计算相关的市场在2030年可能达到3400亿元,约占整个元宇宙市场的40%。
从技术演进角度看,世界模型代表了AI领域的一种崭新思维方法。它通过将感知信息转换为关于外部环境的抽象模型,使得智能体可以有明显效果地预测和理解周围世界的动态变化。世界模型设计的核心在于利用历史数据,建立一个能够模拟现实环境的数字框架。
以自动驾驶为例,世界模型不但可以帮助智驾系统根据历史经验预测其他车辆和行人的行为,还能在特定情况下提前调整行车策略,极大提高行驶安全性与效率。这种基于物理规则和常识的数字世界生成能力,是以往任何人工智能技术都不能够比拟的。
而空间智能则是世界模型的自然延伸,可被视为人工智能从“自发感知”走向“自主认知”的迈进,其让人工智能技术开始突破信息空间的局限,向真实世界的三维空间扩展,逐步提升了AI在实际环境中的适应能力。它不仅是人工智能技术的再次进化,更是AI系统朝着真正理解和交互我们所生活的三维世界迈出的关键一步。正如语言智能让人工智能能够理解和生成人类语言一样,空间智能将使AI能够理解和操作物理世界。
相较于传统的图像识别技术,空间智能要求人工智能具备三维空间的理解与实时行为调整能力。通过对动态场景的分析与决策,人工智能不仅仅可以识别物体,还能够理解它们之间的相对位置和运动轨迹。
比如,在复杂的城市交通环境中,无人驾驶系统必须利用世界模型来预测交通流动,同时依靠空间智能确保能够有效应对突发的交通情况。此种双重能力的结合,让无人驾驶的安全性和可靠性将发生质的飞跃。
空间智能与世界模型的结合,不仅拓宽了人工智能的应用场景,也推动了算法的逐步发展。未来,两者将为智能体提供更高层次的认知与推理能力,使其能够在模拟的虚拟环境中进行反复实验,从而优化决策在现实世界中的应用。
如此,科学家和工程师们可以在无风险的条件下,测试和改进智能算法的表现。这种在虚拟环境中的训练,为现实中的应用提供了更加保险的保障,对于推动技术的成熟具备极其重大意义。
在日本,空间智能已全面铺开。比如日本正在把整个东京进行3D数字孪生化,这是实现AI空间智能的关键一步。这一数字孪生模型的规模非常大,而且它对东京的刻画也非常之精细,其绝对位置精度大约在10cm以内,不仅包含了LiDAR点云,还有详实的CityGML和实时交通数据。根据日本的预期,到2030年将实现一个完整的数字孪生城市,从交通到能源做到信息无缝融合,慢慢的变多的城市房屋、工厂将转化为模拟数据。
对于城市进行的数字孪生其实就等于基于感知的城市数据,在互联网空间上像“孪生”一样再现建筑物、道路等基础设施与经济活动、人流等各种要素。也就是说,能够最终靠基于从物理空间所有的领域的活动中获取的实时数据,在互联网空间中进行高级分析和模拟,并将其结果以交互式的形式高速反馈到物理空间。
正如英伟达高级研究科学家Jim Fan所言,未来的城市管理将依赖于实时图形引擎中的模拟和集群系统,这将使得机器人和自动化设备能快速适应复杂的环境。机器人将不会孤立地进行训练,它们能够在实时图形引擎中进行模拟,并通过一个巨大的集群进行扩展,以生成下一个数万亿级别的高质量训练数据。
通过在高精度模拟环境中训练,机器人能获得丰富的训练数据,并在复杂场景中快速学习。这种方法将推动机器人从虚拟世界到现实世界的顺利迁移,提升其在实际应用中的效率和智能。
与传统的城市模拟相比,数字孪生可提供实时反馈,并随着城市的动态变化而调整其状态,这使得城市管理变得更灵活和高效。
例如,在新南威尔士州,通过数字孪生和人工智能结合的技术,交通管理可以实时调整以减少拥堵,从而最大限度地提高社会效益。
在中国,随着交通基础设施智能化升级的全面开启,实时数字孪生也开始在车路云一体化建设中发挥作用。蘑菇车联创始人兼CEO朱磊曾表示,车路云一体化的本质是“通感算”网络,核心功能是对实体世界实时数字化,通过深度融合通信、感知、计算的能力,为所有智能设备提供实时的数据服务,助力交通乃至更多产业领域实现更高效协作、决策和处理。
通过在路口铺设具备“通感算”能力的AI数字道路基站,并与AI路侧边缘计算系统(AI-MRS)相互配合,交通管理者可以获取路口300米范围内所有交通参与者的动态信息,实时构建数字孪生系统,为范围内所有车辆提供实时数据服务。
同时,将实时数字孪生系统嵌入车载大屏,驾驶员可以清晰看到路口全量动态信息,从而进一步掌握更全面的路况信息。由于该数字孪生系统与实际物理世界时延小于0.1秒,能做到数字孪生和现实交通环境之间的实时数据同步,为驾驶员作出最准确的驾驶决策提供较为可靠依据。
在医疗领域,空间智能技术能对医学影像数据来进行三维重建和分析,帮助医生更准确地诊断疾病。例如,对CT、MRI等影像数据来进行三维重建,可以更清晰地显示人体器官和病变的位置、形状和大小,为医生提供更准确的诊断信息。同时,空间智能技术还可以为医生提供手术导航和辅助决策,通过对患者的身体结构可以进行三维建模和分析,医生可以更好地了解手术部位的解剖结构和血管分布,提高手术的准确性和安全性。
五亿年前,视觉的出现颠覆了黑暗的世界,引发了最深刻的动物进化模式。过去十年,人工智能的进步同样令人惊叹。当我们开始为计算机和机器人赋予空间智能,就像大自然开启了生物多样化时代,这场数字寒武纪大爆发的全部潜力才会完全展现,人工智能的未来将由此更具无尽想象力。