华体会最新首页登录

当前位置: 首页 > 新闻中心 > 行业新闻
中国人的“FSD”?探秘商汤绝影AGI技术

日期: 2024-07-04   类型:行业新闻

  2023年11月,特斯拉宣布已开始向员工推出完全无人驾驶(FSD)V12版本,该版本会引入神经网络系统,使用最新的端到端无人驾驶技术,不再依赖于复杂冗长的代码。2024年,FSD V12开始全面推送,与此同时,FSD入华也成为可能。一时间,“端到端”成为全世界无人驾驶领域最热门的词汇。

  端到端到底是什么?落地端到端意味着车将会成为“机器人”吗?大模型、多模态、神经网络学习等对全自动驾驶有多大帮助及影响?中国公司在AGI领域的实力究竟如何?前段时间我们探访了商汤总部,对话了行业专家,商汤科技联合发起人、首席科学家、绝影智能汽车事业群总裁王晓刚博士,在采访中我们也进一步了解了商汤绝影在汽车行业的发展和规划。

  AI代表人工智能,能够执行特定任务或解决特定问题,如语音识别、图像处理和自然语言处理等,能表现出高度专业化但局限于特定领域,现如今AI技术已成熟并广泛应用于医疗、金融、交通等行业。

  AGI(通用AI)指的是具有人类般通用智能的系统,能够在不同任务和领域中表现出广泛的适应能力。开发特定领域的AI系统相对简单,通过大量数据和特定算法训练模型即可,而AGI需要模拟人类的广泛认知能力和自我学习能力,实现难度极高。

  想要更好地理解端到端,需要和传统的无人驾驶控制逻辑作比较:传统的无人驾驶系统采用模块化部署策略,其中每个功能,如感知、预测和规划,都是单独开发并集成到系统中的,执行时需要一个环节接一个环节递进。端到端自动驾驶则能像人一样,“看”到外界场景后直接就能做出判断,从信息输入到决策执行一气呵成,没有中间环节。

  直接感知强调系统直接从原始数据中获取环境信息,不经过太多的中间处理和转换环节,这是端到端中的一个关键起始点。直接决策则是基于感知结果直接生成驾驶策略和行动指令,减少了中间复杂的推理和转换过程,也是端到端的重要体现。

  端到端可以在一定程度上完成整个无人驾驶流程的连贯性和整体性,除了感知和决策,还包括将决策转化为实际车辆控制动作以及整一个完整的过程中的无缝衔接和高效协同。所以,直接感知和直接决策是端到端的核心特征之一,但也不能简单地将它们与端到端完全等同,端到端是一个更全面、涵盖整个无人驾驶体系从输入到输出的概念。

  当然,端到端不但可以应用在智驾领域,这种大模型更像是人的思考方式,省去了中间繁琐的步骤,减少了数据的损失,从信息输入到策略输出,都使用同一套算法模型,往往是包含大量数据及信息的大模型。端到端的应用,是AGI技术发展的关键进程。

  AGI技术是近几年全世界各行业的发展重点,身为AGI领域的顶级专家,王晓刚也和我们分享了一些观点。

  谈及AGI,就不能不提现今最火的Chat GPT,新的GPT-4o,将大语言模型和多模态相结合,引领了整个行业的发展。但在成功的背后,也是多家顶尖科技公司的共同进步,微软为Open AI提供了大型软硬件基础设施,而相关的基础算法和Transformer神经网络模型,谷歌已经研究多年。

  国内虽然也有层出不穷的大语言模型及相关应用,但大部分的原创度并不高,很可能会陷入“价格越卷越低,但核心技术进步缓慢”的尴尬境地。

  因此,大模型的发展不应急于商业化,而应着重提升其自身能力。未来的重点是多模态数据的联合训练,这需要物理学、心理学、认知科学、数据科学和数学等多个领域的合作,多样化的数据有助于平衡偏见,减少错觉,使大模型更稳定可靠。

  目前,Open AI已经在视频、图片、语音和文本等多模态数据的融合训练上取得一定进展,虽然低延迟和仿生交互只是表象,但其背后蕴藏着AGI的雏形。AGI的实现路径依赖于训练数据的质量和多样性,多模态数据在高维空间中的对齐和融合是当前最大的技术难点。AGI的发展不仅需要技术,还需要信念和热爱,中国的AGI要自己的奥本海默,企业应专注于提升核心竞争力和技术的原创性,而非陷入价格战,以推动中国AGI的长远发展。

  商汤一步步走来,从始至终坚持技术原创,这也是为什么在那么多AI相关的公司中,商汤能够傲视群雄。早在2014年,商汤团队就发布了DeepID系列人脸识别算法,首次超过人眼识别率,甚至超过了Facebook同期发布的DeepFace算法,实现了从0到1的突破。

  2018年,商汤开始大模型相关的研究,当时并没有能提供足够算力的基础设施,甚至连国内顶级的网络公司阿里和腾讯都没有,商汤开始在上海临港进行基本的建设,AIDC人工智能计算中心,提前为之后的AI云计算、云服务布局。有了自己的大型基础设施,商汤在行业内的发展能更游刃有余。

  2023年,端到端技术伴随着特斯拉发布FSD V12成为行业关键词,但早在2022年,商汤就发布了端到端技术,并表示端到端是未来。近日伴随着GPT-4o爆火的多模态,对于商汤而言并非什么新技术,已经研究多年并投入应用。不久前,商汤的SenseChat V5以总分80.03分的成绩刷新SuperCLUE国内最好成绩,并且在中文综合成绩上超过GPT-4-Turbo-0125,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。

  商汤从始至终坚持AGI有关技术的原创,走到世界前列。王晓刚认为,同质化的竞争会导致资源浪费,原创性是推动全球AI行业向前发展的源动力。当然,原创也代表着更多的不确定性和更大的风险,但如果成功,对于整个行业而言,突破是巨大的,这也是商汤想要实现的。

文章推送