全球顶级AI科学家李飞飞领衔的具身智能项目到底长啥样?

[娱乐] 时间:2024-03-29 15:44:00 来源:蓝影头条 作者:知识 点击:190次
《科创板日报》7月11日讯(记者 张洋洋)美国国家工程院院士、全球斯坦福大学教授李飞飞团队于近日发布了具身智能的顶级的具底长最新研究成果,大模型接入机器人,科学可将复杂指令转化成具体行动规划,家李人类可以很随意地用自然语言给机器人下达指令,飞飞机器人也无需额外数据和训练。领衔

该项目名为“VoxPoser”,身智啥样相比传统方法需要进行额外的全球预训练,该项目用大模型指导机器人如何与环境进行交互,顶级的具底长所以直接解决了机器人训练数据稀缺的科学问题。

《科创板日报》记者从官网到采访多位业内人士,家李一探这位全球顶尖AI科学家具身智能项目“VoxPoser”的飞飞真面目。

具身智能=?

《科创板日报》记者在VoxPoser官网看到,领衔大模型接入机器人后,身智啥样人类可以随意用自然语言给机器人下达指令,全球就像这样:

image

大语言模型+视觉语言模型,可以在3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划,就像这样:

image

更重要的是,真实世界中的机器人在未经“培训”的情况下,可以直接执行任务,就像这样:

image

接入大模型后,机器人是如何“听懂人话”的呢?根据李飞飞团队阐述的工作原理:

首先,给定环境信息(用相机采集RGB-D图像)和人类要执行的自然语言指令。

随后,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map(包括在哪里行动,怎么行动)。

最后,运动规划器合成6-DoF动作(上下、左右、前后,6自由度)。

对于VoxPoser项目,北京智谱华章科技有限公司AMiner项目团队在官方微博表示,他们指出了机器人操作中的一个主要瓶颈,即大多数模型仍依赖预定义的运动原语来进行与环境的物理交互。

机器人要灵活运动,依赖预先输入的数据来训练,但后者稀缺且昂贵,所以直到目前为止,机器人也只能实现工程师们预先定义的有限功能。

根据李飞飞团队成员Wenlong Huang在社交媒体的阐述,VoxPoser的原理是不需要对机器人进行预训练,即可有效解决原本的数据难题。

李飞飞团队的研究成果,在国内外社交媒体上引起了广泛的讨论。《科创板日报》记者注意到,一名前微软研究员和亚马逊云专家评价称,“这项研究走在了人工智能系统最重要、最复杂的前沿”,私募大佬但斌也在微博上转发了相关文章。

image

更智能的机器人,AI能力是关键

由于AI的加持,打开了人们对于机器人技术发展和应用场景的想象空间,近期机器人板块热度再次袭来,涨势明显。

一名机械行业券商研究员告诉《科创板日报》记者,近期他们正在密集调研机器人公司,尤其是人形机器人企业,并组织交流,要求是“调研50家机器人企业,交流100场”。

该研究员表示,但市场目前还是在炒作零部件供应商,AI+机器人,现在核心矛盾是AI能力,也即大模型、算法、操作系统等软件层面的构建方案,而真正具备这些能力的机器人企业并不多。

中国通信工业协会两化融合委员会副会长吴高斌接受《科创板日报》记者采访时表示,接入大模型,对整个机器人软件和硬件系统提出了许多新要求。一方面,大模型需要更强大的计算和存储能力。机器人厂商需要投入更多的资源来提升硬件设备的性能,以满足大模型的需求。

另一方面,大模型对软件系统的要求也更高。机器人厂商需要开发更加复杂和高效的算法和软件架构,以支持大模型的训练和应用。此外,大模型的使用还需要更多的数据集和标注,机器人厂商需要建立更完善的数据采集和管理系统。

因此,不同量级的公司对大模型的需求也存在一定的差异。吴高斌告诉记者,大型机器人厂商通常具有强大的研发实力和资源,对于他们而言,接入大模型几乎是必选项,小型机器人厂商的市场需求相对较小,可能更注重成本和性能的平衡,则并不一定要接入大模型。

前述研究员也告诉记者,AI+机器人方向,他们现在最关注的是特斯拉、小米、达闼、优必选这些头部企业的最新动向。

在刚刚结束的2023年世界人工智能大会上,特斯拉、达闼是位数不多展出人形机器人实物的厂商,在两个展区,挤满了前来观展的人员。

image

在AI+机器人的概念下,产业链上哪种类型的公司将更具竞争力也成为了一个关注的焦点。

吴高斌认为,从整个产业链来看,与大模型相关的公司可能更具竞争力。这包括大型机器人厂商、人工智能技术提供商、数据服务提供商等。这些公司能够提供更先进的技术和更完善的解决方案,从而在市场上占据更有竞争力的地位。

(责任编辑:时尚)

    相关内容
    精彩推荐
    热门点击
    友情链接