一万个单词记录:VLA范式,黎明和具体智慧的雾
日期:2025-06-05 10:51 浏览:

累积的丨LAIWENXIN编辑器丨CHEN CAIXIAN VLA(视觉语言动作模型)是体现智能领域的主要新范式。它可以有效地包括视觉信息,语言诫命和行动决策,可显着提高机器人在复杂环境中的理解和灵活性,并且重要的是建立机器人从不同情况下独立决策中的单项实施中飞跃。它已成为当今学术和工业界的热门研究。 2025年5月9日,Leifeng.com和AI技术评论Gair Live Brand举行了在线圆桌沙龙,其主题是“体现的VLA Intelligence的训练和崩溃”。圆桌会议的主持人是北京大学计算机科学技术学院的助理教授江港和Zhiy Scholaruan。他还邀请了Tsinghua大学交叉信息学院助理教授Gao Yang和Qi的联合创始人anxun Intelligence, Zhao Xing, assistant professor of the School of Cross Information at Tsinghua University and co-founder of Xinghaitu, and Yaodong, assistant professor of school of artificial intelligence school at PAKING University and University Artificial Intelligence at PAKING University at University at University at University at University and University Director of the Joint of Taking University.智力。在会议上,主持人张方上主持了VLA讨论。首先,他讨论了其在相关模型中的含义,起源和差异。然后审查了技术路线和新成就,并讨论了不同路线的优势和缺失。然后,他回顾了通常的机器人活动周围的基本技术和基本产出游行的瓶颈;他还研究了增强研究,提高能力,使用异质数据和伙伴关系培训的结合;最后,他专注于实施的情况并讨论进行长期活动的困难和可能性。其中,三位客人对VLA在体现的情报中面对的技术瓶颈表达了自己独特的看法:Gao Yang认为推理和数据是VLA今天面临的两个关键挑战。尽管许多研究探讨了VLA与推理之间的组合路径,但最好的解决方案尚未阐明。在数据级别上,不仅比VLM训练的数据要小,而且差异也很严重。当前,数据通常是在简单的环境中收集的,并将其陷入“限制模型功能和模型功能的数据不足的数据中,具有数据收集限制”。数据困境破裂一直是VLA研究的关键。赵明说,在VLA应用的实际扩展中,优化系统操作统一的经济成本和问题。高杠杆的循环思考的ls,设计高频自适应闭环系统仍然是一个尚未解决的问题。小脑(地下策略模型)是经过训练的单独的,与大脑和小脑相似的接触。尽管一些研究试图探索端到端的体系结构,但很难进行协调。同时,VLA缺乏“测试闭合循环”,该循环只能从大型模型中产生中间信号来鼓励小型模型输出动作,并且无法通过研究作为语言模型来计算和优化试验期间的推理能力。为了打破这些困难,我们需要从语言模型的经验中知道,采用端到端的体系结构,并伴随着对强化的研究,使VLA能够在动作领域进行闭环推理,但要处理工程和数据实施等困难,即使没有解决,VLA将很难真正释放潜在的智能。以下是这个圈子的讨论中很棒。 AI技术评论是编辑和编译的,没有改变其最初的目的:VLA的前世,张香汉:大家好,我是Zhang Shanghang,这是这个圆桌会议的主持人。我很荣幸邀请一些来自Tsinghua大学和北京大学的专业老师,并且在VLA领域非常荣幸。我们今天的话题是关于VLA的培训和突破。首先,请向所有老师介绍自己。高杨:大家好,我是Tsinghua大学交叉信息研究所的助理教授,也是Qianxun Intelligent的联合创始人。我很高兴今天与您分享VLA的知识。 Yang Yaodong:谢谢您的上海和Leifeng.com的邀请。现在,Tatai将与我所有的同事一起将您的想法放在VLA上。我来自北京大学的人工智能研究所。今天,该研究所还探索了VLA在灵巧的OPE中的应用与Lingchu Intelligence的评估。 Zhao Xing:大家好,我是Tsinghua跨信息研究所的Zhao Xing。我研究了机器人和自动驾驶,并在同一方面探索了VLA。在机器人方面,我还拥有机器人本体论的全链星图体验,VLA模型的数据收集培训。现在,我将借此机会与您交谈和分享。张上香:我们今天讨论的话题是体现智能的最热门话题之一:VLA。作为暖气,我们可以首先谈论什么是VLA以及您在探索VLA方面经历的一些经历,例如Howdefine VLA?您是如何开始搬到VLA轨道的? VLA现在如此受欢迎,您感觉如何?您如何看到VLA技术路线?高杨:我认为VLA来自大型模型的技术变化。当我学习医生的头衔时,我正在自动驾驶,然后是机器人。最初,堆栈技术是基本的计算机视觉,Stu模仿和增强研究。尽管它可以在单个任务或某些任务中表现良好,但是很难实现模型来完成所有任务。随着VLM和LLM带来的更改,即视觉语言动作大型模型的新范式包括各种操作操作。自去年以来,我们的团队已完全投资于VLA研究。尽管VLA是一个新兴领域,但研究诸如模仿和研究诸如其下的强化之类的Tecnology类似于传统的类似技术。张上香(张上香):我们也对高教老师发表的《精神VLA》的作品感到兴奋。当在北京举行了体现的情报会议时,我还听到了在论坛上VLA的GAO老师的介绍。在这方面,这确实是主要的,我也希望将来在VLA方向上有更多的工作。接下来,请要求Yaodong老师介绍VLA的含义以及您开始学习VLA的原因。 Yang Yaodong:GAO老师的解释非常全面。从大型模型的角度来看,ChatGPT技术逐渐从Wikena模式扩展到视觉模式和行为空间模式,并将大型模型从“大脑到圆柱体”变为可以杀死与物理世界相关的体现的药物的变化;从行为控制的角度来看,传统控制需要从简单的MPC(控制模型控制)和闭环控制扩展到具有通用动机和物理接地能力的一般控制,这仅适应大型模型的特征。这两个发展路径的推广方式相同,使机器人领域的学者和大型模型都集中在VLA上。作为具有体现智能的技术亮点,与以前的技术成功相比,VLA有望显着增强机器人在决策和行为行动中的能力,并占据了重要的未来的发展位置,智能水平显着提高。张上香:是的,正如G所说,vla Guro Yaodong所说,VLA也是我们大型模型技术和智力宝石的绝佳结合。过去,您还在模型的大型模型中完成了许多相关任务,并且还可以将其应用于具体智能的领域。还请Zhao Xing老师谈论您的VLA意思,开始的机会以及您自己的观察和情感。 Zhao Xing:谢谢,老师尚挂。我有点震惊,转向了VLA的外观。在3月23日发布GPT-4之前,Chatgpt和其他活动是纯语言模型。尽管整个AI行业都非常惊讶,但对我们进行远见,机器人和自动驾驶的研究人员而言,它不太重要,而VLM的出现(即具有视力的GPT)是不同的。我印象深刻。当晚发布GPT-4时,我们阅读了它的技术报告,该报告显示了男人y有趣的视觉理解技能,包括一些理解数学问题模式的例子。在图像中的道路上有一辆汽车,背景有变化。 GPT-4可以理解现场的情况。因此,自然而然地,我们可以想象问题的问题几乎看不见某人在路上换衣服时,该模型将帮助我们做出一系列随后的决策和计划。当晚,我们开始撰写一项研究建议,使用计划决策的视觉语言模型,并开始使用端到端模型设计VLM双重系统。我们在自主驾驶领域首先关注它们的原因是因为自动驾驶是一个长期的尾巴问题,而长期尾巴问题意味着没有数据可以训练。如果没有数据要训练,则无法谈论端到端。要解决这个问题,只有通过VLM和VLA模型才能理解和推理能力。作为回报,我认为这是未来的机器人或情报领域的宝石将会发生的事情。当我们使用具体的智能机器人解决越来越多的问题时,我们一定会发现我们从未见过的场景。它们不能仅通过收集数据来解决。范式模型肯定会改变诸如VLM和VLA之类的范式,因此我们更决心探索这个方向。张上香:这种观察是热情的,当Vlmin在自动驾驶领域中掌握并具有良好的含义时,您可以想象一下。您刚刚提到了VLM和LLM在VLA模型中最重要的功能。 VLM也来自LLM。那么,您如何看待VLA中的LLM或语言方式?在制作VLM时,我们更有可能观察到它是对某些细粒度,局部和几何信息的看法,可能不像传统上纯粹的视觉模型那样准确,例如分割,深度估计和拳击坐标P受感染。但是,在具体智能的领域,我们确实需要机器人来准确捕获事物。那么如何挑战缺乏本地VLM信息?高杨:然后我会扔一个砖头,先吸引玉。首先,对于第一个问题,我们要求人们在机器人中做一些要在机器人中提出的事情。他们发送的方式确实是语言。 l在这里扮演指定任务的角色; V和L之间的对齐也很重要,因为在定义任务后,机器人需要了解当前情况。该语言是“拿一杯水”,那么这杯水的相应图片在哪里?很多时候,人类语言的描述具有有关图像的一些上下文信息,因此这两种方式的整合可以使模型可以更好地理解人类的目标。这些功能确实取决于VLM预训练。张上香:是的,模态语言本身也可以带来很多其他信息离子到机器人,包括接收交互式指令等,然后还可以通过对wiyou和视觉的对准来增强一般方式。因此,对于第二个问题,如何增加丢失的本地信息?我想知道Zhao老师是否有任何想法?因为Zhao老师正在自动驾驶,所以还有许多任务需要准确理解。 Zhao Xing:我将短暂分享我的经验。晚上发布了GPT-4V,我和我的同学开始计划该做什么。作为应用程序的研究人员,从解决问题的过程中,VLA和VLM的主要价值在于填写在体现智能领域中通常缺乏的常见意识能力,例如道路交通规则,人类的社会规则,人类的社会规则等。F 80-90分,并通过建筑设计从优势和劣势中学习。将来,将只有VLM和其他模型,这可能是相对较高的可能性结果。从长远来看,VLM目前的预训练数据缺乏与物理世界有关的智能数据。如果更多的理解物理数据(例如3D几何形状和时间)可能会集成到未来的培训中,则它可能会朝着基本技术的探索方向发展。张上香:感谢Zhao老师的分享。首先,我们可以将其放入具有良好表面效应与VLM和VLA的3年形模型中。其次,可以将更多的物理定律引入数据中,这也激发了实施和应用的启发。 Nagtai想知道Yaodong老师是否有东西要添加? Yang Yaodong:上面的两位老师清楚地描述了现状。如今,大型模型在语言模型中取得了突破。过去,他们切换了美丽的模型在语言模型中的计算机视觉领域中,但是现在它们正在将良好的体系结构应用于计算机视觉体系结构中的自然语言处理。一方面,变压器的成功导致了这一变化。另一方面,人工智能在语言模式下实现了大型模型,大数据和大型计算强度的三位一体,从而导致了规模定律。从哲学的角度来看,维特根斯坦(Wittgenstein)认为,语言识别是世界的边界,语言可以表达一切,而语言在离散的空间中,这是一个更容易的模型。但是,如果从语言到视觉和动作方式中脱颖而出仍然是一个挑战。当前,可以通过分裂来解决一些问题,例如结合高质量的视觉模型,潜在的动作模型和语言模型。但是,从一般代理和AGI的角度来看,将来需要技术变化,而差异的整合仍然期望Erent模式具有单个表示形式,并在其中包含所有变量,但是这种大小太高。如果认为所有这些模式都可以在低人类的空间(板假设)中预期,则将有助于VLA和体现的智能的统一性,并取得更强的智能成功。目前,VLA才刚刚开始,并且有一些语言和VLM成功。 l分裂的想法出现了。未来的创新技术可以解决3D中信息不准确的问题。尽管它不知道花费的时间,但不应该太长。 VLA目前的生活,上香:我们只是谈论了VLA的前世。让我们谈谈其当前的生活,即VLA目前有许多技术路线,看看教师是否对最新发展有任何股份,例如发布π0.5模型的海外体力情报团队,AI的Helix人物,Gao Yang的老师Gao Yang最近发布了V1的合作,以及V1的合作,和V1的合作PI,我们最近在Lingchu Intelligence的团队。作为老专家,让我们谈谈您对VLA技术路线和MostNew开发的看法。高杨:开发技术VLA多年来都集中在体系结构和数据上。从结构上讲,从Google的预先训练的RT-1到RT-2,以及Sergey Levine的OpenVLA到π0.5,发展取决于VLM的开发。随着开放式VLM架构资源的开放和不断变化的培训方法,相关成就将扩展到VLA。同时,诸如匹配流和扩散之类的技术提高了机器人动作生成的能力。在数据级别上,从Google使用日常机器人获得的私人数据集从Zhanghang先生在内的开放资源数据进行打开,也做了一些由数据设定的出色工作,而国内外机构则是行动的和历史数据处理。此外,π0.5不会猛烈募集大量数据,而是重新募集转向互联网数据。我们,Qianxun Intelligent也试图使用视频预训练。数据的质量决定了模型的上限,这是VLA开发的最基本和持久的驱动力。 Yang Yaodong:让我从模型的架构的角度谈论它。根据该动作的表示,VLA可以分为两种类型:将动作作为连续动作处理时,例如传播(例如系列工作)等生成模型,因为自回归模型是指离散令牌;如果动作是在语言模型中的代币,则由螺旋表示。这两种模型都依靠VLM来i -i -将通常的含义与物理空间动作中的puwang语言映射到puwang语言。最近,我们还编写了VLA的摘要,以探索更好的方法将动作识别为离散或连续空间。此外,无论是行为空间的离散还是连续表示,都可以将其与h进行比较Uman Brain(即使这种相似性是潮湿的-Dudang),VLM负责推理和决策计划,而执行或传播行动的政策类似于操作的小脑。这两个技术范围正在不断变化,并获得了很多差异,但是它们总是围绕这两个主要框架旋转。在培训方法方面,VLA目前主要采用管理的研究,类似于一年前为期两天的模型的大型领域,依靠输入说明中的数百万个数据水平设置来实现遵守人类指令的影响。但是,如何提高试验期间VLA识别的能力并提供全面的识别语言模型的优势是需要轻松解决的主要问题。 Zhao Xing:我要注意的入口点是双系统。我刚才提到,我们更关心解决哪些问题。当涉及EMB当今,我们缺乏常识。如果VLM解决了通常的含义,我们必须与VLM和现有的端到端模型合作,以实现双重系统。 VLM是一个较慢的模型,可以在部署后达到对约2-3 Hz的理解速度,而端到端Modelo可以达到10-20 Hz的理解速度。他们以某种方式工作来实施双重系统。我们首先实施并实施了自主驾驶,这是一个很高的成功。然后,我们主要专注于机器人领域中的VLA设计,而只是在以下类别中腐烂。首先,我称为紧凑的一段VLA的最具代表性的π0,即,图像和语言指令直接用作输入和输出操作,类似于端到端模型。 HI机器人是双重系统设计。 VLM分解了关于原子行动的高水平指令,并将其提供给VLA进行实施。该模式类似于that自动驾驶双重系统的t。 VLM是一个低频操作系统,VLA是一个高速操作系统。看起来很喜欢系统的工作包括图AI和Nvidia的Groot N1的螺旋,但是PI略有不同,它们不会训练VLM。 VLM使用从Internet训练的每个人都可以提取VLM功能的开放资源模型,并将中间功能用作端到端DP(动态编程)模型的附加输入,然后让DP模型输出操作。这是VLM不练习并掌握其功能并将其传递给DP的设计。 π0.5和DEX VLA使用视觉作为输入,并在中间创建一个COT(链)来解释其完成操作所需的推理和计划,并最终能够输出该动作,该操作被认为是具有中间输出的VLA。最近,有一个更有趣的方向。 Google的体现推理,也就是说,培训了不太渴望的VLA模型。因为感觉和计划的能力是并非特别强,最好先训练体现的推理模型。在提供模型指令时,模型会看到图片,并可以指出应操作图片中的哪个对象。如果将其从位置A到位置B放置,则为1.5米或2米的3D空间位置。训练后,对VLA内部的知识并将其连接到动作解码器,该解码器的重点是VLM模型本身的功能。张上香:它确实充满了实用信息。您还开始在自主驾驶领域建立两个系统。关于今天提到的技术路线,哪一个更有可能在开放世界或外部实验室的工作中实现或胜任? Zhao Xing:实际上,我不知道Sthis是Agot。当前,VLA框架设计仍处于开花状态,具有不同的组合,例如紧凑,中间输出,两个阶段,平行或串联连接。但是很大的趋势是最初生产VLM(从大型语言模型开始)或机器人(专门针对计划模型和动作模型)的团队会产生全堆栈开发。为了提高VLM功能,现在将引入行动数据进行联合培训,目的是训练一种理解波纹管甚至是完全VLA模型的模型。无论是大型语言模型公司还是一家GEM的研究人员/业务,它们都构成了这个方向。大型语言模型训练营将扩大VLA,整合视觉和移动能力;机器人训练营开始于解决精致操作的原子任务 - 过去,基准包括10个行动来证明该模型的能力,但现在需要涵盖100、200甚至500个活动。在累积大量任务的过程中,我们发现只有任务是不可能的,并且需要良好的VLM编码器和解码器才能执行交叉模块融合。两种力量工作朝着末端VLA。 Jan Shanghang:现在VLA确实处于开花的状态,例如在第一天,人工智能的象征意义和连通性,但它慢慢地将其转化为研究过程。目前,Gemini Robotics,Nvidia Groot N1,Hi Robot,Helix等人都在研究双系统并发布了相应的演示。也许这种双重系统是一种更有可能在不久的将来实施或推广所有内容的设计,但是将来很难说。 VLA包括各种动作。对于三个基本的操纵活动,过去学习最多的操纵(VLN)以及与人形机器人有关的机动,您能否共享您认为在该领域需要损坏的基本技术瓶颈?高杨:我认为推理是今天的主要困难。执行复杂的任务时通常需要推理。 Zhao老师和Yang老师等学者也进行了很多回报关于VLA集成和推理的RCH,但我认为这仍然是最好的道路。另一个主要挑战是数据。当前数据幅度小于由VLM训练的数据,而差异不足更为关键。我们收集的大多数数据都来自一个简单的环境。从理论上讲,如果有无数的数据,可以轻松解决VLA问题,但实际上,存在一个鸡蛋问题,“模型功能的数据限制不足,并且模型的技能有限导致难以收集数据”。如何解决数据困境是VLA研究的主要优先事项。张上香:推理的能力和推理确实是一个巨大的挑战。您为什么不要求Yaodong老师分享,您面临的技术的主要瓶颈是什么? Yang Yaodong:我认为目前的VLA培训仍处于分裂状态,大脑和小脑曾经训练有素,尚未训练,而且几乎没有完成培训。这不是SA我是人脑和小脑之间的双向相互作用(对小脑执行的反馈,实时对大脑作用),现有的双重系统体系结构是一种训练产品,而不是生理结构。如何连接端到端培训钥匙。如果基本方法(例如扩散模型)与上层架构级别断开连接,则很难连接。尽管tsinghua rdt,pi等。另一个问题是,该语言模型继续计算测试时间的能力(输出行为为输入提供了输入以生成语义封闭循环),但是VLA只能允许大型模型生成中间信号(GEM/SOKEN/条件)(GEM/SOTKEN/CONDICET)(gem/docken/condition)无法返回的输出,该表单无法返回到“返回的时间”。要打破这一点Elemt研究,并在动作空间中为VLA提供闭环推理能力。这个技术方向引起了人们的关注,但是工程学的实施(伴随着GAO老师提到的数据的问题)是一个主要的VLA问题。否则,它可能只是模块绘图的产物,并且很难释放体现智能的真正潜力。第二个问题是如何通过我们在语言模型中发现的方法以及使用加强研究后的方法来显着提高推理的能力。在VLA中,其所有功能均来自VLM,但这还远远不够,因为我们知道,大多数具有强大理解语言模型能力的原因是因为它可以使测试时间能够使测试时间继续考虑,并且在试用期间会继续考虑它,并且准确性越来越高,并且可以在See上构建一个封闭的SE,因此,它可以在SEN上建立一个封闭的循环,因此,它可以在SE上建立一个封闭式的声音。Mantic Space,IT,IT,它可以在语义空间中构建一个封闭环路。可以输入到VLM。但是对于VLA而言,现在大型模型生成了中间产品,例如某种宝石,令牌或条件,然后小脑模型释放了一种行为,失去了行为。无法测试计算时间。测试时间的真实计算是视觉或输入输入,它释放了一个动作。动作ITO被返回VLA,以产生封闭的循环。此外,测试时间的计算力量有所改善,这将完全提高行为行动行动的整个动作的一般一般,准确性和稳定性。需要克服的技术困难是如何使用端到端体系结构来增强加强和培训的知识和知识,以复制我们在语言模型中取得的成功。这个技术方向已引起关注,但是工程的实施和提到的数据问题GAO老师仍然是VLA需要轻松解决的主要问题。否则,它可能只是模块插入的产物,并且很难用具体的智能完全释放智能。张上香(Zhang Shanghang):实际上,我的下一个问题是如何结合加固研究以提高闭环反馈功能。 Yaodong老师碰巧为我回答。让我们继续要求Zhao老师谈论您认为VLA的主要瓶颈吗? Zhao Xing:我在并行,系列,段,中间输出等的各种VLA范式上是几乎简单的线性无环图。我们理想的VLA应该启用三种视觉,语言和动作模式,以产生封闭的循环。 Yaodong老师清楚地解释了这一点。另一个可能的挑战是,当删除实际应用时,我们不希望整个系统以一个频率运行,这不仅涉及经济成本,而且还涉及系统的问题倡导水平。从哺乳动物的角度来看,ilo的控制需要高频操作才能快速检测到反馈,而高级级别的回路应较低。从第一个原则开始,应该设计一个与人类类似的高频自适应闭环系统,但这是一个不变的主题。张上香:您提到的是高频和低频。这是Helix作品的结合吗? Zhao Xing:是的,我们现在设计了一种非关闭环形建筑,例如Helix的设计,其VLM被冷冻。没有培训,这是采取行动的扩散政策的模型。它是在系列中,但我认为这不是最好的。它需要反馈操作,但是一旦回来,如何实现两个具有不同频率的系统以实现封闭循环?对于Thinki来说,面临着一个很大的挑战,所以我当然希望会有一种端到端的培训方法,该方法可以培训大型的多层次系统和多样性的Of频率。 VLA中的RL:闭环级别的设计确实非常重要。 Yaodong仅提到了加固研究的结合。 VLA已经有很多预训练,这也反映了一定的一般能力和推理能力。但是,今天提到的推理只需要进一步的改进,例如将其整合到研究强化中,这可能是一个好主意。首先,请YAOD添加到如何更好地结合VLA和增强件? Yang Yaodong:在这种类型的问题中没有解决“移动”的解决方案。从语言模型保管模型的开发的角度来看,无论是一系列的OpenAI或Seriesof DeepSeek,其背后都有一组完整的工程管道,这无法通过运行RLHF或GRPO来解决,并且涉及许多链接,例如冷启动,迭代蒸馏,数据制造和合成。尽管我们在Lingchu实验室进行的合作尝试具有最初的结果,但他们确实失败了达到最终结果。从数据前景中,与离散的空间问题相比,研究持续的行动空间更加困难。以Alphago为例,诸如国际象棋等控制控制问题可以解决超过3000万的人类行动样本(约160,000场比赛);赫利克斯使用500小时的数据,转换后达到1亿至5亿。离散问题仍然可以通过一十万个数据来解决,但是当连续的动作空间(尤其是涉及灵巧的手术)时,数据的质量和差异会严重影响VLA影响的训练和增强,并且大多数VLA确实会抓住。返回开发语言模型,早期的指导监视需要数百万个数据,现在数千件可以取得良好的结果。数据需求从“更多”到“更少但更多”的阶段。降低的发展肯定较低,但是没有更多的阶段不了解结构。库租金数据收集使用管理的研究想法。例如,可以通过遥远的操作获得捕获轨迹。尽管它可能会因寒冷的起点而膨胀并且具有出色的小脑政策,但它与与大脑和大脑相关的自我训练的天堂并不相同。幸运的是,我们拥有ISSAC健身房,ISSAC SIMS等。提供免费的合成数据,可以在大量虚拟环境中进行培训。结合使用真实技术的SIM,预计可以减轻数据问题。但是,如何利用强化学习来实现自我合成和自我训练数据,尤其是在智能手套方案的应用中,很少有研究和巨大的挑战。张上香格:感谢您分享Yaodong,提到的观点是刺激 - 当VLA与增强研究相结合时,数据准备不应遵循自我监督的训练框架,但必须采用以自我训练为导向的模型,以改进Alphazero的类似方法来改善Alphazero的路径在阿尔帕戈之后进行自我训练的国际象棋。作为增强研究领域的专家,您能否要求老师分享两者的组合程度如何?高杨:我认为学习强化是VLA发展的唯一途径。就像大型语言模型始于预训练,并逐渐通过GPT-1到3.5进行SFT微调和RLHF微调,VLA的开发很可能会经历这三个阶段。 RLHF的作用类似于单语言模型,以减少幻觉和动作错误。但是仍然有许多未解决的问题。例如,在VLA的RLHF中,如何启发类似婴儿床的行为?对于机器人,哪种连续采用 - 遵循PCOT符合PCOT?这些概念在我们的实验室中没有很好地定义和探索。将加固的研究用物理机器人和模拟器应用研究之间是一个重要的区别。将强化的研究带入真正的物理世界面临的挑战,例如数据,紧急需要深入研究和解决方案。当克服这些困难时,机器人可以在现实世界中实现独立培训。张上香格:正如老师所说的那样,有很多方法可以将RL和VLA结合在一起,例如使用对真实机器的在线加强研究进行微调下游活动,或者VLA的前训练与离线RL和IMITIT的分析相结合。目前,它处于探索的早期阶段,并且有不同的想法。老师如何看待研究和VLA研究的Zhao TheStegration?有更好的方法结合吗? Zhao Xing:我讨论了每个人都可能不提的任务。我们已经对机器人的全身运动进行了大量研究,从四足的狗机器人到双皮亚类人动物运动控制。已经证明了这种加固的研究领域,例如允许使用跑酷机器人,舞蹈,拳击等。从上层看,VLA模型通常使用,并具有更大的理解步骤。从珀斯普对未来发展的研究,对增强和VLA模型的研究将不可避免地具有合并的趋势,并且由加固研究训练的梯度模型有机会从控制模型到上VLA模型。但是,需要添加特定的集成细节。实际数据,模拟数据或Internet上的数据?张上香:是的,这确实是一个有趣的研究方向。 RL不仅可以帮助VLA,VLA还可以进食RL并优化控制控制。每个人都提到了今天的数据,我碰巧准备了相关问题。如π0.5和Xu Huazhe报告中显示的金字塔数据,底层是Internet数据,中间层是模拟数据,并且上层是真实的机械数据,这反映了多源数据训练的有效性。我想问所有老师,我是否应该使用真实的机器数据进行VLA培训,Ohalo -Halong数据?如果选择混合,它如何匹配?如何在培训的不同阶段选择数据(训练前,微调,训练后)?首先让我们谈谈,高先生。 Gao Yang:我认为PADIVERENT数据是最关键的。我们曾经在“模仿学习中的数据扩展定律”论文中提出的绝对数据不是主要的,而差异是首要任务。基于此,我对仿真数据有些悲观。尽管模拟数据可以很容易地产生大量,并且还可以通过域随机化增加随机性,但目前尚无模拟器可以复制丰富的差异 - 如果物理世界是对象或交互式形式的类型,则物理世界会有所不同。因此,仿真数据可用于粗糙的预训练,一些模拟器和数据集(数据集)也在现实生活中获得了一些结果。但是,除了简单的癫痫发作和局部运动控制外,模拟器的功能仍然远非涉及复杂的现实世界的复杂性ND一般目标操作正在运行。因此,我认为在互联网上,人类视频数据和在真实场景中收集的遥远数据上的丰富图形数据应该是VLA培训的主要数据来源。张上香(Zhang Shanghang):我听到了您在融合情报会议上的报告,该会议专门介绍了如何更好地使用Internet数据。如何将其介绍给您?高杨:Qianxun Intelligent投入了大量精力来探索如何使用互联网数据优化VLA模型。代表性任务之一是提出任何点轨迹建模(ATM)。我们从视频的Internet人类活动中获取关键点运动信息,并让模型预测轨迹的关键点,以找出Ta Tao的模式。通过对预训练模型的微调,一般的能力通常得到了显着提高,尤其是在场景适应和识别物体类型中。互联网数据丰富而多样,我们墨水这个方向具有很大的潜力,并且尚未完全探索和使用大量数据。张上香:我同意数据和模型相互适合。如果您想更好地使用较低的Internet数据数据,则模型设计的要求更高;当使用高成本的房地机数据时,模型设计可以更简单,更直接。关于数据,老师提到模拟数据还不够现实,并且培训帮助有限。我想问其他两位老师,您同意这种观点还是对VLA数据,尤其是模拟数据有不同的看法? Yang Yaodong:我可以添加一些东西。首先,我也认识到Internet数据的重要性,但是它存在较低信噪比的问题,例如财务数据,这似乎很丰富,但很难筛选有效的信息。尽管互联网数据具有人们的行为和操作习惯,但其在各种任务情况下使用的能力HaS发生了巨大变化。例如,专注于抓地力操作研究,互联网数据几乎没有用,因为视频中的人类运动很难直接切换到机械末端效应器,即使将它们移至上脚,也将有限于实际操作的帮助。在执行Lingchu智能时,发现如果您想实现明智的手的端到端运营,则应该,互联网数据不是很有效,而是外骨骼设备收集的准确数据,这可以有效地提高SIM的真实和培训后VLA的效果。这种认知与传统的学术研究观点不同。通常认为差异越高 - 数据越好,越好。论文通常显示模型在交叉任务和交叉任务场景中的性能,但是这里存在争议:过度无关数据会解散基本信息,从而导致模型的恶化CH性能。尽管通用人工智能(AGI)需要将大量数据集成以提高性能,但现在的通用情报仍然很长,而且体现的智能较小。在特定的任务情况下,MGA更高维度和更广泛的数据确实有害。这是我们实践中获得的经验。张上香:好的,Yaodong通过了一些有关互联网数据的不同想法。也许如果老师Gao Yang想添加或讨论它?高杨:我也同意。实际上,我们在Internet上计算数据,只有1%的数据是有用的,并且大量数据无效,这需要大量数据清洁。只有捕获人体对象和事物之间的相互作用的视频数据很重要。这与大语言模型不同。尽管大型语言模型也需要清洁数据,但即使没有清洁数据,它仍然可以训练公平的模型。和互联网上的视频数据应严格和广泛清洁在将其用于培训之前。张上香(Zhang Shanghang):是的,互联网数据很容易获得和丰富的财富,但是我们需要找到探索其重要部分的方法。关于Internet数据和模拟VLA培训的数据,Real Machine数据的价值并不令人怀疑。赵老师对此有何看法?这与今天的老师一样,还是有区别? Zhao Xing:首先,我对Gao Yang老师也有类似的看法,并对模拟数据变得悲观。因为很难开发一个完全真实的模拟环境,所以它不仅需要视觉现实,而且需要几何,物理和行为现实。真正的差距中的模拟将是压倒性的。但是后来发现,计算机视觉领域(例如3D Gaussian nerf)中的各种渲染技术可以缩小该空间,并且更多地解决了对象纹理和几何真实性的问题。我认为,模拟数据的作用是增强真实数据。通过“真实的模拟到真实的”闭环链接将我们的作品作为一个例子,我们首先拍摄机器人机器人视频视频,然后进行几何重建和新的渲染,然后将场景拆卸和重新安排以完成数据添加。它不会在稀薄的空气之外创建数据,而是基于现有数据的扩展。如今,一代模型变得越来越强大,甚至可以通过拍摄数据重建场景,这是一个很好的方向。但是,这条技术路线在很大程度上取决于实际数据,视频生成模型不了解物理基础袋,无法替代物理模拟器。当前的技术途径是通过半重建和半备份在虚拟世界中现实的地图,实现数字双胞胎并增强数据,然后与真实数据进行交互。但是毕竟模拟只是助手,现实世界中收集的数据是关键。张山Ghang:是的,我印象深刻。在去年8月的世界机器人会议上,我和高阳先生参加了论坛。他很高兴地向我提到,Xinghai图表将发布Real2sim2real的现实成就(从现实到模拟到现实)。正如您所说,如果仿真数据确实足够,它的价值将大大提高。像3D高斯这样的技术有助于重建并使其更接近现实Thekinwa。但是我正在考虑模拟物理特性的问题。 3D高斯技术可以恢复到外观水平,但是事物的物理定律,例如重力,摩擦,纹理触摸以及材料重量,表面纹理细节等,似乎有很长的路要实现高度逼真的模拟。因此,我想问一下,仿真数据是否变得更加重要,是否在包括这些物理属性在内的各个方面都与现实相近,还是足以让外观接近外观? Zhao Xing:是的,真实2SIM2REAL技术和联合培训仅提及更多有关将一般概念的广泛概念解决的特定问题。例如,在SIM2REAL间隙中,视觉纹理,几何,物理动力学和行为存在差距。当前,这些技术将尽可能地缩小视觉概括的差距。对于诸如与物理和行为的沟通之类的概括问题,我们还需要一项技术来克服晚期的SIM2REAL差距。如何改善一般一般?张上香(Zhang Shanghang):好的,让我们继续讨论Sim2real(从模拟到现实)和慷慨的问题。我们以前已经讨论过VLA的推理能力,并且通常非常重要的能力,教师经常在报告中提到它。那么,我们如何提高现有VLA的将军的能力?这包括将整个本体论,整个场景,整个活动,事物等放置的功能。我会喜欢要求老师提出一些建议。老师可以首先谈论它吗?高杨:我认为,在互联网上使用大量Internet视觉数据进行联合培训的Worsti和最直接的方法。例如,添加各种相关数据进行培训,您还可以介绍视频并使用辅助丢失的辅助功能。就一般一般能力提高功能而言,无论是大型语言模型还是视觉语言模型,算法都没有奇迹。它主要用于以多种方式生产大量数据,其中哪一部分源自现实世界,其中一部分是通过仿真方法获得的。当模型接触到大量不同的数据时,自然要学会避免一些神经网络捷径,并且通常在新情况下。对于VLA,这在这方面没有什么不同。 Yang Yaodong:我认为有一个值得思考的角度,也就是说,使用VLA作为大型模型来实现和一般能力。从数据前景,模型体系结构和培训中,我提到数据应该不同,模型的体系结构可能会发生变化,并且培训应增加强化,饰面等。例如,在大型语言模型方面,很难培训大型模型,人们的力量在于人们的力量在于能够继续适合新的在线技能。这意味着在测试大型语言模型期间计算,训练或对齐,也就是说,即迅速适应新的结构,活动和物体而无需移动或仅移动一点重量。这在小脑中尤其重要,因为人小脑非常塑料,而Kakayanthe则是儿童的操作。例如,13或14个月大的孩子在观看了一些示威后可以学会在时钟之后。当前,已经以大型语言的纯语言看到了一些好体征。例如,约翰·舒尔曼(John Schulman)提到模型之后INED达到一定层次,他发现俄罗斯错误。他用20个相应的英语数据修复了错误。因此,我们需要追求下一代范式,也就是说,在不进行大型战斗的情况下快速学习新功能的方法,即研究神经网络的可塑性,这可能需要算法革命,因为某些TTT范式现在值得关注。此外,我们还需要打破“大脑和小脑”模型的现有认知限制。这种认知更像是单方面的,也是非宣传,也许是在商业化,公众或投资者的考虑之外,因此每个人都可以理解“大脑和小脑”的概念。但是,生理机制很复杂。根据“大脑小脑”的评论,呼吸和心跳为例,它应该属于小脑,但脑干确实可以控制它。当前的VLA,如果是螺旋或π,则没有像“脑干”这样的结构。因此,建筑师Al变化很重要,这可能是在下一阶段的重大发展中实现强大的一般能力并促进VLA的关键。当然,我们还需要在优化数据,激烈的培训和实现当今专门的理解方面做得很好,但是为了实现真正的暴力,需要更多的努力。 Zhao Xing:我认为机器人将在未来采取不同的形式。不需要单个大脑或VLA模型的可能性很高。 Yaodong老师提到的范式训练时间的训练或测试更适合体现的情报。与追逐大学的自动驾驶汽车不同,每个人都有自己独特的空间和工作。例如,亚马逊最近显示的仓库机器人使用双面监视具有触觉感的爪子,以减少视力依赖性并使特定任务更好。但是我们需要一组完美的工具,包括训练前检查点,训练后或测试时间培训工具可以收集少量数据以使适应的特定情况完成,并以99.9%的成功率解决了该问题。我们应该注意收集培训前数据和训练后范式。我们还可以包括与接近技术和调整本体参数的方法相吻合的联合机器人本体。最终的目标是使各种机器人在生物多样性等不同情况下运作良好。张上香(Zhang Shanghang):Zhao老师指出,改进的概括不应仅限于单个模型,而需要一种一般系统或工具来协调算法,数据和本体论设计。了解Xinghai图表与体力智能之间的协作,他们的论文还涉及使用您的本体论和硬件。矿山:VLA是否需要确定的调整?如果不是所有的机器人调整,则适用于VLA型号,并且是否想增强其功能通常,可能需要目标调整设计。例如,教师Yaodong提到的手的自由技巧增加了VLA实施的复杂性。一般而言,在完成任务时,使用三口夹具更令人愉悦吗?总而言之,我想与老师讨论:VLA设计与本体论调整之间的关系是什么?为了使VLA更加准确和一般,是否有必要设计特定的配置或调整系列?我们对各种家用机器人进行了实验,并发现了这种现象。我们还期待听取行业中Kara -Rich教师的意见,并参与本体的设计。高杨:这个问题非常有趣。从理论上讲,VLA模型和机器人的身体不一定绑定,手臂和手不同的机器人可以执行任务。但是首先,我们必须承认存在自然的硬件限制,而VLA不会dest罗伊这些身体局限性。例如,双手无法运行专门为五个手指的人设计的剪刀。其次,如果VLA的能力足够强大,则可以完全使用每个本体的硬件限制。最后,关于本体论的数量,我认为将来可能只有少数一般的本体论。单独匹配VLA-在商业和建筑成本方面,每个本体的一个本体都过高。作为强大的VLA,各种本体论的运营转移需要很多技能,而其他机器人本体的转移也将花费高昂的成本。因此,很可能有少数具有一般调整的机器人更有可能占主导地位,这可以降低硬件,软件和算法开发的总成本,并且还可以胜任各种任务。在设计本体论时,Chihiro的目标是使机器人能够完成90%-95%的活动,以便他们可以支付成本并使用WI笨蛋。我们的机器人通过柔性接头增强了整个身体控制设计。控制功能对于机器人和现实世界之间的参与很重要,例如弗兰克力量控制RO的ARMBOT通常在学术界使用。为了平衡第一代产品的能力,我们选择了一个轮胎机箱,而不是一种类型的双子,因为车轮机箱具有良好的可传递性,较小的足迹,并且不容易被空间限制。这是我们的基本逻辑。张上香:力量控制确实非常重要。 Yaod先生讨论了VLA的本体论与模型调整设计之间的关系?我们真的很关心Lingchu,我们也感谢Yaodong老师最近的支持。 Chen Yuanpei正在与我们合作,建立Lingchu的手和手臂与收银员一起工作,我们也有望在Zhiyuan会议上一起展示。 Yang Yaodong:我不是一个顽固的智能研究员,我只知道一些Maliksi操作。从2022年的聪明手做出来看,这是一个非常具有挑战性的问题。一方面,它涉及对自由的高度控制。另一方面,很难解决传统的模仿研究,无法直接应用互联网数据,因此我们从一开始就选择了研究路线。技能证明,强化研究在双手协调和运营活动方面产生了重大影响。在2022年,我们还实现了高速双手投掷和连接。这种经历意识到我很难遇到智能手操作问题的一般模型模板问题,并且很难设计一个通用VLA来充分解决两人手术的问题。人的大脑是Noti可以直接用右手将体验直接应用于左手,并且将技能和运动达到模型水平更加困难。训练后cOST很高。最好使用垂直域数据和特定硬件体系结构的培训方法自定义模型。因此,在Lingchu的研究中,我们没有使用端到端的统一模型,而是根据硬件设计了Exoskeeton收集设备,并针对特定情况(例如时间包装)收集了真实的数据培训,扫描扫描代码。整合 - 包括VLM和物理基础能力的常识,在这些情况下,我们比传统机器人具有更强的总体能力,并且具有特定的潜在商业化,但是在达到95%的人类(人类日期运作)之间仍然具有很大的屁股。从宏观的角度来看,每个人现在都在讨论大型模型代理。山姆·阿尔特曼(Sam Altman)表示,只要代理人可以完成3%的人类活动,就可以实现代理人,因为对人GDP的繁殖是很大的数量。但是体现的智力仍然远非此目的,这是令人惊讶地完成了0.3%的人类活动。它需要深入整合行业,学者和研究,并探索不同的应用情况。许多科学研究人员,例如高教和赵,包括Zhiyuan进行的Robomind项目,非常重要。如果他们能成功,他们将为国家甚至人类带来巨大的贡献。张上香:是的,从数据到模型再到硬件本体论系统,我们确实需要链接以及我们的努力来结合许多各方,甚至最终形成了一个生态系统。赵老师会分享吗? Zhao Xing:我们最初对这个问题进行了深入思考。 Xinghaitu首先提出了“本体论的智能含义”,这是不完整的。这里的“智能”涵盖了明智模型的算法,数据提取的难度以及可以解决的问题数量。正如老师所说的那样,GAO可以解决90%-95%的任务,这些因素共同决定了应用程序适当的本体论。因此,在第一阶段,我们选择了带有轮胎底盘和双臂下巴的机器人形式,这有助于对模型和数据收集的智能控制,还可以处理许多任务。将来,我们逐渐添加复杂的成分,例如敏捷性。应当指出的是,我们认为机器人的生态系统将来会很丰富和多样化。但是,在TOC方面,对于家庭消费者来说,很有可能会出现一般的人形机器人,因为人形生物是人类世界的“最大共同除数”,并且可以解决许多问题。在TOB方面,在商业和工业场景中,希望有许多主要形式的机器人。对于特定的应用情况,它们会受到详细的转换,例如通过训练后,测试时间培训或进行本体论设计和工作来扩展手臂和为特定应用程序的轮胎增加轮胎。这是我们的总体想法。长期任务和贾安尚的商业实施:在过去的20分钟内,我担心的是一个长期任务的问题。我们通常使用VLM作为原子活动来拆卸长期活动,然后通过VLA执行它们。但是VLA可以做原子活动吗?它可以直接完成冗长的任务吗?目前,有一些相关的研究,大多数VLA仍在进行短暂的活动。我想问所有人,VLA是否有潜力独立完成遥远的任务?如果是这样,我们应该探索这个方向吗?如果实现了这一点,我该怎么做才能避免通过VLM拆卸的模式,然后让VLA进行骑手活动?高杨:我认为这不是需要解决的最关键和最紧迫的问题。如果VLA可以完成大量的简短任务,则可以与任务计划的上层结合使用,以解决最真实的问题。当时,主要挑战是坐标在调度程序和VLA之间。直接使用GPT和其他调度程序可能很困难,因为它不了解VLA功能的界限,但可能会使用少量直接来掌握较低级别的功能。尽管此任务的拆卸方法不是最好的,但要处理90%-95%的任务是足够的。因此,这个问题是研究的价值,但是建议先开发一个基本框架,然后深入探索它。张上香:我明白。 Gao老师认为,这不是我们更紧急解决的首要任务。因此,VLA需要尝试解决长期活动吗?我仍然认为与大脑模型一起做梦已经足够了。 Yang Yaodong:我认为这是一项非常紧迫的任务。在建立Lingchu实验室时,我邀请了专门研究北京大学的推理VLA模型的老师Liang Yitao。第一代O的NVIDIA话语系统酌情决定F体现的智力是Minecraft代理。尽管鼠标和键盘操作的自由度不高,但在开放环境中任务很复杂。一年多以前,根据语言代理,Minecraft中的VLA使用自尊,更正,重新浏览和其他技术,使他们可以毫无疑问地玩三到四个小时,没有问题来完成可以奖励奖励和许多工具的任务。与机器人操作相比,许多机器人的视频约为10到15秒。对于诸如超市补充之类的复杂任务,在篮子里可能有二十或三十件或成千上万的SKU(单位持有库存),并且运营过程超过10到15秒。对于现有VLA来说,这是一个巨大的挑战。如果您不纠正错误并重新设计自己,那么任务成功率将大大降低。 VLA的推理能力是由大脑和小脑形成的。最近,我做了一个Mahjong deMO聪明的手。机器人臂不仅需要计算卡片,还需要考虑原子的各种动作,例如如何理解卡片。 ANG MGA VLA仅依赖VLM或强有力的推理模型,而没有端到端和体现COT(体现思维链)功能无法解决问题。这就是您玩Mahjong的方式。对于诸如补充,包装代码和材料分类等场景也需要此功能。张上香(Zhang Shanghang):这只是我们刚才提到的封闭循环,如果Vlada同时拥有封闭的内存循环并反馈对未来预测的反馈,然后完成额外的长期工作。 Zhao老师,您认为VLA最近的研究应该专注于这类长期活动吗?如有必要,该怎么做?高老师和Yaodong老师讲了各种想法。你怎么认为? Zhao Xing:在我们的研究中,我们关注电动机本身的能力。 Pagafter All,很难定义长期推理,而语言和视觉相对清楚。我们已经看到了许多视觉语言的理性基准,但是视觉语言运动没有基准。它被迫要求学术界确定和形式上这个问题,然后在所有努力中进行研究。机器人任务上有一个大坑。例如,在进行研究时,如果您想让机器人煮咖啡,为什么需要使用VLA型号?为什么不自己编写状态机,训练一些动作,然后将它们连接起来解决问题?作为审查员,您还将询问写论文的人,为什么您需要使用VLA解决问题。毕竟,现有的状态机可以通过编写100个政策来处理所有情况。因此,VLA领域迫切需要一个出色的推理系统,使我们知道VLA的持久工作是什么。在长期活动中,我们知道由于无法理解而导致哪些步骤失败nd,不仅是因为功能不足,例如动作实施,自适应控制或恢复。当前,对真正的机器人VLA推理模型尚无具体结论,这非常重要。张上香:是的,Zhao老师还分享了我们至今尚未谈论的水平,如何识别和评估推理技能。 Zhao Xing:是的,现在每个人都认为长期的天气只是很长一段时间,但是我们仍然必须从工作的复杂性以及必要的逻辑推理能力的复杂性来看一下问题。我认为这会更好。 Zhang Shanghang:定义,分析和分析确实很重要。今天,我们已经讨论了您的建筑设计,数据,vla模型的培训技术,包括RL等。以及基于回归的最简单管理(Robomamba,Roboflamingo)。同时,将自动降低和扩散用于稳定输出(Hybridvla)。你怎么能看到发展这些输出?高杨:从实时识别的角度来看,我认为扩散和匹配流是必不可少的,否则很难确保实时。好像预训练采用了下一个令牌预测,这取决于技术的发展,尤其是如果它在扩散时提高了匹配w的底层节奏,则需要进一步的研究和探索。 Yang Yaodong:我们认为,令牌化很重要,因为我们希望探索如何实现体现的cadgers(体现的COTS)和测试时间的计算。要将其用作基础,您无法将模型的输出转换为模型,也不能执行测试时间计算。因此,我们深入研究不同形式的动作令牌化,这可能是在短时间内移动大型VLA培训模型的成熟技术范式的最快方法,并且可以快速运用大型VLA模型的经验。但是,许多工程问题,尤其是令牌的形式和认可Ization产生了巨大的影响,最大的缺点是速度问题。它检查了工程设计的设计。我们可以通过分解方法避免这种情况并探索混合方法。当前,自回归形式仍然至关重要,因为从设计角度来看,赋予模型推理的能力,诸如扩散之类的方法尚未显示出创建强大理解模型的明确趋势。张上香:那么,您认为混合结构可能是在不久的将来比较承诺的一种方式吗? Yang Yaodong:也许,从VLA的观点来看,Lingchu发布的观点,我们仍然应该做自动性表格。主要目标是使其在测试时间进行计算,这是我们的重点。张上香:每个人的注意力的重点也不同。赵老师对VLA的产出有何看法? Zhao Xing:当前的扩散模型非常流行,我还研究了其原理和方法。尽管扩散模型在Wensheng Pictures和Wensheng视频的领域尚未证明其预训练的价值,尤其是多模式的预训练。大多数现有的Wensheng图形或Wensheng视频模型都使用固定的文本编码器来拾取功能,并将其用作图像和视频中的噪声产生的条件。从本质上讲,这更多的是训练更大的解码器,并且从未证明它用于多模式或跨模式混合培训。相比之下,在下一个令牌猜测的方法中,在VLM研究中,许多活动都佩戴了一堆图像,并在线性投影后将其放在大型变压器上。此方法可以取得良好的结果。 Makikita至少目前,下一个令牌预测在预培训方面具有更高的可靠性。因此,我宁愿认为自回归方法是当今更有希望的研究路线。张上香:好的,我相信最后一个问题也是体现智力的结果,每个人都是兴趣D In.land场景。许多投资者和教师讨论了可以实施体现情报的第一步的情况?亲爱的老师在整合行业,学者和研究方面做得很好,并对该行业有很好的观察。因此,我想问您您期望哪种场景首先体现的情报?是工业,家庭,医疗还是其他?高杨:我认为在实施和应用方面,工业场景是最容易实现的。尽管VLA具有熟练的前景,但其能力仍处于早期阶段,适合在需求最紧迫的情况下实施场景。从传统机器人的四个主要家族的情况来看,工业生产是对机器人需求最强的行业。例如,大多数装配线都达到了高机器人自动化,工业客户知道机器人可以携带的数量。相反,B端商业客户过去很少使用机器人,并且不了解机器人应用的重要性和预期影响,因此很难接受。此外,工业场景相对简单,因此,如果从场景或客户体验的复杂性看来,行业场景是实施AOF VLA的第一个选择。张上香:是的,我和我和Zhao Xing老师之间的相似之处曾经自动驾驶并与汽车制造商合作,所以我非常担心车辆行业。 Yaodong先生想到哪种着陆场景更有前途? Yang Yaodong:这个问题确实很困难,因为我们专注于熟练的手的研究和发展,并且不涉及人形机器人下半身的问题。在经验丰富的操作领域,类似于Molawik悖论,这似乎是简单的任务(例如,使用螺钉炮来撞螺钉),但是很难使用熟练的手实现。从基因的角度破坏性,准确性和其他维度,很难完全模仿人类的操作。因此,尽管工业组装系列中有大量的制造商,但karobot替换并不容易,还有很多事情可以尝试。从今年的整个行业看来,目前约有50-100家智能家具公司,去年投资了近100亿。在此阶段,每个公司将不得不尝试不同的情况来探索可以提高生产力,产生大量产出,收入并具有甜蜜点的情况。一方面,它确实可以提高生产力,另一方面,它也可以赚钱。我认为这在这三个圈子中没有很多技巧。这不像是我们突然能突然做出巨大,宣布然后疯狂的情况。从行业,TOB和TOC的角度来看,尽管工业场景适用于机器人应用,但年度产出Dustrial机器人只有600,000个单位,产量有限,与预期的空间相比太大。在TOC领域,人形机器人具有前景,但是它们的实际应用运行尚不清楚,并且在此阶段难以实施。还有一种TOBC型号,也就是说,在B端出售机器人,用于C端服务(例如欢迎客人和浇注咖啡),以及诸如娱乐活动(Yarn Dancers,Parade Robots)之类的新情况,例如用于壁炉表演的无人机。目前,最大的挑战是机器人的输出。选择应用程序方案时,您需要考虑规模和影响。尽管您的情况很少,但它们缺乏商业价值。这些是我的东西。张上香:是的,您现在仍然需要耐心。不同的公司将探索不同的情况,并且对每个人都可以完成整个生态系统非常有用,因此您不必坚持相同的风格。那是什么Zhao老师想到着陆现场吗? Zhao Xing:每家投入情报的公司都会对这个问题深刻思考。我们的结论是,这一代通用AI机器人不应与传统的机器人或设备竞争,而应打开新的曲目。传统机器人具有高节拍和高精度。新一代通用AI机器人应避免高精度和高度打击任务。他们主要关注精确要求较低的任务,但通常需要Capableshan。这种类型的任务在工厂中非常普遍,例如处理不规则形状,不确定位置甚至灵活对象的低节拍任务。现有技术可以解决它们。然后,我们认为更大的机会是在商业世界中。业务场景中的任务对准确性和节奏的要求很小。在这些情况下,机器人不仅可以执行操作的实际价值,而且还可以提供情感价值,大约80%UE,情感价值为20%至30%。这种情况是一个很好的进入点。张上香:多亏了分享,所有老师都对场景的技巧和探索都有深刻的看法。现在我交换了所有预设问题。感谢三位老师一直教我,让我开心。我相信,通过这个圆桌会议论坛,受众将受到科学研究,行业和应用的启发。通常,报告通常只有30分钟,而两个小时的沟通尤其重要。我们期待看到未来老师的更多惊人结果,我们也希望加强交流并加深与您的合作。交换现在结束了,谢谢大家!有关更愉快的智能故事,请添加Leifeng.com与Anna042023的设置进行交谈。 leifeng.com(公共帐户:leifeng.com)