Zhang Jianwei:设备齐全的智能数据要求是自动驾驶
- 编辑:admin -Zhang Jianwei:设备齐全的智能数据要求是自动驾驶
2025年世界机器人会议于8月8日至12日在北京经济技术发展区开幕。
以下是演讲的转录。
大家好,我是广泛情报的Zhang Jianwei。我今天分享的话题是“加快进入物理世界的合成数据的实质性智能”。我也听到了今天下午每个人的行动,有些人做了本体论,有些则制作了一些模型,但他们都说这是数据,当然,有些是进行了一些真实的数据收集。
我们要做的是相对关注合成数据领域。
我今天的分享重点是两点。
第1部分:了解合成数据。
第二部分是向您展示我们所做的事情。
首先,当我们查看AI的发展时,我们观察到了两个趋势。
首先,AI以多模型的形状从端到端开发,包括大型语言模型,自动驾驶和合并VLA字段。末端 - 末端呼叫意味着更换更多的mo带有更多神经网络的les。例如,在自动驾驶领域,这是一个聪明的驾驶,但是随着末至一端的出现,在自主驾驶的领域,先前的看法,预后和对多模型计划的计划在整个端到端的网络中都得到了更换。所使用的智能使用VLA网络体系结构,本质上是末端到端体系结构。随着末端的出现,需要更高质量的数据来改善AI的一般性能。
其次,我们可以看到Transnetwork模型和广义应用程序的出现导致了“数据中心”地址中AI的开发。数据的质量决定了AI的性能。因此,Bajo这两个趋势,今天的年龄实际上是一个以数据为中心。
回到今天的主题时,对智能数据的需求是自动驾驶模型和大型语言模型。我认为它会bE多1000倍。首先,一些客人说,建造的数据非常特别,需求很大。这是因为今天的化身情报期望机器人进入数千所房屋,并适用于各种场景,例如工业,家庭和超市场景。几种情况需要具有更好概括的体现智能。这需要更丰富的数据,因此对数据的需求比自动驾驶和大型语言模型高三个订单。
其次,合并的数据进一步强调了物理相互作用。例如,大型语言模型可以成为文本,VLM模型可以是文本 +视觉,并且自主驾驶可以具有更多的乘客和毫米波雷达,而Incorporated Intelligence则更多地关注与物理世界的互动,包括机器人运动轨迹和武力评论。一些客人提到了机械传感器。本质上,我希望化身的智力可以重新盟友感受到了物理世界。这增加了数据的物理相互作用的要求。
第三,由于化身的各种形式,机器人狗,人形机器人,机器人臂和人形机器机器被分为几种方式,例如双轮和小册子。数据需求也是异质的,因为合并智能所需的数据也很难应用于具有统一的标准化机器人的各种场景,这些机器人难以应用于多个场景。
第四,内置的智能中的数据差距非常大。与允许大型互联网数据恢复的大型语言模型不同,自主驾驶可以捕获大量数据,并通过数据收集或批量生产的车辆进行封闭的数据电路。精心策略的智能迫切考虑了数据模式的特殊性,预训练数据,培训后的数据以及增加学习培训数据。
这是智能数据合并。基础层是一个很棒的采访。我们想使用净数据,而本质是为模型提供对物理世界的基本理解。上层期望调整真实数据,以便可以在特定的应用程序方案中实现合并算法。数据的真正好处是您的Namere指示的,但是收集成本很高,效率很低。当我们需要解决远程手动操作的问题时,我们需要解决场景的构建问题以及本体论的供应或生产,因此收集真实数据的成本很高。
中间层是合成数据。优点是,从理论上讲,只要有足够的GPU计算机功率,它就可以提供无限量的数据。由于合成数据是在模拟环境中生成的,因此概括功能更强大。因此,合成数据不仅可以提供足够的数据,还可以提供ALSo高度概括的数据。但是,综合数据存在问题,包括现实世界的仿真和“ DOMINGP”。因此,如果我们可以通过技术手段不断减少合成数据的“ domingap”,我们可以改善融合智能的发展。我认为“ sim2real”不是0或1的问题,而是由于技术手段而导致的差异的不断缩小。
第二个理解是,合成数据没有“持续的移动机”,我们认为不需要人类的演示数据来开发AGI。
可以将其与大型语言模型和自动驾驶进行比较。在训练大型语言模型(例如GPT)之后,舞台上有许多RLHF数据。这些数据提供商是由OpenAI(数学博士学位,物理学博士学位,物理学,物理学等博士学位)发现的专家。他们提供了高质量的语料库,以进一步提高大型模型的性能。在现场Of自主驾驶,“五个星驱动器”的高质量驾驶数据是端到头出现后需要的,以提高自动驾驶算法的Huma Huma功能。因此,我们受到大型语言模型和自动驾驶的启发。它的开发需要“圈”中的高质量数据。实施的情报,包括上面提到的远程操作数据的收集,即ESE相似。无论是在现实世界中收集还是模拟,都必须证明环境。例如,它显示了如何教化身衣服,炸菜并执行某些任务。这些数据实际上来自人类的示威。
通常,我们认为具有融合智能的合成数据需要高质量的“环中的人”,这些示范与模拟环境的功能相结合以扩大人类操作数据的价值。
然后让我介绍我们的工作。我们的公司Mpany被称为Smart Guanglun,被驱逐出仿真和化身场景时,在进入该领域时,在视觉和物理世界中为“人类人类”提供高质量合成数据的公司希望通过合成数据扩大物理世界中的经验人类价值。该公司成立于2023年2月,是一家创业公司,具有在混凝土领域成为Scaleai的愿景。
当前产品表格包括高质量的3D资产:这是在包括资产,可推广方案等的模拟中收集数据的原材料。遥控工具链:它们适应不同的硬件和仿真控制链接。强化学习平台:在训练阶段使用基本智能。强化学习需要大规模模拟,因为它需要GPU计算的功能来交换数据。提供了一个学习培训平台,以增强加强和有效的方案和资产,并使用强化LEAL宁。我们的客户目前包括国内和国际领先的智能公司,以及一些OEM和最好的大学。
这是产品演示的快速可视化:
第一种情况是冰箱资产。在模拟中,真实的微妙的是常见的,并且我们制造的淡薯条在视觉,互动,物理和机械反馈方面已经足够现实。物理建模。例如,在左侧的示例中,冰箱门是A的开头不同,反馈力是不同的。这些力的大小沿实际冰箱收集。在正确的演示冰箱抽屉上进行了Manchegation形成反馈。这些有助于收集数据信息,特别是相关。
第二个演示是来自客户真正需求的农业场景的一个例子。高质量的可推广草莓(支持大小的概括,颜色D几个阶段的成熟阶段),应将场景用于增强学习培训。它不仅是在视觉层面上开发的,而且是在物理和互动层面上开发的。
拥有资产之后,下一步是构建与真实世界应用程序方案相关的场景。例如,为了满足客户的需求,他们创建了场景资产,例如厨房,超市,工业,医学(例如人体器官)。
如上所述,可以概括模拟。它不仅可以在资产的类型和照明中概括,而且可以在设计级别上进行概括。例如,在超市场景中,可以将资产本身和位置进行概括,在这里您可以在这里进行物理独立互动的每个茶序。
这种情况使您可以在模拟环境中收集远程数据的集合。由于机器人和数据要求的不同,它适合各种遥控器,包括VR,机器人臂和4D远程控制l基于鼠标的方法。同时,基于VR的远程练习存在问题。 VR眼镜盖允许专业的远程运动设备不看手指,从而影响其远程运动的准确性。我们通过算法优化解决了此问题:使用多个摄像机收集数据,以使智能手的估计更加精确。在左侧的示例中,Apple很难通过远程操作捕获,在算法优化之后,远程操作员可以轻松地收集Apple数据。
最后,共享案例。在仿真,gr00tn1 NVIDIA的基本模型中汇总数据,并实现对真实机器的影响。在左侧,在仿真环境中有人为的,收集在他们执行远程数据和合成数据的广义模拟环境中。右边有一个应用程序,该应用程序使用合成数据来调整Yushu H1和GR00TN1调整以在工厂阶段降落。
在广告中Dition,我们制造的工具和资产部分为开源社区做出了贡献,包括先前的方案和铰链资产,包括高质量的开放式烹饪方案,以及根据Haggadora脸部启动的机器人重新启动。它还包括收集仿真数据,调整机器人组的相关补充,最终是实现真实机器的实现以及模拟资产格式的互换。
如果您对合成数据感兴趣,请与我们联系更多的交流和合作。谢谢你!
官方NINA Finance帐户
24-最新信息和财务视频的流离失所,以及扫描QR码以关注更多粉丝(Sinafinance)