我国科技企业生数科技携手清华大学25日发布具身基座模型Vidar。这一模型能够用更少的数据,使虚拟世界中的“视频指令”变成真实世界的“执行操作”,真正实现机器人的“指哪打哪”。
“仅用20分钟的机器人真机数据,即可快速泛化到机器人,所需数据量约为行业均值的千分之一,显著降低了机器人对数据的需求门槛。”生数科技创始人兼首席科学家朱军介绍,模型创新性地构建了支持机器人双臂协同任务的多视角视频预测框架,在保持高性能的同时,展现出显著的少样本学习优势。
Vidar是全球首个基于通用视频大模型实现视频理解能力向物理决策系统性迁移的多视角具身基座模型。“行业主流的视觉-语言-动作模型高度依赖大量优质数据,并且这些数据往往只适配特定的机器人本体及其采集的特定任务集,然而数据收集费时费力且成本高昂。”朱军说。
而Vidar的核心突破在于其通过解构具身任务的执行范式,充分利用“大量通用视频-中等规模具身视频数据-少量机器人训练特定数据”构成的三级“数据金字塔”,以实现“更少数据、更高效能”。
为使模型更加“见多识广”“见机行事”——实现多类型机器人操作的密切配合、灵活适应更多样的物理环境,研发团队还创新性地研发出一种全新的具身预训练方法,进一步增强对物理世界控制的精准度。
为突破现有具身智能数据被任务“过度捆绑”、规模难以做大的瓶颈,团队创新构建了高精度预测逆动力学模型,实现了低成本、高效率、高精度的机器人动作预测。
“我们希望以多模态大模型推动数字世界与物理世界的深度融合与协同进化。”朱军说,一方面,我们通过打造新一代数字内容创作引擎,使AI成为人类创意的延伸;另一方面,我们通过高效训练具身视频基座模型,实现虚拟与现实的深度互动。
免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。
记者今天从国家数据局举行的新闻发布会上了解到,我国在北京、海南等地部署建设10个国家数据要素...
据市场监管总局网站消息,夏日来临,啤酒经济持续升温。为保障消费者夏季饮食安全,市场监管总局指...
今年以来,武威市把稳就业作为“保民生、促发展、稳预期”的工作总基调,紧盯目标任务、重点群体、...
近期,五粮液、泸州老窖等头部酒企纷纷布局低度白酒市场,预示着白酒行业或迎来“低度”竞速时代。...
近日,AI智能眼镜赛道竞争愈发激烈,苹果、Meta、微美全息等科技巨头纷纷发力。苹果正酝酿开...
7月25日,电影《戏台》正式公映,71岁的陈佩斯重返大银幕,担任导演、编剧并领衔主演。历经十...
证券之星消息,根据天眼查APP显示,海南华铁新增一起对外投资事件,被投资公司为新疆华铁大黄蜂...
上映7天,票房近3.5亿元,同档期领跑的影片《长安的荔枝》7月24日来到申城、走进奉贤新城路...