中国信通院许志远:人工智能为通用机器人打开大门
“以大模型为代表的人工智能技术突破性发展,为通用机器人打开了大门。目前硬件解决方案基本收敛,但软件算法仍在快速迭代创新,数据稀缺性是机器人能力泛化的关键制约。”在12月23日举办的“2025中国信通院深度观察报告会”上,中国信息通信研究院副总工程师许志远抛出了这一观点。
在许志远看来,人工智能技术突破性发展,其核心是增强机器人的认知与交互能力,并赋予机器人在物理世界中执行任务的强大泛化能力。“能力泛化可以理解为一种迁移学习,即把从过去的经验中学习到的知识、策略和行为应用到新领域,这使机器人能在动态和复杂环境中自主进行任务理解,并通过感知、决策规划和运动控制实现任务闭环,机器人真正成为一个能与世界交互、存在自主智能的个体。”许志远进一步解释道。
近两年,投资市场和产业界对机器人的关注热度高涨,“具身智能”和“人形机器人”这两个词高频出现。其中,中国和美国是最活跃的两个国家,谷歌、特斯拉、OpenAI等国外头部科技企业纷纷加码对机器人领域的投入,国内也涌现出银河通用、智元等优秀的机器人企业,同时小米、小鹏等知名企业也在造人形机器人。
许志远介绍,机器人的概念最早起源于上世纪20年代,经过多年发展,相关硬件技术趋于成熟,模块化、高度集成等成为重要特点,移动机器人形态基本收敛至人形、四足、轮式等。
硬件创新方面,机器人主要涉及执行机构、传感器、芯片、电池和新材料等技术。执行机构作为机器人本体的核心,近两年已从液压驱动转向电驱动,相关旋转和线性运动方案也基本清晰。“未来,随着技术进步和需求聚焦,机器人将进一步与前沿仿生、类脑等技术结合,并融合新材料、电子皮肤、仿生设计等技术,实现类人级感知与精巧操作。”
软件算法方面,目前业界主流的智能机器人解决方案是将大脑和小脑分层。大脑负责交互、感知、决策,基于现有大语言模型(LLM)或视觉语言模型(VLM);小脑负责具体的运动控制,有的基于传统动力学建模,还有的基于模仿学习、强化学习等技术。“未来看,随着边缘计算增强、交互数据丰富,软件技术可能逐步向端到端大模型驱动的一体化架构演进,以全面实现自学习、自适应和自演化能力,即只需要一个模型便可以驱动多个不同的异构机器人。”许志远说。
人形机器人距离走入日常生活还有多远?谈及这一话题,许志远坦言,工业制造、商业服务、家庭服务将是人形机器人落地的3个主要场景,并且呈依次渐进落地的关系。未来1至3年内,用于汽车制造、商超补货等封闭/半封闭场景的人形机器人将出现,与人共处同一场景;助老、做家务等人形机器人应用落地可能还需要5年甚至10年以上。
究其原因,许志远表示,人形机器人在环境适应性、人机交互的自然性和接受度等方面更具优势,是通用机器人追求的终极形态。但是,现阶段“人形”并不一定是商业化落地的最优解,因此,人形机器人不一定完全仿照人来设计。短期内,市场上还会存在“主体人形”搭配“定制化组件”的机器人产品,例如,腿部采用轮式底盘或轮腿组合,上肢采用机械臂,手部为三指灵巧手或夹爪、吸盘等。
总体来看,目前人形机器人仍然不够成熟。硬件方面,头部公司的人形机器人产品除手部以外,全身有50多个自由度,如果在复杂环境中行走,需要更强大的运动控制能力。例如,机器人上肢想实现精细化操作,需依赖高自由度的灵巧手,但目前手部触觉传感器、执行机构等关键部分仍不完善。此外,电池续航、成本、端侧算力等也是机器人规模化应用的重要难题。
除硬件以外,软件是机器人落地的更大挑战。大模型的本质是数据驱动,只有基于庞大的数据量进行训练,才能实现智能。而机器人大模型与近年来成熟的大语言模型不同,语言模型所需的数据可以来自庞大的互联网,而机器人需要物理世界中的高精度操作数据,这些数据是互联网不具备的。只有攻克这一难题,机器人才可能大规模走入日常生活。