成功案例
CASE
咨询电话
400-123-4567
手 机:13988999988
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:admin@baidu.com
地 址:广东省广州市天河区88号
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:admin@baidu.com
地 址:广东省广州市天河区88号
微信扫一扫
硬氪专访|商汤科技王小刚带领新业务体现智能团
作者 |黄楠编辑|袁斯莱在AI行业,商汤科技是一家成立11年的公司,早已习惯了造反。在视觉人工智能兴起的过程中,它从香港中文实验室涌现,并打开了大规模实施的大门。但B的生意从来都不是一件容易的事。大多数公司,包括商汤科技,都必须应对客户的长期发展需求。直到Chatgpt出来,所有公司集体转向大型机型。在算力方面先行一步的商汤科技找到了增长空间。根据商汤科技年报,2024年AI营收为24亿元,占比由2023年的34.8%增至63.7%,成为商汤科技最关键的业务。但三年多后,大规模模型快速发展后,一个现实问题出现了:“除了特定情况下的单点突破,AI如何真正进入“改变物理世界,成为改变工作和生活的实用工具?”这也是商汤在每一次技术变革中追求的主要命题。随着具身智能成为下一代人工智能革命的主舞台,大小机器人于近日成立。商汤科技联合创始人兼执行董事王小刚担任大小机器人董事长,正式进军具身智能战场。王小刚硬氪表示,大小机器人的初衷是不追随“参与”或“展现复杂技能”的潮流,而是回归真实痛点,提出“以人为中心”的研究新范式,在提供一个致力于发展对物理世界规律的理解的基础上,最终生产出适应真实场景需求的软硬件一体化产品,这也是一种行业趋势。去年还在探索移动稳定性和适用场景,短短一年时间就变成了完全不同的场景。一些企业已经获得了数亿元的订单,进入了深圳、上海、苏州的机器人工厂车间,让具身智能不再只是VC的故事。人工智能技术的演进正在从“数字智能”走向“物理智能”。参与其中的老牌人工智能公司将发现自己正处于另一场重要转型之中。商汤科技2025年上半年净亏损11.62亿元,同比下降50%。研发投入也在不断增长,需要找到更实际的方向。通用智能的突破不在于AGI一步登天的幻想,而在于真实交互中积累可用能力。机器人的最终价值不在于其炫酷的外表,而在于其解决问题的能力他是真实的物理世界。从视觉AI、大规模模型到具身智能,商汤科技以大小机器人为支点,试图驾驭的不仅是千亿级具身智能市场,更是AI与pisworld深度互动的可能性。以下为硬氪与王小刚的对话实录。内容已编辑:硬氪不是纯脑公司:今年被普遍认为是具身智能落地元年。商汤科技为何选择在此时成立大小机器人,进军实体化赛道?王小刚:主要是基于两个维度的考虑:实施工业化和技术范式。从产业化角度来看,实体智能是一项规模达数十万亿规模的技术。广阔的轨道,更大的发展空间。正如NVIDIA创始人黄仁勋所说,未来每个人都可以拥有一个或多个机器人,其数量预计将超过手机,而单个机器人的成本将与一辆汽车相当。对于商汤科技来说,我们过去主要专注于B软件领域。如果我们想要进一步扩大业务规模,实现软硬件一体化的业务升级,机器人轨道一体化的垂直化是一项重要成果。同时,基于以往在各个垂直行业的积累,团队了解用户点和需求。与具体企业对解决实际问题的情况和难点认识不够充分相比,商汤科技的场景落地能力更令人期待,产业化有望推进得更快。从技术范式来看,传统具身智能的发展存在明显的缺陷。机器人硬件发展迅猛,但智能能力却在不断提升f “utak”的尖端有些缺失。主要问题在于采用“以机器为中心”的技术路线;即首先设计形状和参数变化较大的不同类型的机器人本体,然后从本体中收集数据来训练通用模型。这种想法是不正确的。正如人类和动物在自然界中无法共享同一个大脑一样,具有不同其他结构的机器人(例如抓握手、各种机械臂)也很难适应统一的模型。大霄机器人团队采用的技术方案有何不同?我们提出的是一种新的技术范式。首先,我们研究人类与物理世界之间的相互作用——运动定律。我们利用可穿戴设备、第三人称设备等多种工具,结合视觉、触觉、力学等多维数据,记录现实生产生活中的人类行为,尤其是日常的复杂行为。在。通过将上述数据输入到世界模型中,模型可以理解物理世界的规律和人类行为的逻辑,从而构建强大的机器人“大脑”。同时,成熟世界模型可以指导硬件设计,使硬件形态更适合实际应用需求。今年8月和9月,特斯拉、Figure AI等公司宣布放弃真机路线,转向基于第一人称摄像头的视觉解决方案。然而,它们的本质是通过视觉记录人类行为的lamis,并不涵盖力、触觉、摩擦力等基本测量。然而,这些维度是具身智能与物理世界之间三维交互的基本要求。仅依靠视觉技术,机器人就可以执行跳舞、拳击等模仿动作。然而,在需要与物理世界交互的场景中,例如移动瓶子和物体拧紧螺丝,他们不可避免地面临技术瓶颈。目前,大霄机器人提出的以人为中心的范式已经得到了实践的验证。此前,大小机器人重点教授刘子伟教授团队合作制作了自我生活数据集,包含300小时的真实行为数据。g人从第一视角和第三视角。此时,基于该数据集开发的具身视觉模型,经过实际测试,可以有效解决现有数据几乎是简单无意义行为、难以支持复杂运动学习的痛点。大霄机器人团队成员:一排从左至右:李洪生、陶大成、王小刚、潘新刚;第二排从左到右依次为陆建勤、赵恒双、刘子伟、刘喜辉(来源/企业)硬氪:公开数据显示,到2024年,中国物联网智能市场规模将突破8000亿元,数百家初创实体已近两年涌入实体领域。在此背景下,大小机器人如何定义行业生态位?王小刚:最后一个大晓的团队单位是输出软硬件一体化的产品,能够有针对性地解决各种情况下的实际问题,而不是一个只做模型的公司。在这个过程中,我们发现现有的硬件设计往往难以匹配场景的要求,这也促使团队走上了联合研发、定制化硬件生产的道路。以机器狗产品为例。传统工业机器狗摄像头视角窄、安装位置低,难以准确识别路口行进方向,过马路时难以捕捉红绿灯信号。我们与INSTA360合作推出了全景相机模组,可以实现360度全视角覆盖,解决视场有限问题。此外,现有的很多机器狗还存在防水性能不足、算力平台成本较高、电池续航时间有限等痛点,无法满足实际使用情况的正常需求。硬氪:在联合开发的具体实施中,双方的合作模式是怎样的?王小刚:我们的优势在于大脑模型、导航能力、操作能力。过去,公司虽然有B端软件服务和大型设备提供底层设施,但最终并没有形成标准的产品形态。希望这两年投资商汤科技的众多方法学硬件和组件中,大校团队采取生态合作模式,提供硬件设计规范,与合作伙伴共同设计构建硬件本体。在 th同时,我们在模型方面也保持开放的态度,提供基础模型和材质解决方案。硬氪:商汤科技在安全、自动驾驶等领域拥有丰富的数据和技术积累。当这些资源转移延伸到实体机器人领域时,哪些基础能力可以直接利用?王小刚:两个方面的基本能力。首先是研发体系和安全标准。自动驾驶和实体机器人都依靠海量数据来驱动或技术迭代,其积累的研发体系、数据闭环、数据飞轮已被证明可以有效提高机器人技术变革的效率。同时,自动驾驶领域对安全质量和数据的严格标准也可以转移到实体机器人的研发中,以保证产品的可靠性。二、应用功能。我们在sma组装的ARK平台rt city有数百种不同的应用功能。过去主要服务于固定摄像场景。现在,通过将其连接到实体机器人,当设备外出时,可以借助平台的后端分析功能无缝移动并扩展边界。 “在一两年内,以人类为中心的技术将首先扩展到机器狗。”硬氪:回顾商汤科技十一年来,见证并参与了从视觉AI大规模落地到如今实体智能爆发的完整转变。如何理解每个阶段技术迭代的不同路径及其背后的底层逻辑?王小刚:商汤的发明通过发明的历史清晰地勾勒出——人工智能技术从1.0到3.0的演变。 2014年公司成立时,AI正处于1.0时代,实现了超越肉眼的识别率。一个那时的“智能”来自于人工标注,通过给图像添加标签,为原始图像注入“认知能力”,而没有智能特征。但由于标签信息量小、相关性强等限制,需要针对不同的任务分别对相应的图像和视频进行标签,造成“因为有人工智能,所以更智能”的情况。受限于数据规模,当时的模型不仅规模较小,而且很难在场景和行业中实现普遍应用。进入大车型2.0时代,情况发生了根本性的变化。主要区别在于数据本身包含更多的智能。我们在互联网上使用文本和图形数据。一首诗、一篇文章、一段代码,记录了人们千百年来积累的海量行为,其内容高于人类的任何内容。简单标签的智能。大规模模型与这些数据相结合,实现智能的爆发,使模型能够覆盖不同的场景和行业,具有很强的适应性。然而,互联网数据的价值正在逐渐“枯竭”,灵活性的边际效应正在逐渐放缓。进入我们正在进入的3.0实体智能时代,我们将与物理世界直接接触。要建立一个理解世界物理规律和人类行为逻辑的“世界模型”,仅研究文本和图形数据是不够的。需要深入物理世界才能进行实际的交互。无论是打扫房间、提供服务等具体情况,都包含着复杂的联系。首先是实时。人工智能通过与世界直接交互、交互,将打破现有数据的限制,产生新的智能增长路径。硬氪:来自从行业趋势来看,对具身智能赛道的研发热情已经从去年关注“具身大脑”转向如今探索“小脑”能力的运行和控制。这种方向转变背后的关键原因是什么?王小刚:我认为最主要的原因是我们的研究范式仍然以机器为中心。在这种范式下,机器交互自然就变成了控制控制,也就是小脑,因为它与底层硬件密切相关;然而,正是由于不同机器人本体收集的数据不同,不可能形成通用统一的大脑。第二是无法产生复杂的活动。依靠真机控制来收集数据的传统模型具有明显的局限性。只能生成选择、移动、放置等简单的动作数据,十几秒就能完成条件。但打扫房间、提供服务等需要长时间驾驶的复杂活动却无法完成。这也支持了我们以人为本的主张,即通过环境收集来训练世界模型的必要性。硬氪:相比现有的世界模型,大小机器人提出的“启蒙”世界模型3.0(Kairos 3.0)底层逻辑有何不同?这如何解决物理世界的幻觉问题?王小刚:我们构建的世界模型与Sora、李飞飞世界LA不同,BS团队提出的基于大理石等合成数据的现有模型是不同的。不同的是,启蒙3.0采用了“多模态融合理解-合成网络-行为分析”的三阶段架构。其模型结合了以相机为中心的感知和生成,支持空间想象,并实现灵活的跨视角应用诸如世界探索(源/企业)之类的我们的模型分为三个部分。第一部分是多模态理解与融合;现有模型主要依靠图像、视频和文本描述作为输入,但我们的输入系统更丰富,涵盖了mahe、视频、相机姿势、目标3D轨迹、触觉力学等多模态信息,使模型能够更好地理解物理世界。例如,大校与南洋科技的研究合作中,可以通过模型逆向从单幅图像降低相机姿态;当机械臂的腕部摄像头获取图像时,可以准确定位机械臂的位置,并根据图像的变化反推机械臂的运动,实现对物理世界交互逻辑的深刻理解。第二个是合成网络;基于第一步的理解和整合,Enlightenment World Model 3.0可以合成各种视频,包括可以选择不同类型的机器人进行操作任务的合成。第三是预言;眼睛接收到指令后,模型可以预测机械臂应该如何工作,从而指导机器人进行操作。这使得我们的模型能够模拟动态场景,分离动态目标,灵活改变场景中的不同元素,比如换瓶子,换手机,换桌面,甚至换房间类型。这些都是现有的世界模式无法实现的。它们真正从“认知、模拟”延伸到“实际执行”,形成从理解到操作的完整闭环。硬氪:这种“以人为中心”的范式具体如何在提高数据效率、突破跨场景泛化能力、实现多模态融合等方面解决关键的行业瓶颈?王小刚:部分具体全部y,它是“自然典藏+世界模型”模式的结合。这里的“环境”特指人们生活、工作的场景。 “世界模型”还关注人与周围环境的交互,而不是专门用于自动驾驶的道路或水下场景等特定区域。以人为中心的优点是数据采集高效,所有数据都来自真实场景。同时,除了视觉数据外,还融入了力学、触觉等多维信息。人们多年来积累的人体工程学成果也可以在此基础上应用。这是快速增长的要求,也是以机器为中心的研究路径所缺乏的。硬氪:tao-sentrick需要多长时间才能实现类似于自动驾驶领域技术范式之后的爆发式价值增长?王小刚:在短期内,四足机器人(机器狗)将率先实现规模化应用。目前,工业机器狗普遍受到自主导航和空间智能能力的限制。大多依赖人工遥控或固定路线操作,应用场景受到严格限制。大霄队的计划可以打破这场比赛的限制。一方面,我们为设备配备了大小机器人自主导航技术,可以通过机器管理平台实现多机协作调度,接收地图导航指令自主执行任务,同时还支持语言、多模态大型模型等灵活的交互方式;例如,它可以根据指令识别特定人群提供帮助、非法车辆车牌照片等。另一方面,机器狗与商汤方舟视觉平台深度连接形式。它可以利用ARK的视频分析、目标检测和异常事件处理能力,识别打架、垃圾堆积、宠物不拴绳、非法无人机等场景问题,并将数据实时返回后端。 “自主导航+场景智能识别”的结合,结合云管理平台,可以大幅提升其巡检等应用规模。一两年内,马卡卡克就是美国机器人进入多个工业场景。硬氪:实体智能的商业化遵循梯度推进的逻辑。中长期来看,还有哪些场景值得关注?王小刚:从中期来看,商业服务场景的前端物流仓库将是一个规模化的成功点。相比于工业场景复制整条生产线的难度,前端仓储物流的需求高度一致性nt。随着网络购物的普及,各地限时抢购仓库的分拣、包装等环节都需要自动化标准。目前行业的痛点是仓库前端有数万个SKU,传统的依靠真机滚动数据的模式很难覆盖。我们通过环境采集积累的海量数据可以有效训练通用模型,实现仓库快速复制,满足行业大规模落地的关键需求。从长远来看,家庭场景将是体现智能的重要方向,但实施周期相当长,安全问题是主要挑战。机器人进入家庭后,要应对避碰、物品安全等诸多风险,类似于L2到L4自动驾驶中的责任界定和安全保障问题。然而,目前业界也在积极探索。比如图AI带来基于视觉路线的环境采集,与百万户型的地产基金合作,积累家居场景下的人体行为数据,逐步实现场景的全面渗透。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。相关产品


