首页 > 科技快讯 > 149元保洁，机器人先被普通家庭上了一课

149元保洁，机器人先被普通家庭上了一课

晰数塔互联网快讯
2026-06-06 18:23

界面新闻记者 | 梁心

界面新闻编辑 | 林腾

149元，3小时。

近期，自变量与58同城合作推出的智能保洁服务引发了广泛讨论。用户下单后，家政阿姨、机器人和工程师一起上门。质疑和好奇随之而来：机器人到底做了多少活？为什么还需要阿姨和工程师？它什么时候才能真正替代人工？

但这笔账，不能只按“机器人替代人工”来算。

这项服务更准确地说，是一种“成熟家政服务+机器人场景参与”的组合。

149元，对应的是一次完整的人工上门保洁服务。对许多城市家庭来说，这个价格足以匹配家政阿姨投入的时间和劳动。而在这个服务流程中，机器人承担部分可执行任务，工程师负责现场支持和安全保障。

在这其中，家庭隐私是首要考量。需要注意的是，自变量和58同城从这项服务设计之初，就保留了用户拒绝的权利：用户不同意，机器人不开机。

它给出的方案是视觉脱敏、透明授权和用途限定：原始数据完全脱敏，机器人经用户同意后才启动，数据不共享给第三方。

只有在用户允许之后，机器人才能真正进入家庭。自变量要做的，是让机器人在这样的环境里理解任务、完成动作，并从一次次成功和失败中继续迭代。

这也指向中国机器人产业的一种新路径：具身智能正在从资本、发布会和演示视频驱动的热闹，走向真实世界里的压力测试。

做身体的人很多，它想做大脑

过去两年，机器人行业最容易被看见的是“身体”：双足行走、灵巧手、后空翻、跳舞、跑马拉松。这些展示有足够强的视觉冲击力，也更容易让外界感知到机器人行业的进展。

但在自变量创始人兼CEO王潜看来，这不是自变量真正要进入的赛道。

“我本质上认为，跑马拉松的机器人和我们是两个完全不同的领域。”自变量创始人王潜说，自变量和做语言模型的公司距离可能更近，和那些展示运动能力的机器人公司反而更远。

这句话解释了自变量和很多机器人公司的不同。

自变量把自己定位为一家具身智能基础模型公司。它不是单纯做人形机器人本体，也不是做家政服务，而是要做机器人的“大脑”：让机器人看懂环境、理解非结构化任务、规划路径，并在真实世界里完成复杂的闭环服务。

这种路线更接近具身智能的核心问题。

在王潜看来，具身智能最终必须先做基础模型，再反过来适配具体任务和场景。

而自变量的优势不只是做机器人，而是用大模型团队的方式做机器人。

“今天真正理解大模型应该怎么做的人确实不多。”他说，全世界所有具身智能公司里，自变量是少数以大模型团队为核心来做具身智能的公司。

这也是自变量技术路线的特殊之处：它没有只占住具身智能链条里的某一个环节，而是在同时推进三件事——基础模型、真实世界数据和机器人本体。

基础模型对应的是Great Wall系列。从WALL-A到今年4月最新发布的WALL-B，自变量在模型架构、数据效率和泛化能力上继续推进。

真实世界数据对应的是它对真机和复杂场景的重视。相比只依赖公开视频或仿真数据，机器人不仅要进入真实环境，还需要在真实任务中持续获得反馈。不同家庭、不同物体、不同光线和不同地面条件，都会影响机器人的判断和动作结果。

本体则决定模型能否真正落地。自变量自研通用轮式双臂机器人、人形机器人、高自由度灵巧手和机械臂等硬件体系。

换句话说，自变量想打通的不是单一模型，也不是单一机器人本体，而是模型、数据和身体之间的循环。

这条路线和创始团队背景有关。

创始人兼CEO王潜本科毕业于清华大学，后赴美国攻读南加州大学博士，是神经网络注意力机制领域的早期探索者之一。联合创始人兼CTO王昊是北京大学计算物理博士，曾任IDEA研究院大模型团队负责人。这种创始团队的背景注定了自变量的基因中天生就是模型和算法。

资本在过去一年密集下注自变量，也与这条路线有关。

从2025年初到2026年初，自变量以几个月一轮的速度，完成了从A轮到Pre-B轮的密集融资。在一年内集齐了红杉中国、阿里云、字节跳动、深创投等顶尖机构。

随着2026年春季小米在B轮的入局，自变量成为国内唯一同时获得字节、美团、阿里、小米四大互联网巨头集体加持的具身智能公司。

“这些投资人投我们的逻辑其实非常简单，就是投技术的领先性。”王潜说。他认为，大厂本身也在深度参与大模型竞争，因此具备技术判断力，也更关注长期技术壁垒，而不是短期回报。

值得注意的是，阿里、字节、美团和小米并不是纯财务投资者。它们本身都在持续投入AI，也在不同程度上推进机器人、具身智能或相关硬件体系的探索。

这也是具身智能赛道当下一个值得观察的现象：最市场化的一批资金，投向的是物理世界基础模型、复杂场景和数据体系这类更长周期的能力。

具身智能的难点，在于做成

今天的大模型，在虚拟世界里已经足够聪明。用户对它说“帮我擦一下桌子”，它可以立刻生成一套条理清晰的保洁方案。

但机器人不能靠语言完成任务。

对具身智能来说，真正困难的地方，在于把这句话变成一连串可以在物理世界里执行的动作。它要先看见桌子在哪里，判断桌面上有哪些物品，理解哪些东西可以移动、哪些东西不能碰，再决定手臂怎么伸、力度怎么控制、路径怎么规划等等。

这也是VLA模型被重视的原因。

VLA，即Vision-Language-Action，通常被理解为“视觉－语言－动作”模型。它试图把机器人“看见环境、理解指令、生成动作”三个环节连接起来。过去的机器人更多依赖预设程序和固定轨迹，只能在相对确定的场景里完成任务；VLA希望让机器人根据视觉输入和语言指令，动态生成下一步动作。

简单说，大模型解决的是“说什么、想什么”，VLA要解决的是“看到什么之后，具体怎么做”。

自变量第一代具身基础模型WALL-A，走的就是这一路线。

2024年底，自变量发布基于VLA架构的第一代具身基础模型WALL-A。2025年9月，公司又将同一思路架构下的轻量化模型版本WALL-OSS开源。

WALL-A让机器人具备基础的“看见—理解—行动”能力。它可以把用户的语言指令和现场视觉信息结合起来，再转化为机器人的动作输出。

但真实家庭暴露出VLA路线的不足。家庭场景不稳定、不标准，任务也很难被提前穷尽。机器人真正进入普通家庭，需要一套能够感知、理解、规划、执行，并在真实反馈中持续迭代的系统。

传统VLA架构更像是三个模块的拼接：视觉模块负责识别物体，语言模块负责理解指令，动作模块负责生成轨迹。问题在于，数据在不同模块之间的语义逐级传递，每经过一次边界，就可能发生信息损耗和延迟。

王昊曾将其类比为苹果M1之前的电脑架构：CPU、GPU、内存各自独立，数据需要在不同模块之间来回搬运，带来延迟和损耗。苹果通过统一内存架构，让不同处理单元共享同一块内存，性能由此提升。

自变量对VLA的判断类似：如果视觉、语言、动作缺乏协同，机器人很难获得统一的世界理解。视觉模块看到的丰富信息，传到动作模块时，可能只剩下一个模糊摘要。

更根本的问题在于，VLA容易停留在对训练数据中动作轨迹的模仿，而不是理解物理世界的规律。它可能模仿“擦桌子”的路径，却不理解桌边的盘子为什么需要先推回去。

这也是自变量推出WALL-B的背景。

2026年4月，自变量对原有技术路径进行升级，推出新一代具身智能基础模型WALL-B。

WALL-B的核心是WUM架构，即World Unified Model。WUM试图把视觉、语言、动作、物理预测等能力放进同一个网络里，从零开始联合训练，减少模块边界和数据搬运带来的损耗。

在WALL-B的天生多模态能力中，多模态能力、本体感、物理规律建模和交互自适应能力被放进同一套系统。机器人能知道自己到哪里、够到什么，也要理解杯子为什么会倒、物体为什么会滑落。不仅如此，它还能在任务失败后尝试调整策略，并把成功或失败沉淀成下一次行动的经验。

同时，得益于这种世界统一模型架构，自变量的WALL-B还试图克服Transformer架构难以长期记忆内化的问题，让经验以原生多模态记忆的方式，通过类似人脑记忆的机制实现自我更新。

这意味着，自变量想做的不只是一个“会看、会听、会动”的机器人，还要理解动作背后的世界。

这也是自变量技术最有想象力的地方：它把竞争从“机器人像不像人”往前推了一步，变成机器人能不能在真实世界里持续完成任务，能不能把失败转化为新的经验，能不能迁移到不同机器人、不同任务和不同家庭环境里。

下一步竞争，在真实场景里发生

“机器人进入家庭，是这个时代最难的技术问题之一。”王潜曾说。

如果只把这项149元3小时的上门服务理解成“替代人工”，就会低估它的意义。对自变量来说，它更像是一次把机器人放进真实世界的系统测试。

王潜认为，现阶段自变量最重要的目标，不是尽快证明收入模型，而是先做出机器人的“Alpha moment”——让用户在某个具体场景里感受到，机器人确实能理解任务、进入家庭，并完成一部分过去只能由人完成的工作。

这也是它选择用上门服务进入家庭的原因。真实用户付费下单，带来是更接近未来日常使用的需求和反馈。

家庭场景的价值，主要是带来真实数据、真实反馈和真实约束。实验室里的机器人可以被反复调试，展厅里的机器人也可以被安排在相对可控的环境里。但一旦进入家庭，它就会遇到大量无法提前设计的问题：家具怎么摆，地面是什么材质，光线如何变化，杂物放在哪里，用户会怎样下指令，机器人又会在哪些看似简单的任务上失败。

这些问题，不进入家庭就不会知道。

它们会反过来影响硬件设计、数据采集和模型训练。哪些动作在物理上做不了，哪些任务需要新的传感器，哪些失败是机械结构、执行路径或者交互方式的问题。这些都需要在真实场景里被暴露出来。

对自变量来说，上门服务是技术走向成熟的一部分。机器人公司最终必须和一个足够大、足够复杂的世界交互，而真实订单，是一种最直接的交互方式。

过去很长时间里，很多人对机器人的想象，来自科幻电影、发布会视频和短视频演示。那些内容塑造了一种期待：机器人一进入家庭，就应该像人一样理解环境、完成任务、解决问题。

但真实产业路径不是这样发生的。

机器人进入家庭，不会从完全替代人工开始，而会从人机协作开始。它不会一开始就是完美管家，而更像一个不断学习的实习生。

它可能需要远程协助，可能把拖鞋放到厨房，也可能擦桌子擦到一半停下来“思考”。但它也可以24小时工作，并把每一次真实任务中的反馈，变成下一轮系统迭代的材料。

公众期待的是机器人“替代人”；产业正在经历的，是让机器人协助人、适应环境、建立信任、持续迭代。

这不是消费者不懂机器人，只是过去机器人行业展示给公众的，更多是能力上限。而家庭场景暴露出来的，则是系统下限。

这也是149元3小时的智能保洁服务，和过去几年中国机器人行业常见的“人形本体、资本估值、发布会演示、短视频传播”叙事不太一样。

机器人行业下一阶段的竞争，可能会变得更具体，也更残酷。真正拉开差距的，可能是谁能更早进入真实场景，并在真实场景里形成模型、反馈、服务和商业化闭环。

而这道最残酷、最真实的关口前，自变量成为了第一个闯关者。

发布于：广东

锐龙X3D立大功！AMD、Intel CPU份额差距历史新低：已不到10%

侨领王广义：青年侨商的“三种能力”和“三重自信”

热点科技快讯

人类唯一的出路: 变成人工智能（五）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

报告：抖音海外版下载量突破10亿大关挑战Facebook

新浪科技讯北京时间2月28日早间消息，据美国财经媒体CNBC援...

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，...

人类唯一的出路：变成人工智能（三）

本文来自微信公众号：Wait But Why（ID：wbwtimurban），...

热门点击排行

问界商标转让释放信号：赛力斯与华为合作持续深入

报告：抖音海外版下载量突破10亿大关挑战Facebook

科技快讯分类导航

互联网创业

人工智能

大数据分析

行业热点

149元保洁，机器人先被普通家庭上了一课

锐龙X3D立大功！AMD、Intel CPU份额差距历史新低：已不到10%

侨领王广义：青年侨商的“三种能力”和“三重自信”

人类唯一的出路: 变成人工智能（五）

报告：抖音海外版下载量突破10亿大关 挑战Facebook

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

报告：抖音海外版下载量突破10亿大关挑战Facebook