首页 / 人工智能 / Windows Copilot需要摆脱聊天框的束缚

Windows Copilot需要摆脱聊天框的束缚

baidu09_com 2025-08-30 7 0

Windows Copilot需要摆脱聊天框的束缚第1张

接下来，备受期待的 Copilot 上下文菜单还没有到来。任何活动窗口都无法使用 “重写”、”解释 “和 “总结 “功能。即使已经发布了三个月，Copilot 的草稿功能也没有出现。此外，Copilot 还不能移除图片背景，也没有添加扩展支持。

因此，市场上宣传的所有功能都不存在。微软的许多产品都存在承诺过高、交付不足的问题。

现在，让我们来看看 Windows Copilot 能做些什么。如果我们看看开源社区正在做什么，我们就会发现一个有趣的，它可以与本地文件交互、将文件转换为其他格式、处理各种文件格式、创建图表以及做更多事情。它还可以与各种系统设置和工具交互，并在 Windows 上执行操作。

就在最近，开放口译软件发布了一个新版本（0.2.0），其中的操作系统模式令人着迷。您可以通过简单的自然语言提示来操作电脑。Open Interpreter 使用 GPT-4V 等视觉模型来理解图形用户界面环境，并在电脑上执行操作。

举个例子，你可以要求它打开黑暗模式，它就会打开相应的设置页面，并使用视觉模型打开切换开关。

你要求它播放一些低保真音乐，它就会打开浏览器和 YouTube，找到一些很棒的低保真播放列表，然后为你播放。
这些都是视觉模型所能胜任的一些基本例子，但 Windows Copilot 只能在聊天框中向你发送文本。

真正智能的 Copilot 应该能够发送电子邮件、调整 Windows 设置、在系统层面与操作系统交互，以及做更多的事情。它的用途是无限的，对于提高 Windows 11 24H2 的可访问性非常有用。

当然，对微软来说，调用 GPT-4V API 将耗费大量资金，但它可以专门为 Windows 构建一个小型视觉模型，就像一样。这样一来，延迟就会减少，即使电脑处于离线状态，一切也能在本地运行。

由于即将推出的英特尔和骁龙 X Elite 芯片组拥有专用的 NPU，在设备上运行较小的模型将成为可能。即使微软在云上运行内部开发的视觉模型，成本也会低得多。

再举一个例子，我们刚刚看到了的演示，这是一款人工智能硬件设备，可以为您执行动作。它由所谓的 LAM（大型行动模型）驱动。从订购披萨、发送电子邮件到预订航班，只需语音输入，它就能智能地为你完成所有操作。

微软需要开发一种类似 LAM 的东西，专门用于执行操作，而不仅仅是与聊天机器人聊天。

如果像 Rabbit 这样的小型初创公司都能做到这一点，那么像微软这样拥有庞大资源的大型科技巨头也能做到。到目前为止，我们已经看到微软正在构建自己的，这是一个小型的 LLM，仅供研究之用。如果微软真的想让我们在 2024 年体验到人工智能 PC，它就需要建立 Windows 专用的视觉模型，以便在本地运行代理时实现近乎零的延迟。微软需要开发出类似 LAM 的产品，这种产品的设计目的是执行操作，而不仅仅是与聊天机器人聊天。

最后，总结一下，Windows Copilot 目前的聊天机器人形式使用范围极其有限，而且已经被无数的浏览器扩展和 Edge Copilot 所覆盖。微软需要一种全新的方法来实现人工智能 PC。

作为微软最强劲的竞争对手，苹果公司以彻底打造产品并在产品准备就绪时向公众发布而著称。相比之下，微软的做法恰恰相反。它在产品还没有准备好功能和有意义的功能时就匆忙发布。