Windows Copilot需要摆脱聊天框的束缚  第1张

接下来,备受期待的 Copilot 上下文菜单还没有到来。任何活动窗口都无法使用 “重写”、”解释 “和 “总结 “功能。即使已经发布了三个月,Copilot 的草稿功能也没有出现。此外,Copilot 还不能移除图片背景,也没有添加扩展支持。

因此,市场上宣传的所有功能都不存在。微软的许多产品都存在承诺过高、交付不足的问题。

现在,让我们来看看 Windows Copilot 能做些什么。如果我们看看开源社区正在做什么,我们就会发现一个有趣的,它可以与本地文件交互、将文件转换为其他格式、处理各种文件格式、创建图表以及做更多事情。它还可以与各种系统设置和工具交互,并在 Windows 上执行操作。

就在最近,开放口译软件发布了一个新版本(0.2.0),其中的操作系统模式令人着迷。您可以通过简单的自然语言提示来操作电脑。Open Interpreter 使用 GPT-4V 等视觉模型来理解图形用户界面环境,并在电脑上执行操作。

举个例子,你可以要求它打开黑暗模式,它就会打开相应的设置页面,并使用视觉模型打开切换开关。

你要求它播放一些低保真音乐,它就会打开浏览器和 YouTube,找到一些很棒的低保真播放列表,然后为你播放。
这些都是视觉模型所能胜任的一些基本例子,但 Windows Copilot 只能在聊天框中向你发送文本。

真正智能的 Copilot 应该能够发送电子邮件、调整 Windows 设置、在系统层面与操作系统交互,以及做更多的事情。它的用途是无限的,对于提高 Windows 11 24H2 的可访问性非常有用。

当然,对微软来说,调用 GPT-4V API 将耗费大量资金,但它可以专门为 Windows 构建一个小型视觉模型,就像 一样。这样一来,延迟就会减少,即使电脑处于离线状态,一切也能在本地运行。

由于即将推出的英特尔和骁龙 X Elite 芯片组拥有专用的 NPU,在设备上运行较小的模型将成为可能。即使微软在云上运行内部开发的视觉模型,成本也会低得多。

再举一个例子,我们刚刚看到了 的演示,这是一款人工智能硬件设备,可以为您执行动作。它由所谓的 LAM(大型行动模型)驱动。从订购披萨、发送电子邮件到预订航班,只需语音输入,它就能智能地为你完成所有操作。

微软需要开发一种类似 LAM 的东西,专门用于执行操作,而不仅仅是与聊天机器人聊天。

如果像 Rabbit 这样的小型初创公司都能做到这一点,那么像微软这样拥有庞大资源的大型科技巨头也能做到。到目前为止,我们已经看到微软正在构建自己的 ,这是一个小型的 LLM,仅供研究之用。如果微软真的想让我们在 2024 年体验到人工智能 PC,它就需要建立 Windows 专用的视觉模型,以便在本地运行代理时实现近乎零的延迟。微软需要开发出类似 LAM 的产品,这种产品的设计目的是执行操作,而不仅仅是与聊天机器人聊天。

最后,总结一下,Windows Copilot 目前的聊天机器人形式使用范围极其有限,而且已经被无数的浏览器扩展和 Edge Copilot 所覆盖。微软需要一种全新的方法来实现人工智能 PC。

作为微软最强劲的竞争对手,苹果公司以彻底打造产品并在产品准备就绪时向公众发布而著称。相比之下,微软的做法恰恰相反。它在产品还没有准备好功能和有意义的功能时就匆忙发布。