Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能力,让用户用摄像头输入或屏幕共享与AI互动。API专为服务器到服务器的通信设计,适用于需要实时、多模态交互的应用场景。

Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口  第1张
(图片来源网络,侵删)
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口  第2张
(图片来源网络,侵删)