谷歌证实,Gemini 1.5 Pro 现已支持音频处理

Gemini 1.5 Pro 主要面向 Workspace 用户,而非普通消费者

最近更新时间 2024-04-09 21:11:52

27.jpg

谷歌的生成式人工智能模型 Gemin 分为 Nano、Pro 和 Ultra 三种。今年 2 月早已发布了 Gemini 1.5,目前已确认 Gemini 1.5 Pro 进入公开预览,并带来了显著的新功能。

谷歌证实,Gemini 1.5 Pro 现已支持音频处理。该搜索巨头表示,这项支持涵盖了视频文件中的音频和语音。谷歌解释称,这项支持为用户提供了无缝的跨模态分析,能够提供跨文本、图像、视频和音频的深度洞察力。它还能提供高质量的转录,可用于搜索音频和视频内容,比如用于搜索、分析和回答财报电话会议或投资者会议上的问题。

谷歌曾声称,Gemini 1.5 Pro 在 87% 的基准测试中超越了 Gemini 1.0 Pro,几乎与 Gemini 1.0 Ultra 不相上下。此外,该公司之前还表示,Gemini 1.5 Pro 可以处理单个数据流中的 1 小时视频、11 小时音频、超过 30,000 行代码的代码库或超过 700,000 个单词。

值得一提的是,Gemini 1.5 Pro 主要面向 Workspace 用户,而非消费者。但最终消费者可以通过 Gemini 助手和其他途径使用该功能。尽管如此,对音频处理的支持为未来实现大量其他功能打开了大门。谷歌已经在 Pixel 手机上提供了一些与音频相关的功能,例如录音机应用中的转录功能和音频魔术消除工具。

因此,我们很期待看到 Gemini 1.5 Pro 的核心音频功能是否会融入未来设备的 AI 模型中,这可能会带来更先进的音频功能。

rss_feed