谷歌證實,Gemini 1.5 Pro 現已支持音頻處理

Gemini 1.5 Pro 主要面向 Workspace 用戶,而非普通消費者

最近更新時間 2024-04-09 21:11:52

27.jpg

谷歌的生成式人工智能模型 Gemin 分為 Nano、Pro 和 Ultra 三種。今年 2 月早已發佈了 Gemini 1.5,目前已確認 Gemini 1.5 Pro 進入公開預覽,並帶來了顯著的新功能。

谷歌證實,Gemini 1.5 Pro 現已支持音頻處理。該搜索巨頭表示,這項支持涵蓋了視頻文件中的音頻和語音。谷歌解釋稱,這項支持為用戶提供了無縫的跨模態分析,能夠提供跨文本、圖像、視頻和音頻的深度洞察力。它還能提供高質量的轉錄,可用於搜索音頻和視頻內容,比如用於搜索、分析和回答財報電話會議或投資者會議上的問題。

谷歌曾聲稱,Gemini 1.5 Pro 在 87% 的基準測試中超越了 Gemini 1.0 Pro,幾乎與 Gemini 1.0 Ultra 不相上下。此外,該公司之前還表示,Gemini 1.5 Pro 可以處理單個數據流中的 1 小時視頻、11 小時音頻、超過 30,000 行代碼的代碼庫或超過 700,000 個單詞。

值得一提的是,Gemini 1.5 Pro 主要面向 Workspace 用戶,而非消費者。但最終消費者可以通過 Gemini 助手和其他途徑使用該功能。儘管如此,對音頻處理的支持為未來實現大量其他功能打開了大門。谷歌已經在 Pixel 手機上提供了一些與音頻相關的功能,例如錄音機應用中的轉錄功能和音頻魔術消除工具。

因此,我們很期待看到 Gemini 1.5 Pro 的核心音頻功能是否會融入未來設備的 AI 模型中,這可能會帶來更先進的音頻功能。

rss_feed