迎向代理式AI時代!Google「Gemini 2.0」功能搶先看
Google 暨 Alphabet 執行長 Sundar Pichai 的分享:
資訊是人類進步的核心。這就是為什麼過去 26 多年來,Google 一直專注在自己的使命:彙整全球的資訊,
這是Google去年 12 月推出 Gemini 1.0 時的願景。Gemini 1.0 和 1.5 是第一個原生多模態的模型,
現在,數百萬的開發者正在使用 Gemini 進行程式開發。而且在 Gemini 的幫助下,Google所有產品,包括 7 項擁有 20 億用戶的產品,也都煥然一新,同時也催生新的產品。Notebo
現在,Google推出下一代模型:Gemini 2.0,這是我 Google 截至目前為止功能最強大的模型。

今天,Google 把 2.0 模型交給開發者和信任的測試者。Google 也正在努力盡快把它整合到產品裡,首先是 Gemini 和 Google 搜尋。從今天開始,將 Gemini 2.0 Flash 實驗性質的模型開放給所有 Gemini 使用者;
Google 也推出「深度研究」(Deep Research)的新功能,
沒有任何產品的轉型比 Google 搜尋更受到 AI 的影響。Google 的 AI 摘要的服務,已經觸及 10 億人,讓他們能夠提出全新類型的問題,
接下來,預計將 Gemini 2.0 的進階推理能力導入 AI 摘要,用來處理更複雜的主題和多層次的問題,
2.0 版本能有所突破,是因為十年來的投資,在 AI 領域獨闢蹊徑、全方位創新的做法。
它被建立在客製化的硬體上,像是第六代 TPU Trillium。TPU 為 Gemini 2.0 的訓練和推理提供 100% 的支援,而今天,Trillium 也已經全面開放,客戶可以運用它來進行開發。
如果說 Gemini 1.0 重在資訊的組織與理解,而 Gemini 2.0 則是更上一層樓,聚焦於實用性。我期待這個新時代的無限可能!
Google DeepMind 執行長 Demis Hassabis 和 Google DeepMind 技術長 Koray Kavukcuoglu,代表 Gemini 團隊分享
Google 持續在 AI 領域發展,過去一年的成果更是不可思議。今天,Google 發表了 Gemini 2.0 模型系列中的第一個模型:Gemini 2.0 Flash 的實驗性版本。它是 Google 技術最前端的核心模型,
Google 也同步展示由 Gemini 2.0 原生多模態模型支援的幾個雛形案例,分享Google針對代理式 AI 最先進的研究。
Gemini 2.0 Flash
Gemini 2.0 Flash 的基礎,是目前為止最受開發者歡迎的模型 1.5 Flash,在同樣快速的回應時間內具有更強的性能,相當成功。
2.0 Flash 還有其他新功能。除了支援圖像、影片和音訊等多模態輸入之外,
過去的一個月裡,Google 一直分享 Gemini 2.0 的早期實驗版本,並獲得開發者很正面的回饋。
現在,Gemini 2.0 Flash 實驗模型將透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開放給開發者,所有開發者都可使用多模態輸入和文字輸出;
為了協助開發者打造動態、具互動性的應用程式,Google 還發布了一個新的多模態 Live API,它具有即時音訊、
Gemini 2.0 在 AI 助理、Gemini 應用程式中開放使用
同樣從今天開始,全球 Gemini 使用者都可以透過桌面和行動網頁版的模型下拉式功能表,
明年初,Google 會將 Gemini 2.0 擴展到更多 Google 的產品上。
透過 Gemini 2.0 解鎖代理式 AI 的體驗
Gemini 2.0 Flash 的原生使用者介面操作功能,以及多模態推理、長脈絡處理、
AI 代理的實際應用是一個充滿可能性的研究領域,令人興奮。Google 正在用一系列可以幫助人們執行任務、完成工作的雛形,
其中包括:新一代的 Project Astra,是 Google 探索通用 AI 助理未來功能的研究雛型;新的 Project Mariner,從瀏覽器開始著手,探索人機互動的未來;以及 Jules,一個由 AI 支援、可以協助開發者的程式碼代理。
Google 仍處於早期開發階段,
Project Astra:在現實世界中採用多模態理解的代理
自從 Google 在 I/O 上推出 Project Astra 以來,一直從受信任的測試者使用 Android 手機上的情況汲取經驗。
-
更流暢的對話:Project Astra 現在能夠以多種語言和混合語言進行對話,
並且更能理解口音和不常見的詞彙。 -
新工具使用:借助 Gemini 2.0,Project Astra 可以使用 Google 搜尋、智慧鏡頭和地圖,在日常生活中更像助理一樣實用。
-
更強的記憶力:改善了 Project Astra 記憶事情的能力,同時確保你掌控一切。它現在可以記憶長達 10 分鐘的內容,並且記住過去你和它進行的更多對話,
因此能更加個人化。 -
改善的延遲:透過新的串流能力和原生音訊理解,
代理能以和人類對話大致相同的延遲來了解語言。
Google 正在努力將這些類型的功能引入 Google 產品中,例如 AI 助理 Gemini 應用程式,以及眼鏡等其他形式的裝置。Google 也開始把受信任測試者的計畫擴展到更多人,包括有一組人,
Project Mariner:可以幫助你完成複雜任務的代理
Project Mariner 是一個使用 Gemini 2.0 構建的早期研究雛形,從你的瀏覽器開始,去探索人機互動的未來。
WebVoyager 基準測試,會去評測代理在現實世界的網路上端到端的表現,而 Project Mariner 達到了 83.5% 的高水準。
現在還為時過早,但 Project Mariner 讓我看到,它在技術上已經可以做到在瀏覽器上穿梭;
為了安全、負責任地構建 Project Mariner,Google 正在積極研究新類型的風險和緩解措施,
受信任的測試者現在開始使用實驗性的 Chrome 擴充程式測試 Project Mariner,同時,Google 也開始和網路生態系互相討論研究。
Jules:給開發者的代理
接下來,Google 將探討 AI 代理如何透過 Jules 協助開發者——Jules 是一種實驗性、由 AI 驅動的程式碼代理,直接整合到 GitHub 工作流程裡。它可以在開發者的指導和監督下解決問題、
想更瞭解這項正在進行的實驗,請參閱開發者部落格文章。
遊戲和其他領域的代理
Google DeepMind 長期以來一直透過遊戲,來幫助 AI 模型更能遵循規則、規畫和邏輯推理。例如,就在上週,Google 推出了 Genie 2,AI 模型可以僅從單個圖像中創造出無窮無盡的可玩 3D 世界。
在這一傳統的基礎上,Google 使用 Gemini 2.0 構建了代理,可以幫你在電玩遊戲的虛擬世界中導航。
Google 正在和 Supercell 等領先的遊戲開發者合作,探索這些代理的運作方法,
除了充當虛擬遊戲夥伴之外,這些代理甚至可以利用 Google 搜尋,把你和網路上豐富的遊戲知識連在一起。
除了探索虛擬世界中的代理功能外,Google 也正在嘗試把 Gemini 2.0 的空間推理能力應用在機器人的技術,從而幫助現實生活中的代理。
你可以在 labs.google 了解更多關於這些研究雛形和實驗的資訊。
在代理式 AI 的時代,採取負責任的開發方式
Gemini 2.0 Flash 的研究雛形使能夠在 AI 研究的最前線,測試、迭代新功能,而這些功能最終都會讓 Google 的產品帶來更多幫助。
在開發這些新技術的同時,Google 認識到它所連帶的責任,以及 AI 代理為安全保障帶來的許多問題。
例如:
Gemini 2.0 的推理能力,大幅提升了 AI 輔助紅隊測試的效率。它不但能偵測風險,
隨著 Gemini 2.0 的多模態增加了輸出時潛在的複雜性,Google 將繼續評估和訓練模型的圖像和音訊輸入和輸出,
在 Project Astra 中,Google 致力於預防用戶無意間與 AI 代理分享敏感資訊,並已內建隱私控制功能,
在 Project Mariner 中,Google 要確保模型能學會優先遵循使用者的指令,
Gemini 2.0、AI 代理及其他
今天的發布,可以說替 Google 揭開 Gemini 模型嶄新的篇章。隨著 Gemini 2.0 Flash 的發布,以及一系列探索代理可能性的研究雛形,Google 已經在 Gemini 時代見證了一個令人興奮的里程碑。Google 期待在構建通用人工智慧的過程中,
本文作者:(前言)Google 暨 Alphabet 執行長 Sundar Pichai、(正文)Google DeepMind 執行長 Demis Hassabis 和 Google DeepMind 技術長 Koray Kavukcuoglu
史塔夫短評:AI真是無所不能