今天,Google 年度開(kāi)發(fā)者 I/O 大會(huì) 2024 在加利福尼亞州山景城的 Shoreline Amphitheatre 舉行,此次大會(huì)以 Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊 (Sundar Pichai) 的主題演講拉開(kāi)序幕。谷歌此前已經(jīng)明確表示,今年的 I/O 大會(huì)將全部圍繞人工智能展開(kāi)。
這次大會(huì)上,皮查伊宣布了谷歌內(nèi)部的最新技術(shù)進(jìn)展,尤其是圍繞 Gemini 所做的所有工作。
狂卷長(zhǎng)文本,Gemini 家族迎來(lái)重大更新
“我們希望每個(gè)人都能從 Gemini 所做的事情中受益,”皮查伊說(shuō)。他還透露了 Gemini 將如何融入谷歌的許多服務(wù)中。人們使用 Google 搜索的方式比以往任何時(shí)候都多,關(guān)鍵字搜索的時(shí)間甚至更長(zhǎng)。
大會(huì)一開(kāi)始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro,可提供 100 萬(wàn)長(zhǎng)文本能力,并且已經(jīng)向全球開(kāi)發(fā)者開(kāi)放。
Gemini 1.5 Pro 是在上個(gè)月舉辦的 Google Cloud Next 2024 大會(huì)上發(fā)布的,具有原生音頻理解、系統(tǒng)指令、JSON 模式等。
Gemini 1.5 Pro 能夠使用視頻計(jì)算機(jī)視覺(jué)來(lái)分析圖像(幀)和音頻(語(yǔ)音)的視頻,這使其具有人類水平的視覺(jué)感知。使用深度神經(jīng)網(wǎng)絡(luò),Gemini 1.5 可以以超人的精度識(shí)別圖像(和視頻幀)中的物體、場(chǎng)景和人物。
成本問(wèn)題一直是大模型開(kāi)發(fā)的痛中之痛,為了解決這一痛點(diǎn),谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型,該模型旨在兼顧快速和成本效益。
“Gemini 1.5 Flash 擅長(zhǎng)摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長(zhǎng)文檔和表格中提取數(shù)據(jù)等,”Google DeepMind 首席執(zhí)行官 Demis Hassabis 此前在博客文章中寫(xiě)道。 Hassabis 補(bǔ)充說(shuō),谷歌創(chuàng)建 Gemini 1.5 Flash 是因?yàn)殚_(kāi)發(fā)人員需要一個(gè)比 Gemini 1.5 Pro 更輕、更便宜的模型。
Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間,是針對(duì)開(kāi)發(fā)者的大模型。盡管比 Gemini Pro 輕,但它的功能同樣強(qiáng)大,谷歌表示這是通過(guò)“蒸餾”的方式來(lái)實(shí)現(xiàn)的,將 Gemini 1.5 Pro 中最重要的知識(shí)和技能轉(zhuǎn)移到較小的模型上。這意味著 Gemini 1.5 Flash 將獲得與 Pro 相同的多模式功能,以及其長(zhǎng)上下文窗口(AI 模型一次可以攝取的數(shù)據(jù)量),100 萬(wàn)個(gè) token。
最大的更新尚未到來(lái)——谷歌宣布今年晚些時(shí)候?qū)⒛P偷默F(xiàn)有上下文窗口增加一倍,達(dá)到 200 萬(wàn)個(gè) token。這將使其能夠同時(shí)處理 2 小時(shí)的視頻、22 小時(shí)的音頻、超過(guò) 60,000 行代碼或超過(guò) 140 萬(wàn)個(gè)單詞。

谷歌的 Josh Woodward 詳細(xì)介紹了 Gemini 1.5 Pro 和 Flash 的定價(jià)。Gemini 1.5 Flash 的價(jià)格定為每 100 萬(wàn)個(gè) token 35 美分,這比 GPT-4o 的每 100 萬(wàn)個(gè) token 5 美元的價(jià)格要便宜得多。

值得一提的是,此次大會(huì)谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級(jí)后的 Gemini Advanced 可以處理“多個(gè)大型文檔,總計(jì)最多 1,500 頁(yè),或匯總 100 封電子郵件”。支持 35 多種語(yǔ)言和 150 多個(gè)國(guó)家/地區(qū)。而其“即將”推出的功能是能夠“處理一個(gè)小時(shí)的視頻內(nèi)容或超過(guò) 30,000 行的代碼庫(kù)”。全球最強(qiáng)長(zhǎng)文本能力可謂實(shí)至名歸。

該公司還正在開(kāi)發(fā)名為 Project Astra 的通用 AI 代理。大會(huì)現(xiàn)場(chǎng),Demis Hassabis 展示了 Astra 模型,該模型通過(guò)智能手機(jī)攝像頭分析世界,并與用戶進(jìn)行對(duì)話。 Demis Hassabis 表示,他的團(tuán)隊(duì)“一直希望開(kāi)發(fā)對(duì)日常生活有幫助的通用人工智能代理”。 Project Astra 是這方面進(jìn)展的結(jié)果。
Project Astra 類似一款以取景器作為主界面的應(yīng)用程序。谷歌在演講中展示了一個(gè)人拿著手機(jī),將攝像頭對(duì)準(zhǔn)辦公室的各個(gè)地方,并用語(yǔ)言與其交互:“當(dāng)你看到有東西發(fā)出聲音時(shí),請(qǐng)告訴我。”在這段視頻演示中,Gemini 能識(shí)別各種物體甚至代碼,并實(shí)時(shí)與人類進(jìn)行語(yǔ)音互動(dòng)。
在視頻中,Astra 的反應(yīng)很快。之所以能實(shí)現(xiàn)這一目標(biāo),是因?yàn)檫@些“Agent”“旨在通過(guò)連續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入組合到事件時(shí)間線中,并緩存這些信息以進(jìn)行有效回憶,從而更快地處理信息。”
