今天，Google 年度開(kāi)發(fā)者 I/O 大會(huì) 2024 在加利福尼亞州山景城的 Shoreline Amphitheatre 舉行，此次大會(huì)以 Alphabet 首席執(zhí)行官桑達(dá)爾·皮查伊 (Sundar Pichai) 的主題演講拉開(kāi)序幕。谷歌此前已經(jīng)明確表示，今年的 I/O 大會(huì)將全部圍繞人工智能展開(kāi)。

這次大會(huì)上，皮查伊宣布了谷歌內(nèi)部的最新技術(shù)進(jìn)展，尤其是圍繞 Gemini 所做的所有工作。

狂卷長(zhǎng)文本，Gemini 家族迎來(lái)重大更新

“我們希望每個(gè)人都能從 Gemini 所做的事情中受益，”皮查伊說(shuō)。他還透露了 Gemini 將如何融入谷歌的許多服務(wù)中。人們使用 Google 搜索的方式比以往任何時(shí)候都多，關(guān)鍵字搜索的時(shí)間甚至更長(zhǎng)。

大會(huì)一開(kāi)始皮查伊就宣布了 Gemini 系列大模型的更新。首先是 Gemini 1.5 Pro，可提供 100 萬(wàn)長(zhǎng)文本能力，并且已經(jīng)向全球開(kāi)發(fā)者開(kāi)放。

Gemini 1.5 Pro 是在上個(gè)月舉辦的 Google Cloud Next 2024 大會(huì)上發(fā)布的，具有原生音頻理解、系統(tǒng)指令、JSON 模式等。

Gemini 1.5 Pro 能夠使用視頻計(jì)算機(jī)視覺(jué)來(lái)分析圖像（幀）和音頻（語(yǔ)音）的視頻，這使其具有人類水平的視覺(jué)感知。使用深度神經(jīng)網(wǎng)絡(luò)，Gemini 1.5 可以以超人的精度識(shí)別圖像（和視頻幀）中的物體、場(chǎng)景和人物。

成本問(wèn)題一直是大模型開(kāi)發(fā)的痛中之痛，為了解決這一痛點(diǎn)，谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 宣布推出 Gemini 1.5 Flash 模型，該模型旨在兼顧快速和成本效益。

“Gemini 1.5 Flash 擅長(zhǎng)摘要、聊天應(yīng)用程序、圖像和視頻字幕、從長(zhǎng)文檔和表格中提取數(shù)據(jù)等，”Google DeepMind 首席執(zhí)行官 Demis Hassabis 此前在博客文章中寫(xiě)道。 Hassabis 補(bǔ)充說(shuō)，谷歌創(chuàng)建 Gemini 1.5 Flash 是因?yàn)殚_(kāi)發(fā)人員需要一個(gè)比 Gemini 1.5 Pro 更輕、更便宜的模型。

Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之間，是針對(duì)開(kāi)發(fā)者的大模型。盡管比 Gemini Pro 輕，但它的功能同樣強(qiáng)大，谷歌表示這是通過(guò)“蒸餾”的方式來(lái)實(shí)現(xiàn)的，將 Gemini 1.5 Pro 中最重要的知識(shí)和技能轉(zhuǎn)移到較小的模型上。這意味著 Gemini 1.5 Flash 將獲得與 Pro 相同的多模式功能，以及其長(zhǎng)上下文窗口（AI 模型一次可以攝取的數(shù)據(jù)量），100 萬(wàn)個(gè) token。

最大的更新尚未到來(lái)——谷歌宣布今年晚些時(shí)候?qū)⒛Ｐ偷默F(xiàn)有上下文窗口增加一倍，達(dá)到 200 萬(wàn)個(gè) token。這將使其能夠同時(shí)處理 2 小時(shí)的視頻、22 小時(shí)的音頻、超過(guò) 60,000 行代碼或超過(guò) 140 萬(wàn)個(gè)單詞。

谷歌這次又“殺瘋了”！200 萬(wàn) token 長(zhǎng)文本能力問(wèn)鼎全球最強(qiáng)

谷歌的 Josh Woodward 詳細(xì)介紹了 Gemini 1.5 Pro 和 Flash 的定價(jià)。Gemini 1.5 Flash 的價(jià)格定為每 100 萬(wàn)個(gè) token 35 美分，這比 GPT-4o 的每 100 萬(wàn)個(gè) token 5 美元的價(jià)格要便宜得多。

值得一提的是，此次大會(huì)谷歌重磅宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced。升級(jí)后的 Gemini Advanced 可以處理“多個(gè)大型文檔，總計(jì)最多 1,500 頁(yè)，或匯總 100 封電子郵件”。支持 35 多種語(yǔ)言和 150 多個(gè)國(guó)家/地區(qū)。而其“即將”推出的功能是能夠“處理一個(gè)小時(shí)的視頻內(nèi)容或超過(guò) 30,000 行的代碼庫(kù)”。全球最強(qiáng)長(zhǎng)文本能力可謂實(shí)至名歸。

該公司還正在開(kāi)發(fā)名為 Project Astra 的通用 AI 代理。大會(huì)現(xiàn)場(chǎng)，Demis Hassabis 展示了 Astra 模型，該模型通過(guò)智能手機(jī)攝像頭分析世界，并與用戶進(jìn)行對(duì)話。 Demis Hassabis 表示，他的團(tuán)隊(duì)“一直希望開(kāi)發(fā)對(duì)日常生活有幫助的通用人工智能代理”。 Project Astra 是這方面進(jìn)展的結(jié)果。

Project Astra 類似一款以取景器作為主界面的應(yīng)用程序。谷歌在演講中展示了一個(gè)人拿著手機(jī)，將攝像頭對(duì)準(zhǔn)辦公室的各個(gè)地方，并用語(yǔ)言與其交互：“當(dāng)你看到有東西發(fā)出聲音時(shí)，請(qǐng)告訴我。”在這段視頻演示中，Gemini 能識(shí)別各種物體甚至代碼，并實(shí)時(shí)與人類進(jìn)行語(yǔ)音互動(dòng)。

在視頻中，Astra 的反應(yīng)很快。之所以能實(shí)現(xiàn)這一目標(biāo)，是因?yàn)檫@些“Agent”“旨在通過(guò)連續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入組合到事件時(shí)間線中，并緩存這些信息以進(jìn)行有效回憶，從而更快地處理信息。”

黄色小毛片-黄色小视频免费-黄色小视频免费看-黄色小视频日本-免费观看视频-免费观看视频高清www

谷歌這次又“殺瘋了”！200 萬(wàn) token 長(zhǎng)文本能力問(wèn)鼎全球最強(qiáng)

狂卷長(zhǎng)文本，Gemini 家族迎來(lái)重大更新

汽車活動(dòng)更多>>