當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 谷歌Gemini技術(shù)報告出爐，作者多達(dá)900余人

谷歌Gemini技術(shù)報告出爐，作者多達(dá)900余人

更新時間：2023-12-21 14:22:05 | 作者：佚名

從此以后，GoogleScholar數(shù)據(jù)該出問題了。原文來源：機(jī)器之心圖片來源：由無界AI生成備受期待的谷歌Gemini技術(shù)報告完整版，今天終于出爐了。兩周前，人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini，其宣稱超越GPT-4的強(qiáng)大性能，以及對于圖像、視頻等領(lǐng)域的理解能力讓人們似乎看到了未來。不過由于谷歌演示的demo涉嫌夸大效果，Gem...

從此以后，Google Scholar 數(shù)據(jù)該出問題了。

原文來源：機(jī)器之心

圖片來源：由無界 AI生成

備受期待的谷歌 Gemini 技術(shù)報告完整版，今天終于出爐了。

兩周前，人們興奮于谷歌提出的「原生多模態(tài)大模型」Gemini，其宣稱超越 GPT-4 的強(qiáng)大性能，以及對于圖像、視頻等領(lǐng)域的理解能力讓人們似乎看到了未來。不過由于谷歌演示的 demo 涉嫌夸大效果，Gemini 又很快陷入了爭議。

但作為生成式 AI 領(lǐng)域最近的重要進(jìn)展，人們對于 Gemini 的期待越來越高，有團(tuán)隊很快進(jìn)行研究發(fā)了測試論文。今天發(fā)布的 64 頁技術(shù)報告，或許可以為我們的許多疑惑進(jìn)行更加直觀的解釋。

這篇技術(shù)報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一眾谷歌研究大佬，另外還有謝爾蓋?布林這樣的公司聯(lián)合創(chuàng)始人。

論文鏈接：https://arxiv.org/abs/2312.11805

另外，該文章的作者數(shù)量也奪人眼球 ——941 個人，搞得 arXiv 網(wǎng)頁都有點卡：

一頁顯示不過來。

從文章第 35 頁起，谷歌開始羅列所有「貢獻(xiàn)者」，從 Team Leader 到主要貢獻(xiàn)者，再到貢獻(xiàn)者分門別類寫到了第 45 頁，看起來之前各路媒體說谷歌在 Gemini 上投入了大量工程師，的確是沒說錯。

谷歌表示，在每個任務(wù)方向上，人們對 Gemini 所做的貢獻(xiàn)是同等重要的，名字按隨機(jī)順序列出。Gemini 是一項跨谷歌內(nèi)部多團(tuán)隊的工作，成員來自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門。

此外還有提供了支持的團(tuán)隊和人（比如公司 CEO 桑達(dá)爾?皮查伊），以及沒有列出的很多谷歌內(nèi)部貢獻(xiàn)者。

對此有人吐槽道，論文作者比解釋技術(shù)寫的還長，你這怕不是在水字?jǐn)?shù)？

光是這些花費(fèi)在這些工程師、科學(xué)家們身上的工資每年就有上億美元。

在技術(shù)報告中，谷歌表示 Gemini 是一個多模態(tài)大模型體系，它在圖像、音頻、視頻和文本理解方面表現(xiàn)出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個版本，適用于從復(fù)雜推理任務(wù)到移動設(shè)備的各種應(yīng)用。

通過在大量基準(zhǔn)的跑分表明，功能最強(qiáng)大的 Gemini Ultra 在 32 個基準(zhǔn)中的 30 個中刷新了 SOTA（業(yè)內(nèi)最佳）水平。谷歌特別指出，Gemini 是第一個在經(jīng)過充分研究的考試基準(zhǔn) MMLU 上實現(xiàn)人類專家表現(xiàn)的模型。谷歌相信，Gemini 在跨模態(tài)推理和語言理解方面的突出能力將支持各種用例。

以下圖所示的教育環(huán)境為例，老師畫了一個滑雪者從斜坡上滑下的物理問題，學(xué)生試圖進(jìn)行解答。利用 Gemini 的多模態(tài)推理能力，該模型能夠理解凌亂的筆跡，正確理解問題的表述，將問題和解決方案都轉(zhuǎn)換為數(shù)學(xué)排版，識別學(xué)生在解決問題時出錯的具體推理步驟，然后給出問題的正確解法。

圖 1，筆記識別，解答物理問題。

Gemini 的推理能力展示了構(gòu)建能解決更復(fù)雜多步驟問題的通用智能體的前景，比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動設(shè)備上，Gemini Nano 在摘要、閱讀理解、文本填充任務(wù)等任務(wù)中表現(xiàn)出色，也體現(xiàn)了推理、STEM、編碼、多模態(tài)和多語言任務(wù)的能力。

在文章的技術(shù)解釋部分中，谷歌概述了 Gemini 的模型架構(gòu)、訓(xùn)練基礎(chǔ)設(shè)施和訓(xùn)練數(shù)據(jù)集，對 Gemini 模型系列進(jìn)行了詳細(xì)評估，涵蓋文本、代碼、圖像、音頻和視頻方面。谷歌討論了模型審核與部署方法，最后也討論了 Gemini 的更廣泛影響、局限性及其潛在應(yīng)用。

模型架構(gòu)

Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ，如下所示：

Ultra：可以在各種高度復(fù)雜的任務(wù)中提供SOTA性能，包括推理和多模態(tài)任務(wù)。它還可以在TPU加速器上有效地進(jìn)行大規(guī)模服務(wù)；
Pro：是谷歌在成本和延遲方面進(jìn)行性能優(yōu)化的模型，可在各種任務(wù)中提供良好的性能，并表現(xiàn)出強(qiáng)大的推理性能和廣泛的多模態(tài)能力；
Nano：谷歌最高效的模型，專為在設(shè)備上運(yùn)行而設(shè)計。谷歌訓(xùn)練了兩個版本的 Nano，參數(shù)分別為 1.8B (Nano-1) 和 3.25B (Nano-2)，分別針對低內(nèi)存和高內(nèi)存設(shè)備，采用 4 位量化進(jìn)行部署，并提供一流的性能。

Gemini 的輸入有多種形式，如文本、音頻、圖片、視頻等，如下圖2所示。值得一提的是，Gemini是原生多模態(tài)的。

Gemini 的視頻理解能力是通過將視頻編碼為大上下文窗口中的幀序列來完成的。視頻幀或圖像可以自然地與文本或音頻交織，作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率，以便將更多的計算花費(fèi)在需要細(xì)粒度理解的任務(wù)上。?

此外，Gemini 可以直接從通用語音模型 (USM) 功能中攝取 16kHz 的音頻信號。這使得模型能夠捕獲當(dāng)音頻被簡單地映射到文本輸入時通常會丟失的細(xì)微差別。

訓(xùn)練基礎(chǔ)設(shè)施

谷歌使用 TPUv5e 和 TPUv4 訓(xùn)練 Gemini 模型，具體取決于模型的大小和配置。其中，訓(xùn)練 Gemini Ultra 使用跨多個數(shù)據(jù)中心的大量 TPUv4 加速器，相比于 PaLM-2，規(guī)模顯著增加，帶來了新的基礎(chǔ)設(shè)施挑戰(zhàn)。

增加加速器的數(shù)量會導(dǎo)致整個系統(tǒng)中硬件的平均故障間隔時間成比例地減少。因此，谷歌最大限度地減少了計劃重新規(guī)劃和搶占的比率，但實際上機(jī)器故障在如此大規(guī)模的硬件加速器中很常見。?

TPUv4 加速器部署在 4096 個芯片的「SuperPod」中，每個芯片連接到一個專用光開關(guān)，可以在大約 10 秒內(nèi)將 4x4x4 芯片cube動態(tài)重新配置為任意 3D 環(huán)面拓?fù)洹τ?Gemini Ultra，谷歌為每個超級容器保留少量cube，以實現(xiàn)熱備用和滾動維護(hù)。

TPU 加速器主要通過高速芯片間互連進(jìn)行通信，但對于 Gemini Ultra，谷歌使用其集群內(nèi)和集群間網(wǎng)絡(luò)在多個數(shù)據(jù)中心中組合 SuperPod。

使用定期檢查持久集群存儲權(quán)重的傳統(tǒng)方法，在這種規(guī)模下維持高吞吐量是不可能的。因此谷歌為 Gemini 使用了模型狀態(tài)的冗余內(nèi)存副本，并且在任何計劃外的硬件故障中，Gemini 可以直接從完整的模型副本中快速恢復(fù)。與 PaLM 和 PaLM-2 相比，盡管使用的訓(xùn)練資源要大得多，但恢復(fù)速度顯著加快。

最終，最大規(guī)模訓(xùn)練 job 的整體吞吐量從 85% 增加到 97%。

Gemini 模型是在多模態(tài)和多語言數(shù)據(jù)集上進(jìn)行訓(xùn)練的，預(yù)訓(xùn)練數(shù)據(jù)集使用來自網(wǎng)絡(luò)文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)。谷歌使用了 SentencePiece tokenizer，并發(fā)現(xiàn)在整個訓(xùn)練語料庫的大樣本上訓(xùn)練 tokenizer 可以提高推斷詞匯量，從而提高模型性能。

此外，谷歌還使用啟發(fā)式規(guī)則和基于模型的 tokenizer 對所有數(shù)據(jù)集應(yīng)用質(zhì)量過濾器，并執(zhí)行安全過濾以刪除有害內(nèi)容。

評估

Gemini 模型本質(zhì)上是多模態(tài)模型，跨文本、圖像、音頻和視頻數(shù)據(jù)聯(lián)合訓(xùn)練。一個懸而未決的問題是，這種聯(lián)合訓(xùn)練是否能夠產(chǎn)生一種在每個領(lǐng)域都具有強(qiáng)大能力的模型 —— 即使與針對單個領(lǐng)域進(jìn)行定制的模型相比也是如此。谷歌進(jìn)行了一系列的評估實驗證明：Gemini 在廣泛的文本、圖像、音頻和視頻基準(zhǔn)上實現(xiàn)了新的 SOTA 水平。?

文本

谷歌將 Gemini Pro 和 Gemini Ultra 與多個外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進(jìn)行了一系列基于文本的學(xué)術(shù)基準(zhǔn)比較，涵蓋推理、閱讀理解、STEM 和編碼。實驗結(jié)果如下表 2 所示：

谷歌還通過在六種不同能力的 50 多個基準(zhǔn)上進(jìn)行評估，檢查了 Gemini 模型的能力趨勢，涵蓋：

開卷 / 閉卷檢索和問答任務(wù)，要求「事實性」；
長上下文摘要、檢索和問答任務(wù)；
數(shù)學(xué) / 科學(xué)問題解決、定理證明和考試；?
需要算術(shù)、科學(xué)和常識的「推理」任務(wù)；
用多種語言進(jìn)行翻譯、摘要和推理的「多語言」任務(wù)。

評估結(jié)果如下圖表所示：

下表 3 更深入地探討了 Gemini 在特定的事實、編碼、數(shù)學(xué) / 科學(xué)和推理任務(wù)上的性能。其中，Gemini Nano-1 和 Gemini Nano-2 的模型大小分別為 1.8B 和 3.25B。

值得一提的是，經(jīng)過指令調(diào)整的 Gemini Pro 模型在一系列功能上表現(xiàn)出巨大的改進(jìn)：

多模態(tài)

Gemini 模型是從頭開始以多模態(tài)為目標(biāo)構(gòu)建的。它表現(xiàn)出了獨(dú)特的能力，可以將跨模態(tài)的功能（例如，從表格、圖表或圖形中提取信息和空間布局）與語言模型的強(qiáng)大推理能力（如先進(jìn)的推理能力）無縫地結(jié)合起來。

如圖 5 和圖 12 中的示例所示，這些模型在識別輸入內(nèi)容中的細(xì)粒度細(xì)節(jié)、跨空間和時間聚合上下文，以及將這些功能應(yīng)用于時間相關(guān)的視頻序列方面也表現(xiàn)出強(qiáng)大的能力。

圖 5、Gemini 的多模態(tài)推理功能可生成用于重新排列子圖的 matplotlib 代碼。

表 7、Gemini Ultra 在圖像理解基準(zhǔn)上的能力。

谷歌發(fā)現(xiàn)，Gemini Ultra 在各種圖像理解基準(zhǔn)測試中都是最先進(jìn)的。

Gemini 模型還能夠同時跨模態(tài)和理解多種語言。

表 9、多語言圖像理解。

Gemini Ultra 在各種 few-shot 視頻字幕任務(wù)以及 zero-shot 視頻問答任務(wù)上取得了最先進(jìn)的結(jié)果。

表 10、在選定的學(xué)術(shù)基準(zhǔn)上跨任務(wù)和語言的 few-shot 視頻理解。

圖 6 顯示了 one-shot 情況下的圖像生成示例。

圖 6、圖像生成。在給出由圖像和文本組成的提示的情況下，Gemini 可以輸出與文本交錯的多個圖像。

有關(guān)語音理解能力，表 11 表明，無論是在英語還是多語言測試集上，Gemini Pro 模型在所有 ASR（語音識別）和 AST（自動語音翻譯）任務(wù)中顯著優(yōu)于 USM 和 Whisper 模型。

表 11、ASR 和 AST 選定基準(zhǔn)的語音評估結(jié)果。

安全性

谷歌表示，在 Gemini 模型的開發(fā)過程中遵循了結(jié)構(gòu)化方法進(jìn)行負(fù)責(zé)任的部署，以便識別、衡量和管理大模型的可預(yù)見社會影響，這與 Google 人工智能技術(shù)的先前版本一致。

結(jié)語

谷歌在技術(shù)報告中表示，目前有關(guān) Gemini 大模型的各種測試和用例，可能只涉及了其潛力的很小一部分。谷歌期待更多公司在更多場景上使用新的模型。

Gemini 為谷歌開發(fā)一個大規(guī)模、模塊化的系統(tǒng)，實現(xiàn)最大泛化能力的目標(biāo)提供了堅實基礎(chǔ)。

本站提醒：投資有風(fēng)險，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財建議。

谷歌Gemini技術(shù)報告出爐，作者多達(dá)900余人

谷歌Gemini技術(shù)報告出爐，作者多達(dá)900余人