https://ai.google.dev/gemma/docs/gemma-3n (Plurk Paste)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

https://ai.google.dev/gemma/docs/gemma-3n

Gemma 3n 模型概覽
Gemma 3n 是一款專為日常設備（如手機、筆記型電腦和平板電腦）優化的生成式 AI 模型。它採用了高效參數處理的創新技術，包括每層嵌入（PLE）參數快取，以及 MatFormer 模型架構，能靈活降低運算與記憶體需求。這些模型具備處理語音輸入、文字與視覺資料的能力。

預覽版本
Gemma 3n 目前已提供早期預覽版，您可以在 Google AI Studio 與 Google AI Edge 中試用。如同其他 Gemma 模型，Gemma 3n 採用開放權重，並以允許負責任商業用途的授權方式提供，便於您調整與部署於個人專案或應用程式中。

Gemma 3n 的主要特點包括：
語音輸入：可處理語音資料，支援語音辨識、翻譯與音訊分析。

視覺與文字輸入：多模態能力支援影像、聲音與文字整合，用於理解與分析環境。

PLE 快取：模型中的每層嵌入參數可快取至高速本地儲存，以降低記憶體消耗。

MatFormer 架構：Matryoshka Transformer 架構可根據請求選擇性啟用參數，進一步降低運算成本與回應時間。

條件式參數載入：可跳過模型中的視覺與語音參數載入，節省記憶體資源。

廣泛語言支援：訓練涵蓋超過 140 種語言，具備強大的語言處理能力。

32K token 上下文：提供大量輸入上下文，適合資料分析與任務處理。

📌 小提醒：若您想在 Android 應用中打造生成式 AI 解決方案，可參考 Gemini Nano，詳見 Android Gemini Nano 開發文件。

模型參數與有效參數說明
Gemma 3n 的模型標示參數數量（如 E2B、E4B）通常小於模型總參數數量。前綴 E 表示這些模型可採用「有效參數（Effective parameters）」模式運行，藉由模型內建的參數彈性技術，在資源受限的設備上高效執行。

Gemma 3n 的參數分為四大類：

文字參數（Text）

視覺參數（Visual）

語音參數（Audio）

每層嵌入參數（PLE）

以 E2B 模型的標準執行方式為例，約會載入超過 50 億參數。然而，透過參數跳躍與 PLE 快取技術，實際執行所需的有效記憶體參數數可壓縮至約 19.1 億（1.91B），如下圖所示：

圖 1：Gemma 3n E2B 模型標準執行 vs 採用參數優化技術後的參數使用情況
參數效率技術說明
PLE 快取
Gemma 3n 的每層嵌入（PLE）參數可在模型執行過程中產生，提升每層運算效果。這些參數可在模型執行外部先行生成，快取至高速儲存裝置，於推論過程中按層加載至模型，使其不佔用主記憶體空間，有效降低資源消耗，同時保有優秀回應品質。

MatFormer 架構
Gemma 3n 採用 Matryoshka Transformer（MatFormer）架構，在單一模型中嵌入多個小型子模型。這些子模型可單獨進行推論，而不需啟用整個外層模型的參數，藉此降低計算成本、縮短回應時間、節能省電。

例如，E4B 模型內含 E2B 模型參數，開發者也可選擇組合中間尺寸（如 3B）的模型參數靈活應用。更多資訊請參見 MatFormer 研究論文。

條件式參數載入
如同 PLE 技術，您也可以選擇跳過某些參數載入，例如音訊或視覺參數，從而降低記憶體消耗。若裝置有足夠資源，這些參數可於執行時動態加載，使模型可因應不同設備或任務，達成更彈性的資源使用與部署效益。

Direct link: https://paste.plurk.com/show/ywtmoEbyAKwdX1h9da9S

Plurk paste