1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
https://ai.google.dev/gemma/docs/gemma-3n

Gemma 3n 模型概覽
Gemma 3n 是一款專為日常設備(如手機、筆記型電腦和平板電腦)優化的生成式 AI 模型。它採用了高效參數處理的創新技術,包括每層嵌入(PLE)參數快取,以及 MatFormer 模型架構,能靈活降低運算與記憶體需求。這些模型具備處理語音輸入、文字與視覺資料的能力。

預覽版本
Gemma 3n 目前已提供早期預覽版,您可以在 Google AI Studio 與 Google AI Edge 中試用。如同其他 Gemma 模型,Gemma 3n 採用開放權重,並以允許負責任商業用途的授權方式提供,便於您調整與部署於個人專案或應用程式中。

Gemma 3n 的主要特點包括:
語音輸入:可處理語音資料,支援語音辨識、翻譯與音訊分析。

視覺與文字輸入:多模態能力支援影像、聲音與文字整合,用於理解與分析環境。

PLE 快取:模型中的每層嵌入參數可快取至高速本地儲存,以降低記憶體消耗。

MatFormer 架構:Matryoshka Transformer 架構可根據請求選擇性啟用參數,進一步降低運算成本與回應時間。

條件式參數載入:可跳過模型中的視覺與語音參數載入,節省記憶體資源。

廣泛語言支援:訓練涵蓋超過 140 種語言,具備強大的語言處理能力。

32K token 上下文:提供大量輸入上下文,適合資料分析與任務處理。

📌 小提醒:若您想在 Android 應用中打造生成式 AI 解決方案,可參考 Gemini Nano,詳見 Android Gemini Nano 開發文件。

模型參數與有效參數說明
Gemma 3n 的模型標示參數數量(如 E2B、E4B)通常小於模型總參數數量。前綴 E 表示這些模型可採用「有效參數(Effective parameters)」模式運行,藉由模型內建的參數彈性技術,在資源受限的設備上高效執行。

Gemma 3n 的參數分為四大類:

文字參數(Text)

視覺參數(Visual)

語音參數(Audio)

每層嵌入參數(PLE)

以 E2B 模型的標準執行方式為例,約會載入超過 50 億參數。然而,透過參數跳躍與 PLE 快取技術,實際執行所需的有效記憶體參數數可壓縮至 約 19.1 億(1.91B),如下圖所示:

圖 1:Gemma 3n E2B 模型標準執行 vs 採用參數優化技術後的參數使用情況
參數效率技術說明
PLE 快取
Gemma 3n 的每層嵌入(PLE)參數可在模型執行過程中產生,提升每層運算效果。這些參數可在模型執行外部先行生成,快取至高速儲存裝置,於推論過程中按層加載至模型,使其不佔用主記憶體空間,有效降低資源消耗,同時保有優秀回應品質。

MatFormer 架構
Gemma 3n 採用 Matryoshka Transformer(MatFormer)架構,在單一模型中嵌入多個小型子模型。這些子模型可單獨進行推論,而不需啟用整個外層模型的參數,藉此降低計算成本、縮短回應時間、節能省電。

例如,E4B 模型內含 E2B 模型參數,開發者也可選擇組合中間尺寸(如 3B)的模型參數靈活應用。更多資訊請參見 MatFormer 研究論文。

條件式參數載入
如同 PLE 技術,您也可以選擇跳過某些參數載入,例如音訊或視覺參數,從而降低記憶體消耗。若裝置有足夠資源,這些參數可於執行時動態加載,使模型可因應不同設備或任務,達成更彈性的資源使用與部署效益。