AI Note | AI Note

Skip to content

Appearance

Sidebar Navigation

根目錄

地端 LLM

技術詞彙

甲方v.s.乙方軟體工程師職位 GASv.s.gog multi-modal overview POCO SBE TDD&BDD

AutoTesting

Codex

Copilot

AutopilotoverviewCustomAgentoverview code-review overview ToolCalling

Gemini

MCP

NanoBanana

去除浮水印 prompt

PlanMode-&-SDD

PlanModeoverviewSDDBrownField constitution openspec overview prompt overview

public

Skill

UIUX

VibeCoding

On this page

Table of Contents for current page

什麼是「多模態」(Multi-modal)？

在圖中最後一行 Gemini 2.5 Flash TTS 被歸類為 Multi-modal generative models。

「多模態」是指 AI 系統能夠同時處理和理解多種不同類型的數據（模態），而不僅僅是文字。

1. 傳統 AI vs. 多模態 AI

單模態 (Unimodal): 只能處理一種數據。例如：早期的聊天機器人只能讀文字；語音識別軟體只能聽聲音。
多模態 (Multimodal): 像人類一樣，可以同時「看、聽、讀、說」。Gemini 就是典型的原生多模態模型。

2. 常見的模態組合

文字 + 圖片: 你給 AI 一張照片，問它「這張圖裡的菜怎麼煮？」。
文字 + 影片: 你上傳一段監視器影片，問它「小偷是什麼時候進來的？」。
文字 + 音訊 (Audio): 如圖中的 TTS (Text-to-Speech)，這代表模型具備處理語音的能力，可以將文字直接生成自然的語音，或者理解語音內容。
程式碼: 處理邏輯語言。

3. 為什麼多模態很重要？

多模態讓 AI 的理解更接近現實世界。例如，它能理解一張梗圖（Meme）之所以好笑，是因為它結合了「圖片裡的表情」與「文字裡的諷刺」，如果只看文字，AI 就無法體會其中的幽默。

Previous pageGASv.s.gog

Next pageoverview