Appearance
什麼是「多模態」(Multi-modal)?
在圖中最後一行 Gemini 2.5 Flash TTS 被歸類為 Multi-modal generative models。
「多模態」是指 AI 系統能夠同時處理和理解多種不同類型的數據(模態),而不僅僅是文字。
1. 傳統 AI vs. 多模態 AI
- 單模態 (Unimodal): 只能處理一種數據。例如:早期的聊天機器人只能讀文字;語音識別軟體只能聽聲音。
- 多模態 (Multimodal): 像人類一樣,可以同時「看、聽、讀、說」。Gemini 就是典型的原生多模態模型。
2. 常見的模態組合
- 文字 + 圖片: 你給 AI 一張照片,問它「這張圖裡的菜怎麼煮?」。
- 文字 + 影片: 你上傳一段監視器影片,問它「小偷是什麼時候進來的?」。
- 文字 + 音訊 (Audio): 如圖中的 TTS (Text-to-Speech),這代表模型具備處理語音的能力,可以將文字直接生成自然的語音,或者理解語音內容。
- 程式碼: 處理邏輯語言。
3. 為什麼多模態很重要?
多模態讓 AI 的理解更接近現實世界。例如,它能理解一張梗圖(Meme)之所以好笑,是因為它結合了「圖片裡的表情」與「文字裡的諷刺」,如果只看文字,AI 就無法體會其中的幽默。