Appearance
Apify 是一個 雲端 Web Scraping 與瀏覽器自動化平台,主要用來:
抓取網站資料(Web Scraping)
自動化瀏覽器操作(Browser Automation)
建立資料管道(Data pipelines)
執行爬蟲與 bot
很多人會用它來抓:
- Google Maps 商家資料
- 電商商品資訊
- 社群平台內容
- 房地產資料
- 招聘網站
1️⃣ 核心概念:Actor
Apify 的程式叫做 Actor。
Actor 可以是:
- 爬蟲 (Crawler)
- 自動化 script
- API service
- AI agent
通常用 JavaScript / Node.js 寫。
例如:
javascript
import { Actor } from 'apify';
await Actor.init();
const input = await Actor.getInput();
console.log(input);
await Actor.exit();Actor 可以:
- 在 Apify Cloud 執行
- 定時排程
- 透過 API 呼叫
2️⃣ 底層技術
Apify 主要是基於:
- Playwright
- Puppeteer
- Node.js
所以其實就是把:
爬蟲 + Browser automation + 雲端運行
整合成一個平台。
3️⃣ Apify Store
Apify 有一個 Actor Store,裡面有很多現成爬蟲:
例如:
- Google Maps Scraper
- Instagram Scraper
- Amazon Scraper
- LinkedIn Scraper
- TikTok Scraper
通常只要填:
keyword: restaurant
location: taipei就會輸出:
name
address
rating
phone
website4️⃣ API 呼叫
Apify 的 Actor 可以用 API 呼叫:
POST https://api.apify.com/v2/acts/{actorId}/runs回傳資料可以是:
- JSON
- CSV
- Excel
5️⃣ 常見用途
很多公司用 Apify 做:
資料收集
- 市場分析
- 競品價格
- SEO data
AI / LLM
抓資料餵給:
- OpenAI
- Anthropic
做 RAG dataset。
6️⃣ 跟 Playwright 的差別
你剛剛提到 Playwright,其實關係是:
| 工具 | 用途 |
|---|---|
| Playwright | 瀏覽器自動化 library |
| Apify | 雲端爬蟲平台 |
簡單說:
Playwright = 引擎
Apify = 平台Apify 幫你解決:
- proxy
- anti-bot
- scaling
- queue
- storage
- scheduling
7️⃣ 跟你剛剛問的 Lightpanda 很像
如果你在研究:
- Lightpanda
- Playwright
- scraping
那 Apify 其實是上一層平台。
架構通常會是:
Apify Actor
↓
Playwright
↓
Browser (Chrome / Lightpanda)
↓
Website✅ 一句話版本
Apify = 「雲端版 Playwright / Puppeteer 爬蟲平台」