Skip to content

Apify 是一個 雲端 Web Scraping 與瀏覽器自動化平台,主要用來:

  • Skills

  • 抓取網站資料(Web Scraping)

  • 自動化瀏覽器操作(Browser Automation)

  • 建立資料管道(Data pipelines)

  • 執行爬蟲與 bot

很多人會用它來抓:

  • Google Maps 商家資料
  • 電商商品資訊
  • 社群平台內容
  • 房地產資料
  • 招聘網站

1️⃣ 核心概念:Actor

Apify 的程式叫做 Actor

Actor 可以是:

  • 爬蟲 (Crawler)
  • 自動化 script
  • API service
  • AI agent

通常用 JavaScript / Node.js 寫。

例如:

javascript
import { Actor } from 'apify';

await Actor.init();

const input = await Actor.getInput();
console.log(input);

await Actor.exit();

Actor 可以:

  • 在 Apify Cloud 執行
  • 定時排程
  • 透過 API 呼叫

2️⃣ 底層技術

Apify 主要是基於:

  • Playwright
  • Puppeteer
  • Node.js

所以其實就是把:

爬蟲 + Browser automation + 雲端運行

整合成一個平台。


3️⃣ Apify Store

Apify 有一個 Actor Store,裡面有很多現成爬蟲:

例如:

  • Google Maps Scraper
  • Instagram Scraper
  • Amazon Scraper
  • LinkedIn Scraper
  • TikTok Scraper

通常只要填:

keyword: restaurant
location: taipei

就會輸出:

name
address
rating
phone
website

4️⃣ API 呼叫

Apify 的 Actor 可以用 API 呼叫:

POST https://api.apify.com/v2/acts/{actorId}/runs

回傳資料可以是:

  • JSON
  • CSV
  • Excel

5️⃣ 常見用途

很多公司用 Apify 做:

資料收集

  • 市場分析
  • 競品價格
  • SEO data

AI / LLM

抓資料餵給:

  • OpenAI
  • Anthropic

做 RAG dataset。


6️⃣ 跟 Playwright 的差別

你剛剛提到 Playwright,其實關係是:

工具用途
Playwright瀏覽器自動化 library
Apify雲端爬蟲平台

簡單說:

Playwright = 引擎
Apify = 平台

Apify 幫你解決:

  • proxy
  • anti-bot
  • scaling
  • queue
  • storage
  • scheduling

7️⃣ 跟你剛剛問的 Lightpanda 很像

如果你在研究:

  • Lightpanda
  • Playwright
  • scraping

Apify 其實是上一層平台

架構通常會是:

Apify Actor

Playwright

Browser (Chrome / Lightpanda)

Website

一句話版本

Apify = 「雲端版 Playwright / Puppeteer 爬蟲平台」