香港大約七成網站使用 Cloudflare,而 Cloudflare 預設啟用「AI Scrapers and Crawlers」封鎖功能,這意味着絕大多數香港網站在不知情下已將 ChatGPT、Perplexity、Google Gemini 等 AI 搜尋引擎完全拒諸門外。若你的網站正在運行 Cloudflare 而未曾手動調整 Bot Management 設定,AI 搜尋引擎極可能根本無法抓取你的內容,你的 AEO 投入可以說是全部落空。
為何 Cloudflare 預設會封鎖 AI 爬蟲?
Cloudflare 在 2023 年底推出「AI Scrapers and Crawlers」保護功能,初衷是讓網站擁有者控制 AI 公司(如 OpenAI、Anthropic、Google DeepMind)是否可以抓取其內容用於模型訓練。啟用此功能後,帶有已知 AI 爬蟲 User-Agent 的 HTTP 請求會被 Cloudflare 邊緣節點返回 403 或 CAPTCHA 挑戰,令爬蟲無法正常存取頁面。
問題在於:同一批 AI 爬蟲,包括 GPTBot、PerplexityBot、ClaudeBot、Google-Extended、Bytespider 等,既用於訓練大型語言模型,亦是 ChatGPT Browse、Perplexity、Google AI Overview 等生成式搜尋工具實時抓取並引用答案的基礎設施。封鎖訓練爬蟲的同時,實際上也封鎖了 AI 搜尋引擎在回答用戶問題時對你網站的即時引用能力。
這不是 Cloudflare 的錯誤,而是一個需要網站管理員主動決策的設定——但香港市場普遍缺乏這方面的意識,大多數網站從未更動過這個預設開關。
如何在 Cloudflare Dashboard 檢查你的 AI 爬蟲設定
以下是在 Cloudflare 管理後台逐步查看現有封鎖狀態的方法:
第一步:登入 Cloudflare Dashboard 前往 dash.cloudflare.com 並選擇你要檢查的域名。
第二步:進入 Security → Bots 在左側導航欄選擇「Security」,然後點選「Bots」子選項。你會看到「Bot Fight Mode」以及更進階的「Bot Management」(需要 Business 或 Enterprise 計劃)。
第三步:查看「AI Scrapers and Crawlers」選項 在 Bot 設定頁面,向下捲動找到「AI Scrapers and Crawlers」部分。這裏會顯示目前的設定:「Allow」(允許)或「Block」(封鎖)。若顯示「Block」,則你的網站正在拒絕所有已知 AI 爬蟲。
第四步:用 Bot Analytics 確認實際流量 在同一頁面點選「Analytics」標籤,篩選 Bot 類型為「AI Scrapers」,查看過去 30 日有多少 AI 爬蟲請求被攔截。這個數字可以幫助你評估封鎖的實際規模。
若你使用的是 Cloudflare 免費或 Pro 計劃,部分進階 Bot Management 功能可能受限,但「AI Scrapers and Crawlers」的基本開關在所有計劃均可使用。
15 個主要 AI 爬蟲 Allowlist 清單
如果你決定允許 AI 搜尋引擎抓取你的網站,建議以精確的 User-Agent 字串方式建立 Allowlist,而非直接關閉整個 AI 爬蟲封鎖功能。以下是目前主要 AI 平台使用的爬蟲識別名稱:
| AI 平台 | 爬蟲名稱 | 備註 |
|---|---|---|
| OpenAI ChatGPT | GPTBot | 用於訓練及 Browse |
| OpenAI ChatGPT | ChatGPT-User | 實時瀏覽引用 |
| Perplexity | PerplexityBot | 搜尋索引及引用 |
| Google Gemini | Google-Extended | AI 功能抓取 |
| Google AI Overview | Googlebot | 同主搜尋共用 |
| Anthropic Claude | ClaudeBot | 知識庫更新 |
| Meta AI | meta-externalagent | Meta 產品引用 |
| Microsoft Copilot | Bingbot | 與 Bing 搜尋共用 |
| You.com | YouBot | 生成式搜尋 |
| Cohere | cohere-ai | 企業 AI 工具 |
| AI2 / Semantic Scholar | Semanticscholar | 學術 AI 引用 |
| Bytedance | Bytespider | TikTok 相關 AI |
| Applebot | Applebot-Extended | Apple Intelligence |
| DuckDuckGo | DuckAssistBot | DuckAssistAI |
| Brave Search | BraveBot | Brave AI 功能 |
建議在 Cloudflare WAF 的「Custom Rules」或「Tools → Managed Rules」中,對上述 User-Agent 新增「Skip」或「Allow」動作,而非全域關閉封鎖——這樣可以同時保留對其他惡意爬蟲的防護。
想了解如何系統性地提升網站在 AI 搜尋中的能見度,可參考 [HKINT 答案引擎優化(AEO)技術優化](/aeo) 的完整技術框架。
cloudflare 封鎖 ai 爬蟲點檢查:實際驗證方法
除了查看 Dashboard 設定外,你還可以用以下方法主動驗證 AI 爬蟲是否能成功存取你的網站:
方法一:模擬 User-Agent 測試 在伺服器終端使用 curl 模擬 GPTBot 存取: ``` curl -A "GPTBot/1.1" https://你的域名.com/ -I ``` 若返回 HTTP 200,代表允許;若返回 403 或 302(重定向至 CAPTCHA),代表被封鎖。
方法二:檢查 robots.txt 前往 `https://你的域名.com/robots.txt`,確認是否有以下封鎖指令: ``` User-agent: GPTBot Disallow: / ``` 若有此設定,即使 Cloudflare 放行,爬蟲仍會遵守 robots.txt 指引而不抓取。robots.txt 與 Cloudflare 的封鎖是兩個獨立層面,兩者均需要檢查。
方法三:在 AI 搜尋引擎中手動測試 在 Perplexity 或 ChatGPT 中輸入:「請告訴我關於 [你的域名].com 的資訊」。若 AI 能準確引用你網站的近期內容,代表爬蟲能夠存取;若只返回非常舊的資訊或完全不知道你的網站,則可能存在封鎖問題。
開放 AI 爬蟲之前需要考量的事項
決定允許 AI 爬蟲前,以下幾點值得評估:
內容版權風險:允許 AI 爬蟲抓取,意味着你的內容可能被用於 AI 模型訓練。若你的網站有原創研究、獨家資料或商業敏感內容,需權衡「被 AI 引用帶來的曝光」與「內容被用於訓練的版權問題」。
選擇性開放:你可以透過 robots.txt 只開放特定目錄給 AI 爬蟲,例如只允許抓取部落格文章,但禁止抓取客戶資料或付費內容區域。
分離訓練與引用:目前 Cloudflare 的設定無法精確區分「用於訓練」與「用於實時引用」的爬蟲請求,兩者往往使用相同的 Bot 身份。這是業界尚未解決的技術問題。
監控引用效果:開放後,定期使用 Cloudflare Bot Analytics 追蹤 AI 爬蟲流量,並在主要 AI 搜尋平台手動測試你的內容是否被引用,評估 AEO 的實際成效。
常見問題
Q:關掉 Cloudflare 的 AI 爬蟲封鎖會唔會令我網站更容易受到攻擊?
A:不會直接增加安全風險。「AI Scrapers and Crawlers」封鎖功能針對的是特定 User-Agent 的抓取行為,與 DDoS 防護、WAF 規則、SSL 加密等核心安全功能完全獨立。允許已知 AI 爬蟲不會令你的網站暴露於惡意流量,因為真正的惡意爬蟲通常會偽裝或使用未知 User-Agent,而非聲稱自己是 GPTBot。
Q:我冇用 Cloudflare,係咪就唔需要擔心 AI 爬蟲問題?
A:使用其他 WAF 或 CDN 服務的網站同樣可能存在類似的預設封鎖設定,例如 Akamai、Fastly、AWS CloudFront 都有各自的 Bot Management 功能。建議無論使用哪款防護服務,均應主動檢查是否有針對 AI 爬蟲的自動封鎖規則。此外,部分 WordPress 防護插件(如 Wordfence)也可能在 7G Firewall 規則集中封鎖 AI 爬蟲的 User-Agent。
Q:允許 AI 爬蟲之後,我的網站內容幾耐後會出現喺 ChatGPT 答案裏面?
A:這取決於各平台的索引更新頻率。Perplexity 的實時搜尋引用較快,通常幾日內即可見效;ChatGPT Browse 的更新週期則相對較長,可能需要數週。Google AI Overview 則依賴 Googlebot 的正常抓取週期,若你的網站已有良好的 GSC 索引覆蓋,開放後的效果會較為明顯。建議開放後配合結構化資料(Schema)優化,提升被正確引用的機率。
