llms.txt 是一個放喺網站根目錄的純文字檔案,用途係向大型語言模型(LLM)——例如 ChatGPT、Perplexity、Claude——提供一份結構化的網站內容摘要,令 AI 在生成答案時更容易理解你網站的核心主題、重要頁面及授權範圍。它不取代 robots.txt,而是在 AI 搜尋時代補充一層機器可讀的網站說明書。
llms.txt 是什麼?由來同基本概念
llms.txt 的構想最初由 AI 工具開發社群在 2024 至 2025 年間逐漸成形,核心動機非常直接:傳統 robots.txt 是為搜尋引擎爬蟲而設,告知爬蟲哪些頁面可以抓取;而 sitemap.xml 則是一份頁面索引清單。但這兩種格式對 AI 語言模型來說資訊量都太有限——它們無法告訴模型「哪一頁對你的問答最有用」、「這個網站的主要權威話題是什麼」。
llms.txt 因此填補了這個缺口。它是一份 Markdown 格式的文件,通常放在 `https://yourdomain.com/llms.txt`,內容可以包含:
- 網站的一句話介紹(who you are)
- 最重要的頁面列表,附帶說明(what matters most)
- 網站的主要主題範疇
- 對 AI 使用內容的授權或限制說明
格式故意保持簡潔,令語言模型能夠直接讀取並納入上下文視窗,在生成引用時優先參考這些頁面。
llms.txt 同 robots.txt 有咩本質分別?
很多網站管理者最初的疑問都是:「我已有 robots.txt,仲需要 llms.txt 嗎?」兩者功能完全不同,需要分開理解。
robots.txt 的作用是透過規則(Allow/Disallow)告訴爬蟲哪些 URL 可以抓取、哪些要跳過。它是一個「訪問控制」層,針對所有自動化機器人,包括 Googlebot、Bingbot,以及各 AI 公司的訓練爬蟲(如 GPTBot、ClaudeBot、PerplexityBot)。
llms.txt 的作用則完全不同——它是一份「內容導讀」,告訴 AI 模型在推斷式查詢(inferential query)時「你最應該參考我網站的哪些內容」。它不控制爬取行為,而是影響 AI 在生成回答時的內容選取優先序。
舉一個類比:robots.txt 是大樓保安指引(你可以入哪道門),llms.txt 是接待處的手冊(你應該先睇哪個部門)。
此外,還有一個延伸格式 `llms-full.txt`,內容更詳盡,通常包含各重要頁面的完整正文摘要,讓 AI 在無需抓取整站的情況下也能掌握豐富內容。
llms.txt 點幫助 LLM 理解你的網站?
AI 語言模型在回答問題時,其知識來源主要有三個層面:訓練資料(固定截止日期)、即時搜尋(Retrieval-Augmented Generation,RAG)、以及使用者提供的上下文。對於依賴即時網頁搜尋的 AI(例如 Perplexity、ChatGPT 啟用 Browsing 後),llms.txt 的作用體現在以下方面:
提升引用準確度:當 AI 系統訪問你的網站尋找資料時,一份清晰的 llms.txt 有助它快速識別哪些頁面是權威內容,減少引用錯誤頁面或過時頁面的機會。
縮短上下文解析時間:部分 AI 採用輕量抓取(light crawl)再萃取內文。一個結構良好的 llms.txt 讓模型毋須深度解析整站 HTML,直接獲取精煉資訊。
建立主題關聯:當你在 llms.txt 中清晰說明「本站主攻 SEO、AEO、生成式搜尋優化等香港數碼行銷話題」,AI 在答覆相關問題時會更傾向於將你的網站視為相關來源。
如果你的網站正在布局[HKINT 答案引擎優化(AEO)服務](/aeo),加設 llms.txt 是技術基礎層之一,有助你的內容在生成式搜尋環境中提升可見度。
llms.txt 的實際格式係點?
以下是一個符合社群慣例的最基本格式範例:
```
網站名稱
> 一句話說明網站的核心定位。
重要頁面
主題範疇
SEO 優化、答案引擎優化(AEO)、生成式搜尋優化(GEO)、香港數碼行銷
授權說明
本網站允許 AI 系統基於非商業目的引用及摘要頁面內容。 ```
需要注意的是,llms.txt 目前尚無官方標準機構制定的強制規格,現有慣例來自社群共識,主要推動者包括 Answer.AI 等機構。隨著 AI 搜尋生態發展,格式可能繼續演進。核心原則是:保持 Markdown 格式、結構清晰、聚焦最重要的頁面,並盡量提供脈絡說明而非純 URL 清單。
現在就要加 llms.txt 嗎?時機同優先順序
坦白說,並非每一個網站今天立刻需要 llms.txt,但以下情況值得優先考慮:
- 你的網站以知識型、信息型內容為主(部落格、指南、服務說明)
- 你希望在 AI 問答系統(Perplexity、ChatGPT、Gemini)中被正確引用
- 你的 robots.txt 有限制部分 AI 爬蟲訪問(此時 llms.txt 的引導功能更加重要)
- 你正在實施 AEO 或 GEO 策略,需要全技術棧配合
純電商產品頁、高度本地化的頁面(例如餐廳菜單)、需要登入才能訪問的內容,llms.txt 的即時效益相對較低。
實施難度方面,llms.txt 是純靜態文字檔,任何網站架構(WordPress、Next.js、Astro 等)均可在數分鐘內部署。與 Schema 結構化標記相比,它的技術門檻極低,回報潛力卻值得關注。
常見問題
Q:llms.txt 會影響 Google 的自然搜尋排名嗎?
目前沒有證據顯示 Google 傳統搜尋演算法會讀取或考慮 llms.txt 的內容。它的主要作用對象是 AI 語言模型的檢索層,而非 Googlebot 的爬取及索引流程。若要提升 Google 排名,仍需透過 SEO 內容優化、Schema 標記、技術架構改善等傳統手段。llms.txt 是 AEO 工具,並非 SEO 工具的替代品。
Q:llms.txt 同 Schema 結構化資料點唔同,要兩個都做嗎?
兩者互補,目標對象有別。Schema(如 FAQPage、HowTo、Article)是嵌入網頁 HTML 的機器可讀標記,主要幫助 Google 的 AI Overview 及富媒體搜尋結果解析個別頁面的內容結構。llms.txt 則是網站層面的一份總覽文件,幫助語言模型在整站層面建立理解。理想情況下應兩者並行:Schema 優化個別頁面的 AI 可讀性,llms.txt 提供全站的主題脈絡。
Q:llms.txt 有無辦法阻止 AI 引用我的內容?
llms.txt 本身沒有強制阻止功能——它只是建議性文件。若要阻止特定 AI 爬蟲訓練或索引你的內容,正確做法是在 robots.txt 中明確 Disallow 對應的 User-agent(如 `GPTBot`、`ClaudeBot`),或透過 Cloudflare 的 AI Bot Protection 功能設定封鎖規則。llms.txt 的設計意圖是引導並促進 AI 理解,而非限制存取。
