一項針對 Duda 平台上 858,457 個網站的最新分析揭示了 AI 爬蟲如何大規模地與網站互動。這些數據清楚地展現了爬蟲活動的成長趨勢,以及 SEO 人員和企業應如何提升來自 AI 搜尋流量。

AI爬蟲技術已達到規模化應用階段

人工智慧爬蟲技術發展迅猛,越來越多的請求與即時回應掛鉤,而這些請求大多來自同一家服務提供者。數據揭示了哪些網站正在被爬取,更重要的是,爬取的原因。

法學碩士轉診量年增

過去一年,LLM 的推薦流量大幅成長,多個平台從截然不同的起點出發,都取得了顯著的成長。

人工智慧推薦流量模式

  • 法學碩士(LLM)轉診總數:93,484 例增至 161,469 例(+72.7%)
  • ChatGPT:從 81,652 增加到 136,095(+66.7%)
  • 克勞德:從 106 成長到 2,488(成長 23 倍)
  • 副駕駛:22 至 9,560(從接近零開始)
  • 困惑度:11,533 至 13,157 (+14.1%)

成長並非均衡發生,但總體而言,來自人工智慧系統的推薦流量正在增加。這使得人工智慧產生的發現已成為日益增長的流量來源,而非邊緣來源。

爬蟲程式越來越多地抓取內容以尋找答案

AI爬蟲不再主要用於索引,現在大部分活動都與即時檢索內容以產生使用者答案有關。

現在大多數爬蟲操作都是為了回應使用者查詢,而不是為了建立索引,這改變了內容的存取和使用方式。

  • 用戶獲取(即時答案):佔所有爬蟲活動的 56.9%,幾乎完全由 ChatGPT 驅動。
  • 訓練(模型學習):28.8%,分別由 GPTBot 和其他模型爬蟲完成。
  • 發現(內容索引):14.3%,分佈在多個系統中
  • ChatGPT 用戶獲取量:約 3,980 萬次訪問

這些趨勢主要由 ChatGPT 驅動,它幾乎承擔了所有即時檢索活動。這意味著基於答案的爬蟲模式並非均勻分佈,而是集中在一個平台上,從而影響內容的存取方式。隨著Google推出新的Google Agent 爬蟲,這一趨勢可能會改變。

人工智慧爬蟲的市場集中度

AI 爬蟲活動高度集中,OpenAI 承擔了絕大多數請求,這反映出它是使用者尋找和檢索資訊的主要工具的地位。

  • OpenAI:5580萬次訪問(81.0%)
  • 人類學(克勞德):1150萬(16.6%)
  • 困惑度:130萬(1.8%)
  • Google(Gemini):380,000 (0.6%)

大部分AI爬蟲活動來自OpenAI,這與ChatGPT作為尋找和檢索資訊的主要工具的角色相符。 Claude的份額則小得多,表明其使用模式有所不同,而其他平台在爬蟲活動中佔比極小。

規模及其真正意義

人工智慧爬蟲技術已經涵蓋了互聯網的大部分區域,每月訪問數十萬個網站,產生數千萬次請求。

資料集中超過一半的網站至少收到過一次 AI 爬蟲訪問,這表明這種活動並不局限於一小部分網站。

  • 分析的站點總數:858,457
  • 至少被人工智慧爬蟲造訪過一次的網站:506,910 個(59%)
  • 人工智慧爬蟲總訪問量(2026年2月):6,890萬

人工智慧爬蟲並非僅限於高知名度或高流量網站。它已經非常普遍,在互聯網的大部分區域都有持續的活動。

爬蟲與真實流量之間的關係

允許人工智慧系統持續抓取的網站在多個指標上都表現出更強的用戶參與度。

數據實際顯示的是:

  1. 允許人工智慧爬蟲的網站會獲得更多的人類流量。
  2. 流量較高的網站更容易被搜尋引擎抓取。

允許人工智慧系統抓取的網站獲得的人類訪問量顯著高於不允許抓取的網站,平均每次訪問量為 527.7 次,而不允許抓取的網站平均每次訪問量僅為 164.9 次。這雖然不能證明因果關係,但清楚地表明了吸引人類訪客的網站與人工智慧系統對其的訪問頻率之間存在關聯。

  • 平均人類流量(AI爬取 vs. 未爬取):527.7 vs 164.9(高出3.2倍)
  • 平均表格完成次數:4.17 比 1.57(高出 2.7 倍)
  • 平均點擊通話次數:8.62 對比 3.46(高出 2.5 倍)
  • 造訪量超過 1 萬次的網站:抓取率達 90.5%。

人工智慧系統並非在發掘那些低迷或不活躍的網站並提升它們的排名,而是會重新關注那些已經吸引到真實用戶的網站。對於行銷人員而言,這意味著他們將重心從「如何被抓取」轉移到建立真正的用戶需求上,因為人工智慧系統的可見性似乎也與此相關。

哪些因素與更多的爬行有關

該研究比較了包含特定第三方整合、結構化功能和內容深度的網站與不包含這些功能的網站,並找出哪些因素對 AI 爬蟲活動和推薦最為重要。

在整個資料集中,59% 的網站在 2026 年 2 月至少被 AI 爬蟲造訪過一次。被爬取次數較多的網站往往結合了三種類型的訊號:外部整合、結構化業務資料和內容深度。

1. 外部整合

這些整合將網站連接到外部系統,用於驗證和分發業務資訊。

  • Yext 整合:抓取率從未整合時的約 58% 提升至 97.1%(提升 38.9 個百分點)
  • 評論整合:抓取率提升至 89.8%,而未整合時為 58.8%,平均爬蟲訪問量為 376.9 次。

與外部資料和評論系統連接的網站會被更頻繁、更廣泛地抓取,這表明人工智慧系統依賴這些整合作為訊號,來判斷一個企業是否真實、可驗證且值得再次訪問。

2. 結構化網站功能和業務數據

這些功能內建於網站中,可協助人工智慧系統理解和驗證企業身分。

  • Google商家資料同步:抓取率提升至92.8%,而未同步時為58.9%;平均爬蟲造訪量為415.6次。
  • 本地模式:72.3% 對比 55.2%(+17.1個百分點),採用率為 22.3%。
  • 動態頁:69.4% 對比 58.2%(+11.2個百分點)
  • 電子商務:54.2% 對比 59.2%(下降 5.0 個百分點)

那些明確定義其業務身份並以機器可讀的方式建立資訊的網站更容易被抓取,這表明人工智慧系統更喜歡它們可以輕鬆解釋、驗證和從中提取資訊的網站。

3. 內容深度(可用資料量)

內容更豐富的網站為人工智慧系統提供了更多檢索、引用和重複使用資訊以產生回應的機會。

  • 擁有 50 篇以上部落格文章的網站:平均爬蟲訪問量為 1,373.7 次,而沒有部落格的網站平均爬蟲訪問量為 41.6 次(高出約 33 倍)。

內容較多的網站被抓取的頻率要高得多,這表明人工智慧系統在產生答案時可能會返回到提供更多可用資訊的來源。

本地商家資訊架構完整性 = 更多抓取次數

本研究的這一部分專門關注本地商家資訊架構,比較了用於傳達商家詳細資訊的架構實現完整性與人工智慧爬蟲活動之間的關係。衡量的欄位包括商家名稱、電話號碼、地址、營業時間和社群媒體帳號。

  • 無本地模式欄位:抓取率 55.2%
  • 已完成 10-11 個模式欄位:抓取率 82%
  • 本地架構更完整的網站的抓取率高出 26.8 個百分點(82% 對比 55.2%)。

提供更完整、結構化本地商家資訊的網站會被搜尋引擎更頻繁地抓取,並獲得更多的訪問量。隨著填寫欄位的增多,抓取率和抓取頻率都會提高。

數據顯示,明確定義的本地商業數據使 AI 系統更容易識別、驗證和隨後重新訪問網站,這些都是從 AI 搜尋獲得流量的先決條件。

重點總結

AI爬蟲是一種並行的內容髮現方法,研究表明,爬蟲訪問最多的網站具有明顯的模式。

  • 人工智慧爬蟲技術與傳統搜尋技術並行運作,改變了內容的存取和再利用方式。
  • 具有結構化本地訊號、更豐富的內容和更完整的模式的網站會被抓取得更頻繁。
  • 多個強化訊號同時出現在同一位點,而不是孤立出現。
  • 數據顯示的是方向而非因果關係,但模式是一致的。

數據顯示,那些便於人工智慧爬蟲索引和造訪的網站往往表現較佳。有趣的是,那些提供清晰、結構化且可驗證訊息,同時持續提升真實用戶需求的網站,更有可能被人工智慧系統再次訪問,並從人工智慧搜尋帶來的流量中獲益。