色婷婷88I91丨九色丨国产丨护士I久久本道I色道久久I久久色AI国产精品成人久久久久I久久A18I国产精品视频久久久久久I少妇愉情理伦片高潮日本I91丨九色丨蝌蚪丨成人I91久 无套直看片红桃I色哟哟avI91精品91久久久777777

全站文檔自動采集:一個網址,全站搞定

  • 簡數采集器可快捷實現幫助文檔全自動化采集,只需輸入一個網址,即可自動沿頁面內鏈接連續采集、遍歷抓取整套文檔內容。同時支持結構化數據輸出,可直接用于 AI 知識庫搭建、AI 智能體訓練等場景。體訓練等場景。
  • 本方案特別適用于采集各類網站的文檔資料,如:幫助中心、開發手冊、使用教程、用戶操作指南等。

只需三步操作,輕松完成文檔采集:

1. 創建并配置采集任務

此步驟配置單網頁內容采集規則(標題、正文等),作為后續循環采集整套文檔的 “樣板” 。

1)新建任務

在簡數控制臺,點擊【+創建采集任務(高級模式:表格|零散|Json |無限循環)】 采集模式選擇【詳情頁(單網頁:零散、批量或無限循環)】 填寫任務名稱,輸入文檔的任意一個網址(如 https://doc.keydatas.com/) 保存,進入詳情提取器配置采集規則。



2)配置采集規則

在詳情提取器的可視化窗口,只需用鼠標點選目標內容,即可簡單快捷完成采集規則配置,完全不用編寫代碼!

可根據需求自定義添加、修改或刪除字段,常用字段有:title(標題)、content(正文)、pubDate(時間)、tag(標簽)等。


詳細使用說明可查看《詳情提取器-內容采集規則配置教程》。

2. 設置無限循環采集,遍歷整套文檔

開啟無限循環采集功能:系統在采集詳情頁內容時,會自動提取頁面中的關聯鏈接(如"上/下一篇" 或 "上/下一頁"),并將其加入采集隊列,以此實現一頁接一頁的循環采集,直至整套文檔全部采集完成。

1)啟用無限循環采集功能

在詳情頁提取器,打開【無限循環啟用配置】,勾選【啟用無限循環采集】,其余配置通常保持默認即可,保存。


2)選取循環采集的關聯鏈接

點擊開啟【無限點選開關】,在可視化窗口中,點選頁面內的關聯鏈接區域(如"下一篇" 或 "下一頁"等按鈕),保存。


3)啟動采集并查看結果

返回任務基本信息頁,點擊【啟動采集】,采集過程中可關閉頁面與電腦,簡數全程云端運行無需掛機。

采集結果如下圖所示:



3. 數據導出與場景應用

簡數提供多種數據導出與推送方式:開放接口API(JSON格式)自定義Http接口數據庫各類CMS網站系統(wordpress、zblog等)、以及導出文件(Excel、Sql、Word、Txt等),方便用戶將數據應用到各種場景。

AI 知識庫應用示例:將采集的文檔數據導出為 TXT 文件,上傳至扣子(Coze)等 AI 平臺的專屬知識庫中,即可直接供 AI 智能體調用。