只需三步操作,輕松完成文檔采集:
此步驟配置單網頁內容采集規則(標題、正文等),作為后續循環采集整套文檔的 “樣板” 。
在簡數控制臺,點擊【+創建采集任務(高級模式:表格|零散|Json |無限循環)】 → 采集模式選擇【詳情頁(單網頁:零散、批量或無限循環)】 → 填寫任務名稱,輸入文檔的任意一個網址(如 https://doc.keydatas.com/) → 保存,進入詳情提取器配置采集規則。


在詳情提取器的可視化窗口,只需用鼠標點選目標內容,即可簡單快捷完成采集規則配置,完全不用編寫代碼!
可根據需求自定義添加、修改或刪除字段,常用字段有:title(標題)、content(正文)、pubDate(時間)、tag(標簽)等。

詳細使用說明可查看《詳情提取器-內容采集規則配置教程》。
開啟無限循環采集功能:系統在采集詳情頁內容時,會自動提取頁面中的關聯鏈接(如"上/下一篇" 或 "上/下一頁"),并將其加入采集隊列,以此實現一頁接一頁的循環采集,直至整套文檔全部采集完成。
在詳情頁提取器,打開【無限循環啟用配置】,勾選【啟用無限循環采集】,其余配置通常保持默認即可,保存。

點擊開啟【無限點選開關】,在可視化窗口中,點選頁面內的關聯鏈接區域(如"下一篇" 或 "下一頁"等按鈕),保存。

返回任務基本信息頁,點擊【啟動采集】,采集過程中可關閉頁面與電腦,簡數全程云端運行無需掛機。
采集結果如下圖所示:

簡數提供多種數據導出與推送方式:開放接口API(JSON格式)、自定義Http接口、數據庫、各類CMS網站系統(wordpress、zblog等)、以及導出文件(Excel、Sql、Word、Txt等),方便用戶將數據應用到各種場景。
AI 知識庫應用示例:將采集的文檔數據導出為 TXT 文件,上傳至扣子(Coze)等 AI 平臺的專屬知識庫中,即可直接供 AI 智能體調用。

