當縮略圖(又稱封面圖、特色圖)只存在于列表頁,而詳情頁內沒有時,可以使用父子任務關聯采集方式,將列表頁中的縮略圖與詳情頁的內容(標題、正文等)采集合并為完整數據 。
如果縮略圖存在于詳情頁中,則應該用一個常規任務直接采集,而非更復雜的父、子兩個任務關聯采集。
配置基本流程:
父任務采集列表縮略圖 -> 子任務采集詳情內容,引用縮略圖 -> 啟動采集,自動合并數據
父任務作用:采集列表頁里每個項目的縮略圖和詳情頁網址鏈接,其中網址既是子任務的采集來源,也是兩個任務數據關聯的唯一標識。
詳細操作步驟:
在采集任務列表【創建采集任務(高級模式)】-> 采集模式選擇【列表頁|表格數據(單頁多數據)】-> 輸入任務名和列表頁網址,保存 -> 打開列表提取器配置采集規則。


打開列表提取器,連續選中兩個結構相同的數據區塊,系統便會自動識別頁面上所有相似的區塊,將每個區塊作為一條獨立數據進行采集,比如列表中的一項(或表格中一行)為一條數據。

保存,點擊【第2步:詳情提取器】按鈕進入字段規則配置。
在數據區塊中,配置要提取的縮略圖和詳情頁網址。
先配置提取列表項的詳情頁網址鏈接(必要,作為關聯標識):
點擊切換到url字段,勾上【該字段值唯一】和【只獲取網址】 -> 點選一個列表項的標題作為采集范圍 -> 數據預覽顯示對應的詳情頁網址,保存。
注意:若獲取不到網址,采集范圍改選整個列表項或者圖片,其Xpath值結尾應為a或a/kds。

切換到content字段,選擇一個列表項的縮略圖片作為采集范圍(其Xpath值結尾應為img或img/kds)-> 打開content字段數據處理,勾上【只采集圖片鏈接】,保存 -> 數據預覽顯示相應的縮略圖地址。


無需采集的字段可留空或刪除,最后務必保存(頁面右上角)。
父任務配置完成后,先不啟動運行采集,由子任務來控制觸發。
子任務根據父任務提供的網址鏈接,逐個抓取對應的詳情頁內容(如標題、正文等),并引用父任務采集的縮略圖,合并生成一條完整數據。
完整操作步驟如下:
在采集任務列表【創建采集任務(高級模式)】-> 采集模式選擇【詳情頁(單網頁:零散、批量或無限循環)】-> 輸入任務名和一個詳情頁網址(作為批量采集的樣本模板),保存 。


將父、子任務關聯起來,子任務才可獲取父任務采集的網址與數據。
在子任務基本信息處,點擊【從其它任務獲取網址】,彈出關聯父任務配置 -> 勾上【總是先運行父任務】 -> 選擇父任務和網址來源字段(即父任務的url字段,作為父子任務數據關聯合并的標識),保存。

打開詳情提取器,先照常完成詳情頁內容采集配置。
簡數采集器提供直觀可視化的操作界面,通過鼠標點選即可快速自定義采集目標內容(如標題、正文、標簽、關鍵詞等)。完整使用說明可看【詳情提取器-內容采集規則配置】。

在子任務詳情提取器添加新字段 thumb_img(舉例,可自行命名) -> 打開其字段處理配置的【高級提取】-> 提取類型選擇【從父任務獲取數據】-> 【父任務字段】選擇content 字段(前文示例父任務采集縮略圖的字段),保存。
特別注意:如需下載鏈接地址對應的縮略圖,請勾上【需下載圖片】選項,不勾選則使用源網站的圖片地址。


提示:自動定時采集、發布、圖片下載、SEO規則處理、第三方API、AI執行等操作都在子任務配置。


如需導出發送縮略圖,發送目標第二步請注意選擇對應的新字段。(無對應字段選擇解決方法)
