国产精品日本丨三级免费丨亚洲成熟少妇视频在线观看丨久久夜色撩人精品国产av丨熟女少妇内射日韩亚洲丨欧美成人日韩丨免费观看久久丨天堂在线中文在线丨免费视频爱爱太爽了丨a资源在线丨区二区三区在线 | 欧洲丨亚洲另类中文字幕丨亚洲阿v天堂丨一级少妇淫片免费观看丨久久99精品久久久久子伦

采集技巧:如何不采集非文章頁(yè)面的數(shù)據(jù)

在列表頁(yè)提取器選擇要采集的網(wǎng)址鏈接時(shí),中間夾雜著一些多余的頁(yè)面鏈接,例如欄目鏈接、廣告鏈接和標(biāo)簽鏈接等,要怎么解決?

可通過手寫Xpath值來精確選擇鏈接區(qū)域來解決。

但有個(gè)更簡(jiǎn)單的技巧,就是在詳情頁(yè)提取器使用 “采集結(jié)果不得為空” 功能,因?yàn)檫@些多余的頁(yè)面結(jié)構(gòu)排版和常規(guī)的文章頁(yè)面都不一樣,采集時(shí)就會(huì)過濾掉這些不符合采集規(guī)則的頁(yè)面。

簡(jiǎn)數(shù)采集器某個(gè)任務(wù)的詳情頁(yè)提取器,選擇或輸入正確的文章頁(yè)面配置采集規(guī)則,title 字段和 content 字段處都勾上 “采集結(jié)果不得為空”即可。

1)采集文章頁(yè)面時(shí)

title和content字段采集時(shí)都獲取到對(duì)應(yīng)的信息,系統(tǒng)就正常采集入庫(kù)這條數(shù)據(jù)。



2)采集非文章頁(yè)面時(shí)(例如廣告,列表頁(yè)面)

title或者content字段采集時(shí)沒有獲取到信息,系統(tǒng)就會(huì)過濾不入庫(kù)這條數(shù)據(jù)。