色婷婷88I91丨九色丨国产丨护士I久久本道I色道久久I久久色AI国产精品成人久久久久I久久A18I国产精品视频久久久久久I少妇愉情理伦片高潮日本I91丨九色丨蝌蚪丨成人I91久无套直看片红桃I色哟哟avI91精品91久久久777777

爬蟲采集器Xpath常見語法使用詳細教程

主題：爬蟲 html xpath語法采集

XPath語法在簡數采集器中是定位獲取頁面HTML標簽或者標簽中的內容。（需要懂點HTML代碼知識，重點看第4和第5章）

1. /--選擇對應的子標簽

例子：/html/body/p/a

上面xpath路徑意思是獲取html標簽下的子標簽body，body下的子標簽p，p下的子標簽a，獲取結果是對應下圖的第10行a標簽；

2. // --選擇對應的子孫標簽，即不考慮嵌套位置

例子：/html/body/p//a

上面xpath路徑意思是獲取html標簽下的子標簽body，body下的子標簽p，p下的所有標簽a，獲取結果是對應下圖的第10行和12行的a標簽；

3. [數字]--選取第幾個標簽

例子：/html/body/p/a[2]

上面xpath路徑意思是獲取html標簽下的子標簽body，body下的子標簽p，p下的第二個標簽a，獲取結果是對應下圖的第11行的a標簽；

4. //*[@屬性="值"]--選取屬性對應的標簽(重點)

@后面常填寫id或者class屬性，若能在頁面找到對應的id屬性更好，因為id屬性在頁面是唯一的值，即一個id值只能出現一次；

例子：//*[@id="main"]

上面xpath路徑意思是獲取頁面中id屬性值為main的標簽，不管嵌套關系了，直接定位到對應屬性值的標簽，十分快捷方便，獲取結果是對應下圖的第14行的a標簽；

如果不用屬性來定位，就得寫成 /html/body/div/p/a ；

5. 在簡數采集器為例：

I、打開詳情提起器，點擊【打開網頁】

II、打開查看html代碼界面

III、查找有沒對應正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

大部分爬蟲都是使用xpath作為規則提取，屬于通用規則，市面大部分采集器都支持xpath。

色婷婷88I91丨九色丨国产丨护士I久久本道I色道久久I久久色AI国产精品成人久久久久I久久A18I国产精品视频久久久久久I少妇愉情理伦片高潮日本I91丨九色丨蝌蚪丨成人I91久无套直看片红桃I色哟哟avI91精品91久久久777777

爬蟲采集器Xpath常見語法使用詳細教程

1. /--選擇對應的子標簽

2. // --選擇對應的子孫標簽，即不考慮嵌套位置

3. [數字]--選取第幾個標簽

4. //*[@屬性="值"]--選取屬性對應的標簽(重點)

5. 在簡數采集器為例：

I、打開詳情提起器，點擊【打開網頁】

II、打開查看html代碼界面

III、查找有沒對應正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

推薦采集經驗知識

最新經驗知識

色婷婷88I91丨九色丨国产丨护士I久久本道I色道久久I久久色AI国产精品成人久久久久I久久A18I国产精品视频久久久久久I少妇愉情理伦片高潮日本I91丨九色丨蝌蚪丨成人I91久 无套直看片红桃I色哟哟avI91精品91久久久777777

爬蟲采集器Xpath常見語法使用詳細教程

1. /--選擇對應的子標簽

2. // --選擇對應的子孫標簽，即不考慮嵌套位置

3. [數字]--選取第幾個標簽

4. //*[@屬性="值"]--選取屬性對應的標簽(重點)

5. 在簡數采集器為例：

I、打開詳情提起器，點擊【打開網頁】

II、打開查看html代碼界面

III、查找有沒對應正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

推薦采集經驗知識

最新經驗知識

色婷婷88I91丨九色丨国产丨护士I久久本道I色道久久I久久色AI国产精品成人久久久久I久久A18I国产精品视频久久久久久I少妇愉情理伦片高潮日本I91丨九色丨蝌蚪丨成人I91久无套直看片红桃I色哟哟avI91精品91久久久777777