火车头采集中内容页及标签Xpath可视化提取功能的使用



火车头采集中内容页及标签Xpath可视化提取功能的使用

新建标签,提前数据方式选择,“可视化提取”选项 ,如下图:

火车头采集中内容页及标签Xpath可视化提取功能的使用

同样点击“通过XPath浏览器获取” 按钮。

和上面获取地址一样的,输入地址,访问要采集的地址,如下图:

火车头采集中内容页及标签Xpath可视化提取功能的使用

然后点击图标开始选择,我们这里用获取标题为例说明。

火车头采集中内容页及标签Xpath可视化提取功能的使用

淡蓝色框选中标题,轻轻点击鼠标,然后测试看下是否正确。如果正确点击确定按钮。这个不像采集地址的时候需要做2遍。如果测试弹出:

火车头采集中内容页及标签Xpath可视化提取功能的使用

这个就是说明这个页面不能使用这个方式获取。

点击确定后如下图:

火车头采集中内容页及标签Xpath可视化提取功能的使用

获取这个标题的表达式就自动填写在这里了。我们测试下结果:

火车头采集中内容页及标签Xpath可视化提取功能的使用

结果是正确的。别的其他信息都可以通过这个方式获取。

有个节点属性如下图:

火车头采集中内容页及标签Xpath可视化提取功能的使用

这个是也是专业术语,大家可以查资料了解下,一般选中InnerHtml和 InnerText 就可以获取到文字信息了,需要了解更多,自行查找资料。

选择“Href”是获取链接地址,选择“OuterHtml”是获取文字和包含的html代码。大家如果不明白可以实际操作测下结果。

本文由 冰风BOKE 作者:冰风 发表,其版权均为 冰风BOKE 所有,文章内容系作者个人观点,不代表 冰风BOKE 对观点赞同或支持。如需转载,请注明文章来源。
1

发表评论