爬虫基础之一：XPath插件语法及使用

XPath插件语法及使用

最近在学习爬虫相关的知识，对于网页标签选取，google浏览器的插件xpath很好用，在此分享给大家。

1. 在浏览器上面安装xpath插件

在浏览器的扩展程序中搜索xpath，选择第一个安装，安装成功如下图所示：
在这里插入图片描述

2. XPath使用

2.1 XPath路径表达式

路径表达式	描述
/div	从根节点开始选取div节点
//a	选取文档中所有a节点而不考虑位置
@class	选取名为class的属性
.	选取当前节点
…	选取当前节点的父节点
/div/a	从根节点开始选取div节点下的a节点
/div/a[2]/img	从根节点开始选取div节点下的第二个a节点下的img节点
//div[@class=‘header-wrapper’]	选取所有属性class的值为header-wrapper的div节点
//*	选取文档中的所有元素
//@*	选取文档中所有带属性的元素
/div/p/text()	选取p节点的文本内容
//div[contains(@class,“post”)]	选取带有class属性且包涵“post”的所有div节点，取反//div[not(contains(@class,“post”))]
/div/p[last()-1]	选取div下倒数第二个p节点
/div/p[position()>1]	选取div下第二个p节点后的所有兄弟节点
/div/a\|div/p	选取div下的a节点和div下的p节点

归纳来自于：https://www.imooc.com/video/22764

2.2 例子

我们采用http://www.ruiwen.com/wenxue/wangzengqi/58200.html此网页作为例子示范

e.g.1 目标是利用xpath找到下图时间的内容
在这里插入图片描述
语法如图来定位
e.g.2 目标是找到下图所示文字
方括号的数字标识兄弟节点在文档中出现的先后顺序（以数字1开始）
e.g.3 获取所有属性class的值为‘time’的div节点

希望对大家有帮助啊
继续愉快学习，涂涂努力ing！

原文链接：https://blog.csdn.net/qq_40763548/article/details/119599053