1.下载Jsoup
在官网:https://jsoup.org/ 上下载第三方库:
![在这里插入图片描述]

点击第一个进行第三方库的下载。
2.给项目/模块引入第三方库:(以idea为例)
- 打开File=>然后选择Project Structure,
- 选择Libraries,点击右上方加号,如下图所示:

- 点击加号以后选择Java,然后找到下载的Jsoup第三方库,如下图所示:

选择然后点下发OK,然后再选择要使用的项目点右下方OK,添加完成以后如下图所示,
接下来就可以编写代码了。
3爬取网站数据:.(以CSDN网站为例)
爬取企业博客部分:
提取企业博客部分的企业名称和图片,代码如下:
Document doc = Jsoup.connect("https://www.csdn.net").get();
//获得所有的标题的a标签
Elements titleElements = doc.select(".enterprise_r .item_title a");
for (Element e:titleElements){
//获得标签中的文本
String title = e.text();
System.out.println(title);
//获得a标签的超链接地址
String url = e.attr("href");
System.out.println(url);
}
运行结果:
华为云官方博客
https://blog.csdn.net/devcloud
阿里技术
https://blog.csdn.net/alitech2017
美团技术团队
https://blog.csdn.net/MeituanTech
巨杉数据库技术社区
https://blog.csdn.net/SequoiaDB_Official
千锋教育
https://blog.csdn.net/GUDUzhongliang
百度大脑
https://blog.csdn.net/weixin_45449540
这样,我们就运用了jsoup对CSDN数据的爬取。
版权声明:本文为qq_45942412原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。