使用Jsoup爬虫爬取内容

1.下载Jsoup

在官网：https://jsoup.org/ 上下载第三方库：
![在这里插入图片描述]

点击第一个进行第三方库的下载。

2.给项目/模块引入第三方库：（以idea为例）

打开File=>然后选择Project Structure,
选择Libraries,点击右上方加号，如下图所示：
点击加号以后选择Java，然后找到下载的Jsoup第三方库，如下图所示：

选择然后点下发OK，然后再选择要使用的项目点右下方OK，添加完成以后如下图所示，
接下来就可以编写代码了。

3爬取网站数据：.（以CSDN网站为例）

爬取企业博客部分：
在这里插入图片描述
提取企业博客部分的企业名称和图片，代码如下：

Document doc = Jsoup.connect("https://www.csdn.net").get();

        //获得所有的标题的a标签
        Elements titleElements = doc.select(".enterprise_r .item_title a");
        for (Element e:titleElements){
            //获得标签中的文本
            String title = e.text();
            System.out.println(title);

            //获得a标签的超链接地址
            String url = e.attr("href");
            System.out.println(url);
        }

运行结果：

华为云官方博客
https://blog.csdn.net/devcloud
阿里技术
https://blog.csdn.net/alitech2017
美团技术团队
https://blog.csdn.net/MeituanTech
巨杉数据库技术社区
https://blog.csdn.net/SequoiaDB_Official
千锋教育
https://blog.csdn.net/GUDUzhongliang
百度大脑
https://blog.csdn.net/weixin_45449540

这样，我们就运用了jsoup对CSDN数据的爬取。

原文链接：https://blog.csdn.net/qq_45942412/article/details/107934077