java实现简单爬虫功能

以下是一个简单的Java网络爬虫代码示例,它使用Jsoup库来解析HTML页面并提取信息。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class WebCrawler {

    public static void main(String[] args) throws IOException {
        // 设置需要爬取的网页链接
        String url = "https://www.example.com";
        // 使用Jsoup连接到指定的网页
        Document doc = Jsoup.connect(url).get();
        // 获取页面中的所有超链接
        Elements links = doc.select("a[href]");
        // 遍历每个链接并输出链接的文本和URL
        for (Element link : links) {
            String linkText = link.text();
            String linkUrl = link.absUrl("href");
            System.out.println(linkText + ": " + linkUrl);
        }
    }

}

这个示例爬取了指定网页的所有超链接,并输出每个链接的文本和URL。在实际应用中,网络爬虫可能需要处理更复杂的页面结构和数据提取需求,需要根据具体情况进行相应的代码编写。


版权声明:本文为q7w8e9r4原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。