我试图在Twitter上进行屏幕抓取,我正在使用Jsoup库,这是该页面的html代码示例:
我首先尝试做的是获取网页中li标签的所有ID,然后在循环中使用它们以获取每个li标签内的文本。
我想要的结果是:
id1 = stream-item-tweet-692459333712347137
id2 = stream-item-tweet-692489785978523648
id3 = stream-item-tweet-692489785978523648
我尝试过像Jsoup一样的东西,但它不起作用:
Elements scriptElements = doc.getElementsByTag("li");
for (Element element :scriptElements ){
for (DataNode node : element.dataNodes()) {
System.out.println(node.getWholeData());
}
}
谢谢!