python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url
首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑
于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组
import requests
from bs4 import BeautifulSoup
def getItemUrl(url):
r = requests.get(url)
soup = BeautifulSoup(r.content,'html.parser')
try:
tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')]
href = []
for h in tmpHref:
if h != None:
href.append('http:'+h.get('href'))
except:
href = [url]
return href
if __name__ == '__main__':
for item in getPage('http://item.jd.com/1076647290.html'):
print item
#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的另外beautifulsoup的一些常用函数
- find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)
get() :一般用于获取当前标签下的某项属性
例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url
版权声明:本文为richlaji原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。