python抓取京东商品颜色&beautifulsoup的一些常用函数

python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url

首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑

于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组

import requests
from bs4 import BeautifulSoup

def getItemUrl(url):
  r = requests.get(url)
  soup = BeautifulSoup(r.content,'html.parser')
  try:
      tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')]
      href = []
      for h in tmpHref:
          if h != None:
              href.append('http:'+h.get('href'))
  except:
      href = [url]
  return href

if __name__ == '__main__':
    for item in getPage('http://item.jd.com/1076647290.html'):
        print item
#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的

另外beautifulsoup的一些常用函数

  • find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)
  • get() :一般用于获取当前标签下的某项属性

    例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url


版权声明:本文为richlaji原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。