简单上手快,之前爬取了豆瓣电影排行榜这次介绍猫眼:
requests 库
bs库
time库
#!D:\Anaconda\Python 3.7.0
# -*- coding: utf-8 -*-
# @author:LiuQing
import requests
from bs4 import BeautifulSoup
import time
for i in range(0,100,10):
#获取页面信息
url=f"http://maoyan.com/board/4?offset={i}" #定义网站url
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac Os X 10_11_4) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/52.0.2743.116 Safari/537.36 ' #定义http头部信息,这个是模拟浏览器信息,可以防止被放爬虫工具禁止。
}
r = requests.get(url,headers=headers,timeout=10) #向网站发出请求,并指定头部信息和超时时间。
r = r.text
soup = BeautifulSoup(r,'html.parser')
# print(soup)
dd = soup.find_all('dd')
# print(dd)
#find.find 可以find()['herf']的属性 find.findall
for each in dd:
rank = each.find('i').text
title = each.a.get('title')
pic_url = each.find('img',class_='board-img').get('data-src')
actor = each.find('p',{'class':'star'}).text.strip()
act_time = each.find('p',class_='releasetime').text
print(f"排名:{rank}\t标题:{title}\t图片url:{pic_url},\n演员:{actor}\t上映时间:{act_time}")
time.sleep(1)
版权声明:本文为weixin_45877051原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。