爬虫入门_3:数据解析及案例实战

聚焦爬取:爬取页面中指定的页面内容
编码流程:

  1. 指定url

  2. 发起请求

  3. 获取响应数据

  4. 数据解析

  5. 持久化存储

数据解析分类

  • 正则
    • re.M: 多行匹配
    • re.S:单行匹配
  • bs4
  • xpath(***)

数据解析原理概述:

  • 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
  1. 进行指定标签的定位
  2. 标签或者标签对应的属性中存储的数据值进行提取(解析)

1. 数据解析—正则表达式

正则表达式在线测试地址:https://c.runoob.com/front-end/854/

常用正则表达式回顾

  • 单字符

    []: 匹配集合中任意个字符,只要满足中括号中的字符,都可以匹配
    \d: 匹配任意数字,与'[0-9]'一样
    \D: 匹配任意非数字,与'[^0-9]'一样
    \w: 数字、字母、下划线、中文
    \W: 非\w
    \s: 所有的空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]
    \S: 非空白
    
  • 数据修饰

    * :  任意多次 >=0
    + :  至少一次 >=1
    ? :  可有可无 0次或1次
    {m}:  固定m次 hello{3,}
    {m,}: 至少m次
    {m,n}: 大于等于m次并小于等于n次才会被匹配
    
  • 边界

    $: 以某某结尾
    ^: 以某某开头
    
  • 分组

    (ab)

  • 贪婪模式:.*

  • 非贪婪(惰性)模式: .*?

  • re.I:忽略大小写

  • re.M: 多行匹配

  • re.S: 单行匹配

  • re.sub用于替换字符串中的匹配项

    re.sub(正则表达式,替换内容,字符串)

    phone = "2004-959-559 # 这是一个国外电话号码"
    # 删除字符串中的 Python注释 
    num = re.sub(r'#.*$', "", phone)
    print("电话号码是: ", num)
    
    # 输出为
    电话号码是:  2004-959-559 
    

正则练习

import re

# 提取出python
key = 'javapythonc++phpscala'
print(re.findall('python',key)[0])   # 输出:python

# 提取出hello world
key = '<html><h1>hello world<h1></html>'
print(re.findall('<h1>(.*)<h1>',key)[0])  # 输出:hello world

# 提取170
string = '我喜欢身高为170的女孩'
print(re.findall('\d+',string))  # 输出:['170']

# 提取出http://和https://
key = 'http://www.baidu.com and https://boob.com'
print(re.findall('https?://',key))  # 输出:['http://', 'https://']

# 提取出hello
key = 'lalala<hTml>hello</HtMl>hahah' 
print(re.findall('<[Hh][Tt][Mm][Ll]>(.*)</[Hh][Tt][Mm][Ll]>',key))  # 输出:['hello']

# 提取出hit.
key = 'bobo@hit.edu.com'
# 以下两个式子等价
print(re.findall('h.*?\.',key))  # 输出:['hit.']
print(re.findall('@(.*)e',key))  # 输出:['hit.']

# 匹配sas和saas
key = 'saas and sas and saaas'
print(re.findall('sa{1,2}s',key))  # 输出:['saas', 'sas']

实战

需求:爬取彼岸图网站中指定页面的图片,解决分页爬取问题,并将其保存到指定文件夹中

"""
需求:爬取彼岸图网站中风景板块下所有的图片
网站地址:https://pic.netbian.com/
"""

import requests
import os
import re

if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 创建一个文件夹,保存所有的图片
    dir_path = './result/biantuLibs'
    if not os.path.exists(dir_path):
        os.makedirs(dir_path)

    # 设置一个通用的url模板
    url = 'https://pic.netbian.com/4kfengjing/index_%d.html'

    for pageNum in range(1,5):  # 这里只爬取了前4页,可以修改数据爬取多个页面的图片
        # 对应页码的url
        # 由于第一页的url和其他页的不一样,这里需要单独处理
        if pageNum == 1:
            new_url = 'https://pic.netbian.com/4kfengjing/'
        else:
            new_url = format(url%pageNum)

        # 使用通用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text

        # 使用聚焦爬虫将页面中所有的风景图进行解析/提取
        ex = '<li>.*?<img src="(.*?)" alt=.*?</li>'
        img_src_list = re.findall(ex,page_text,re.S)  # re.S:单行匹配
        # print(img_src_list)
        for src in img_src_list:
            # 拼接出一个完整的图片url
            src = 'https://pic.netbian.com' + src
            # 请求到了图片的二进制数据
            img_data = requests.get(url=src,headers=headers).content
            # 生成图片名称
            img_name = src.split('/')[-1]  # 该图片名称带后缀
            # 图片存储的路径
            imgPath = dir_path + '/' +img_name
            with open(imgPath,'wb') as fp:
                fp.write(img_data)
                print(img_name,"下载成功!!!")

2. 数据解析—bs4解析

bs4数据解析原理

  1. 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
  2. 通过调用BeautifulSoup对象中相关属性或方法进行标签定位和数据提取

环境安装

pip install bs4
# bs4在使用时,需要一个第三方库,把这个库也需要安装下
pip install lxml

基础使用

使用流程

  • 导包:from bs4 import BeautifulSoup

  • 使用方式:可以将一个html文档,转化为BeautifulSoup对象,然后通过对象的方法或者属性去查找指定的结点内容

    • 将本地的html文档中的数据加载到该对象中

      fp = open('./test.html','r',encoding='utf-8')
      soup = BeautifulSoup(fp,'lxml')
      
    • 将互联网上获取的页面源码加载到该对象中

      page_text = response.text
      soup = BeautifulSoup(page_text,'lxml')
      
    • 打印soup对象显示内容为html文件中的内容

基础巩固

  • 提供的用于数据解析的方法属性

    • soup.tagName:返回的是文档中第一次出现的tagName对应的标签

    • soup.find():

      • find(‘tagName’):等同于soup.div

      • 属性定位:

        soup.find(‘div’,class_/id/attr=‘song’)

    • soup.findall(‘tagName’):返回符合要求的所有标签(列表)

    • select

      • select(‘某种选择器(id,class,标签…选择器)’),返回的是一个列表
      • 层级选择器:
        • soup.select(’.tang > ul > li > a’): > 表示的是一个层级
        • soup.select(’.tang > ul a’): 空格 表示的是多个层级
  • 获取标签之间的文本数据

    • soup.a.text/string/get_text()
    • text/get_text():可以获取某一个标签中所有的文
    • string:只可以获取该标签下面的直系的文本内容
  • 获取标签中属性值

    • soup.a[‘href’]
from bs4 import BeautifulSoup

if __name__ == '__main__':
    # 将本地的html文档中的数据加载到该对象中
    fp = open('./data/test.html', 'r', encoding='utf-8')
    soup = BeautifulSoup(fp, 'lxml')
    print(soup)
    print(soup.a)  # soup.tagName,返回的是html第一次出现的tagName标签
    print(soup.div)

    # find('tagName'):等同于soup.div
    print(soup.find('div'))
    print(soup.find('div', class_='song'))  # 属性定位
    print(soup.find_all('a'))  # 获取所有的a标签,是个列表

    print(soup.select('.tang'))  # 类选择器
    print(soup.select('.tang > ul > li > a')[0])  # 层级选择器,‘>’ 表示的是一个层级
    print(soup.select('.tang > ul a')[0])  # 空格 表示的是多个层级

    # 获取标签之间的文本内容
    # text/get_text():可以获取某一个标签中所有的文本内容
    # string:只可以获取该标签下面的直系的文本内容
    print(soup.select('.tang > ul a')[0].text)
    print(soup.select('.tang > ul a')[0].get_text())
    print(soup.select('.tang > ul a')[0].string)
    print(soup.find('div', class_='song').text)
    print(soup.find('div', class_='song').string)

    # 获取标签中的属性值
    print(soup.select('.tang > ul a')[0]['href'])

实战

需求:爬取三国演义小数所有的章节标题和章节内容
地址: https://www.shicimingju.com/book/sanguoyanyi.html

import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 对首页的页面数据进行爬取
    # 指定url
    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
    # 发起请求,获取响应数据
    html = requests.get(url=url,headers=headers)
    html.encoding = 'utf-8'  # 将编码设置为‘utf-8',不然会出现乱码
    page_text = html.text
    # 在首页中解析出章节的标题和详情页的url
    # 1. 实例化BeautifulSoup对象,需要将页面源码数据加载到该对象中
    soup = BeautifulSoup(page_text,'lxml')
    # 解析章节标题和详情页的url
    li_list = soup.select('.book-mulu > ul > li')
    fp = open('./result/sanguo.txt','w',encoding='utf-8')
    for li in li_list:
        title = li.a.string
        # print(li.a.text)
        detail_url = 'https://www.shicimingju.com' + li.a['href']
        # 对详情页发起请求,解析出章节内容
        detail_html = requests.get(url=detail_url, headers=headers)
        detail_html.encoding = 'utf-8'  # 将编码设置为‘utf-8',不然会出现乱码
        detail_page_text = detail_html.text
        # 解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='chapter_content')
        # 解析到了章节的内容
        content = div_tag.text
        # 持久化存储
        fp.write(title + ':' + content + '\n')
        print(title,'爬取成功!!!')

3. 数据解析—xpath解析

xpath解析原理:

  1. 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
  2. 通过调用etree对象中的xpath方法结合xpath表达式实现标签定位和内容的捕获

环境安装

pip install lxml

基本使用

使用流程

  1. 将本地的html文档中的源码数据加载到etree对象中

    etree.parse(filePath)

  2. 可以将从互联网上获取的源码数据加载到该对象中

    etree.HTML(‘page_text’)

  3. xpath(‘xpath表达式’)

基础巩固

  • /:表示的是从根节点开始定位。表示的是一个层级

  • //:表示的是多个层级。可以表示从任意位置开始定位

  • 属性定位://div[@class=‘song’] tag[@attrName=“attrValue”]

  • 索引定位://div[@class=“song”]/p[3] 索引是从1开始的

    • /text():获取的是标签中直系的文本内容
    • //text():标签中非直系的文本内容(标签下的所有文本内容)
  • 取文本:

    • /text():获取的是标签中直系的文本内容

    • //text():标签中非直系的文本内容(标签下的所有文本内容)

  • 取属性:

    • /@attrName: ==> img/@src
from lxml import etree

if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 实例化一个etree对象,且将被解析的源码加载到了该对象中
    tree = etree.parse('./data/test.html')
    # 层级定位
    # r = tree.xpath('/html/body/div')
    # r = tree.xpath('/html//div')
    # r = tree.xpath('//div')

    # 属性定位
    # r = tree.xpath('//div[@class="song"]')
    # r = tree.xpath('//div[@class="song"]/p[3]')  # 索引定位,索引标签是从1开始

    # 取文本
    # r = tree.xpath('//div[@class="tang"]/ul/li[5]/a/text()')[0]
    # r = tree.xpath('//li[7]//text()')
    # r = tree.xpath('//div[@class="tang"]//text()')

    # 取属性
    r = tree.xpath('//div[@class="song"]/img/@src')
    print(r)

实战

案例1

需求:爬取58二手房中的房源信息

import requests
from lxml import etree

if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 爬取到页面源码对象
    url = 'https://bj.58.com/ershoufang/'
    page_text = requests.get(url=url, headers=headers).text

    # 数据解析
    tree = etree.HTML(page_text)
    # 存储的就是div标签对象
    div_list = tree.xpath('//section[@class="list"]/div')
    fp = open('./result/58.txt','w',encoding='utf-8')
    for div in div_list:
        # 局部解析
        title = div.xpath('./a/div[2]/div[1]/div[1]/h3/text()')[0]
        price = div.xpath('./a/div[2]/div[2]/p[1]/span/text()')
        total_price = price[0]+price[1]  # 0:表示价格,1:表示单位
        fp.write(title+' ')
        fp.write(total_price+'\n')

案例2

需求:解析下载图片数据
地址: https://pic.netbian.com/4kmeishi/

import requests
from lxml import etree
import os
if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    url = 'https://pic.netbian.com/4kmeishi/'
    response = requests.get(url=url, headers=headers)
    # 中文乱码解决方法1:手动设置响应数据的编码格式,如果不行,则采用下面的方法2
    # response.encoding = 'utf-8'  # 将编码设置为‘utf-8',不然会出现乱码
    page_text = response.text

    # 解析数据:src的属性值 alt属性值
    tree = etree.HTML(page_text)
    li_list = tree.xpath('//ul[@class="clearfix"]/li')

    # 创建一个文件夹
    if not os.path.exists('./result/picLibs/'):
        os.makedirs('./result/picLibs/')
    for li in li_list:
        img_src = 'https://pic.netbian.com' + li.xpath('./a/img/@src')[0]
        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'
        # 中文乱码解决方法2:通用处理中文乱码的解决方案
        img_name = img_name.encode('iso-8859-1').decode('gbk')
        # print(img_name,img_src)
        # 请求图进行持久化存储
        img_data = requests.get(url=img_src,headers=headers).content
        img_path = './result/picLibs/' + img_name
        with open(img_path,'wb') as fp:
            fp.write(img_data)
            print(img_name,"下载成功!!!")

案例3

需求:解析出所有城市名称
地址:https://www.aqistudy.cn/historydata/

import requests
from lxml import etree

if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    url = 'https://www.aqistudy.cn/historydata/'
    page_text = requests.get(url=url, headers=headers).text

    tree = etree.HTML(page_text)
    # 解析热门城市和全部城市对应的a标签
    # 热门城市a标签的层级关系://div[@class="bottom"]/ul/li/a
    # 全部城市a标签的层级关系://div[@class="bottom"]/ul/div[2]/li/a
    a_list = tree.xpath('//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')
    all_city_names = []
    for a in a_list:
        city_name = a.xpath('./text()')[0]
        all_city_names.append(city_name)

    print(len(all_city_names), all_city_names)

案例4

需求:爬取站长素材中免费简历模板
地址:https://sc.chinaz.com/jianli/free.html

import requests
from lxml import etree
import os

if __name__ == '__main__':
    # UA伪装,相关的头信息封装在字典结构中
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 创建一个文件夹
    if not os.path.exists('./result/jianli_free/'):
        os.makedirs('./result/jianli_free/')

    for i in range(1, 5):
        if i == 1:
            url = 'https://sc.chinaz.com/jianli/free.html'
        else:
            url = 'https://sc.chinaz.com/jianli/free_{}.html'.format(str(i))
        print(url)
        page_text = requests.get(url=url, headers=headers).text

        tree = etree.HTML(page_text)
        a_list = tree.xpath('//div[@id="main"]/div/div/a')

        for a in a_list:
            a_url = "https:" + a.xpath('./@href')[0]
            a_page_text = requests.get(url=a_url, headers=headers).text
            tree = etree.HTML(a_page_text)
            jianli_url = tree.xpath('//ul[@class="clearfix"]/li[1]/a/@href')[0]
            cur_jianli = requests.get(url=jianli_url, headers=headers).content
            # 持久化存储简历
            jianli_name = a.xpath('./img/@alt')[0].strip() + '_' + jianli_url.split('/')[-1]
            jianli_name = jianli_name.encode('iso-8859-1').decode('utf-8')  # 防止中文乱码
            jianli_path = './result/jianli_free/' + jianli_name
            with open(jianli_path, 'wb') as fp:
                fp.write(cur_jianli)
                print(jianli_name, "下载成功!!!")
        print("第{}页爬取完成!!!".format(i))

如果本文对你有帮助,记得“点赞”哦~


版权声明:本文为Amy9_Miss原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。