从零开始学爬虫(4)—— URL格式和HTTP请求形式

一、URL格式

URL是指在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform Resource Locator,统一资源定位符),它是WWW的统一资源定位标志,就是指网络地址。

平时当我们登陆百度的时候我们可能只是输入:www.baidu.com,然而进入网页之后我们再看导航栏,其实会发现完整的URL是这样的:https://www.baidu.com/,当我们打开一个资源的时候,URL可能又变成这样了:https://baike.baidu.com/item/URL%E6%A0%BC%E5%BC%8F/10056474?fr=aladdin

URL的形式:

scheme://host[:port#]/path/……/[?query-string]/[#anchor]

对上述URL形式的解读:

  1. scheme: scheme本意是计划、组合、体制的含义。在这里是指明传输信息的方式。如:http、https、ftp等,这些都是不同的传输协议。
  2. host: 服务器的域名或者IP地址。在输入一个网站的时候,一种方式是输入域名,如www.baidu.com,另外一种是输入IP地址,如192.168.1.0(此网站可以跳转到当前WiFi登陆页面,当在肯德基之类的场所打不开登陆页面时可以使用)
  3. port: port是端口的意思,可以想象电脑是一个有着很多很多小孔的大蜂箱,每个小孔都有自己的作用,并且可以连接到外部的设备。此处的port就是服务器的端口号。例如HTTP使用的端口是80,就是说电脑的80号端口被拿来给HTTP提供服务了。这个部分不一定会存在,所以是[:port]
  4. path: path指的是文件的路径。如上述例子https://baike.baidu.com/item/URL%E6%A0%BC%E5%BC%8F/10056474?fr=aladdin中的 /item/URL%E6%A0%BC%E5%BC%8F/10056474 就是此资源的路径。
  5. [?query-string]: 指的是传递的参数,如百度一个关键词,这个关键词就是你传递到后端的参数,因此让后端知道你提供的参数是非常必要的,这样它才能根据你的参数做出相应的应答。如上述例子https://baike.baidu.com/item/URL%E6%A0%BC%E5%BC%8F/10056474?fr=aladdin中参数是?fr=aladdin,一般是在一个?之后写参数的内容
  6. anchor: 锚点的意思。跳转到网页指定的某一个位置。具体操作可以去随便百度一个内容,然后点击旁边的目录条,就会发现网页会下翻或上翻到指定位置。

二、HTTP请求形式

在这里插入图片描述
在这里插入图片描述

报文头中常见关键参数的含义:

在这里插入图片描述

常见的请求方式

请求方式有多种,每种都有自己的特点,最常见的是POST和GET,关于他们的比较,请看我之前写的这篇文章:《POST和GET的区别》


版权声明:本文为qq_43029747原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。