第一：HTTP协议 – 源码巴士

一.协议

1.计算机与计算机之间的通讯语言就叫做协议，不同的计算机之间只有使用相同的协议才能通信。所以网络协议就是为计算机网络中进行数据交换而建立的规则，标准或约定的集合。

2.HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传输协议。

3.HTTP协议是应用层协议，由请求和响应构成,是一个标准的个客户端和服务器模型。

二.OSI模型

1.将计算机网络体系结构的通信协议划分为7层，自上而下分别是：物理层，数据链路层，网络层，传输层，会话层，表示层，应用层。

三.HTTP协议的主要特点

1.支持客户/服务器模式。

2.由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度很快。

3.HTTP允许传输任意类型的数据对象，正在传输的类型由Content-Type加以标记。
在这里插入图片描述

4.无连接是限制每次连接只处理一个请求。服务器处理完客户的请求，并收到客户的应答后，即断开连接。采用这种方式可以节省传输时间。

5.HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力，缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大。另一方面好处就是，如果后续的连接不需要之前提供的信息,响应就会比较快.而为了解决HTTP的无状态特性,出现了Cookie和Session技术。

四.HTTP的工作原理：

1.HTTP协议工作于客户端与服务器的架构上，客户端通过URL向服务器发送所有的请求。服务器根据接收到的请求，向客户端发送响应信息。HTTP协议定义客户端如何向服务器发送请求，以及服务器如何将响应请求传送给客户端，所以HTTP请求协议采用了请求/响应模型。
在这里插入图片描述
2.客户端

2.1.向服务器发送请求。

2.2.接收服务器返回的报文并解释成友善的信息供阅读。

2.3.客户端大概有：浏览器，应用程序等。

2.4.如今时代可能使用最多的就是浏览器， 当用户在地址栏输入网址回车时，浏览器会为什么做如下处理：

a.解析协议和域名。

b.使用HTTP协议并创建请求报文向服务端发送请求。

c.接收服务器返回的内容并展示给客户。

3.服务端

3.1.服务器端在接收到客户端发送的请求后会开始处理请求。

3.2.服务器处理过程：服务器软件一直在监听端口是否有新的请求达到，如iis或者tomcat在建立web站点后，默认会一直监听80端口等待HTTP请求到达服务器。

a.建立连接：如果客户端已经打开道服务器的持久连接，则可以直接使用，否则客户端需要在服务器打开一条新的连接。

b.接收请求报文：连接上有数据到时，web服务器会从网络连接中读取数据，并将请求报文中的内容解析出来。

c.处理请求：当请求被接收后，服务器便可以根据请求报文进行处理了。例如post方法中提出报文主体的数据并插入到数据库中。

d.访问资源：请求处理完后，比如web会根据数据生成一系列的HTML页面或图片等信息，此步骤将访问这些存储在服务器上的物理文件。

e.构建响应：web服务器在识别资源后，构造响应报文，响应报文包括：状态码，响应头，响应主体等内容。

f.发送响应：服务器将响应的数据发送给客户端机器。

g.记录日志：请求结束，服务器会在日志文件中记录一条请求日志。

五.HTTP协议详解之URL篇

1.实例URL：http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

2.组成

1.协议部分
该URL的协议部分为“http：”，这代表网页使用的是HTTP协议。在Internet中可以使用多种协议，如HTTP，FTP等等本例中使用的是HTTP协议。在”HTTP”后面的“//”为分隔符

2.域名部分
该URL的域名部分为www.aspxfans.com， URL中也可以使用ip地址作为域名

3.端口部分
跟在域名后面的是端口，域名和端口之间使用“:”作为分隔符。如果没有，那么说明URL使用的是默认端口80，端口不是URL的必须组成部分

4.虚拟目录部分
从域名后的第一个“/”开始到最后一个“/”为止，是虚拟目录部分。虚拟目录也不是一个URL必须的部分。本例中的虚拟目录是“/news/”

5.文件名部分
从域名后的最后一个“/”开始到“？”为止，是文件名部分，如果没有“?”,则是从域名后的最后一个“/”开始到“#”为止，是文件部分，如果没有“？”和“#”，那么从域名后的最后一个“/”开始到结束，都是文件名部分。本例中的文件名是“index.asp”。文件名部分也不是一个URL必须的部分，如果省略该部分，则使用默认的文件名

6.锚部分
从“#”开始到最后，都是锚部分。本例中的锚部分是“name”。锚部分也不是一个URL必须的部分

7.参数部分
从“？”开始到“#”为止之间的部分为参数部分，又称搜索部分、查询部分。本例中的参数部分为“boardID=5&ID=24618&page=1”。参数可以允许有多个参数，参数与参数之间用“&”作为分隔符。

六.HTTP请求报文

1.客户端与服务器之间的信息传递使用的载体叫做报文，报文分为请求和响应两个部分。

2.请求报文：客户端发送数据给服务器的过程叫做请求报文

3.组成

3.1.请求首行：包含请求方法，要访问的资源以及所舒勇的HTTP版本

3.2.请求头部：说明服务器要使用的附加信息

3.3.空行：请求报文头部后的空行是必须的

3.4.请求体：get往往不存在请求体，post请求体包含请求的参数

4.格式
在这里插入图片描述

5.实例1

5.1.get请求实例
在这里插入图片描述
5.2.post请求实例

6.实例2

①是请求方法，GET和POST是最常见的HTTP方法，除此以外还包括DELETE、HEAD、OPTIONS、PUT、TRACE。不过，当前的大多数浏览器只支持GET和POST。

②为请求对应的URL地址，它和报文头的Host属性组成完整的请求URL。

③是协议名称及版本号。

④是HTTP的报文头，报文头包含若干个属性，格式为“属性名:属性值”，服务端据此获取客户端的信息。

⑤是报文体，它将一个页面表单中的组件值通过param1=value1&param2=value2的键值对形式编码成一个格式化串，它承载多个请求参数的数据。不但报文体可以传递请求参数，请求URL也可以通过类似于“/chapter15/user.html? param1=value1&param2=value2”的方式传递请求参数。

7.请求方法

GET：请求获取Request-URI所标识的资源。

POST：在Request-URI所标识的资源后附加新的数据。

HEAD：请求获取由Request-URI所标识的资源的响应消息报头。

PUT：请求服务器存储一个资源，并用Request-URI作为其标识。

DELETE：请求服务器删除Request-URI所标识的资源。

TRACE：请求服务器回送收到的请求信息，主要用于测试或诊断。

CONNECT：保留将来使用。

OPTIONS：请求查询服务器的性能，或者查询与资源相关的选项和需求。

8.GET请求方法

1.从服务器获取数据，返回响应的实体部分，可以类比数据库的select操作，不会影响数据库本身。

2.没有请求体。

3.请求参数和对应的值附在URL后，以？号开始，参数用key=value键值对的方式书写，多个参数使用&分割。

4.通常对数据不敏感的请求使用get请求，因为参数跟在URL后不安全。

5.传输的参数长度是有限制的，最大不超过1024。

9.POST请求方法

9.1.向指定资源提交表单数据进行处理请求（例如提交表单或者上传文件）。参数数据被包含在请求体中，以名称/值的形式出现，可以传输大量的数据。POST请求可能会导致新的资源的建立和/或已有资源的修改。

9.2.通常post请求含有请求体。

9.3.请求参数存放在请求体中，可以是任意格式。

9.4.相对来说数据比较安全。

9.5.请求数据无大小限制，可以认为是无限制。

10.GET和POST的区别

10.1.从参数的传递方面来看，GET请求的参数是直接拼接在地址栏URL的后面，而POST请求的参数是放到请求体里面的。

10.2.从长度限制方面来看，GET请求有具体的长度限制，一般不超过1024KB，而POST理论上没有,但是浏览器一般都有一个界限。

10.3.从安全方面来看，GET请求相较于POST，因为数据都是明文显示在URL上面的，所以安全和私密性不如POST。

10.4.从本质上来说，GET和POST都是TCP连接，并无实质的区别。但是由于HTTP/浏览器的限定，导致它们在应用过程中体现出了一些不同。GET产生一个数据包，POST产生两个数据包。对于GET请求，浏览器会把http header 和 data 一并发出去，服务器响应200(返回数据)。而对于POST，浏览器先发送header，服务器响应100 continue，浏览器再发送data，服务器响应200。

七.HTTP响应报文

1.客户端发送请求到服务器，服务器处理之后返回数据给客户端的过程叫做响应。

2.组成

2.1.响应首行（状态行）：协议版本，状态码，成功与失败的状态信息。

2.2.响应头部：由一些键值对构成，用来说明客户端要使用的一些附加信息。

2.3.空行：响应头部后面的空行是必须的。

2.4.响应数据（响应正文）：服务器返回给客户端的数据等信息内容。

在这里插入图片描述

常见状态代码、状态描述、说明：
200 OK：客户端请求成功。
400 Bad Request：客户端请求有语法错误，不能被服务器所理解。
401 Unauthorized：请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 。
403 Forbidden：服务器收到请求，但是拒绝提供服务。
404 Not Found：请求资源不存在，如：输入了错误的URL。
500 Internal Server Error：服务器发生不可预期的错误。
503 Server Unavailable：服务器当前不能处理客户端的请求，一段时间后可能恢复正常。

3.实例

3.1.get响应实例
在这里插入图片描述

3.2. post响应实例
在这里插入图片描述

八.HTTP消息报头

1.HTTP消息由客户端到服务器的请求和服务器到客户端的响应组成。

2.请求消息和响应消息都是由开始行（对于请求消息，开始行就是请求行，对于响应消息，开始行就是状态行），消息报头，空行，消息正文组成。

3.HTTP消息报头包括普通报头、请求报头、响应报头、实体报头。

4.普通报头

4.1.在普通报头中，有少数报头域用于所有的请求和响应消息，但并不用于被传输的实体，只用于传输的消息。

4.2.Cache-Control：用于指定缓存指令，缓存指令是单向的（响应中出现的缓存指令在请求中未必会出现），且是独立的（一个消息的缓存指令不会影响另一个消息处理的缓存机制）。

4.3.请求时的缓存指令包括：no-cache（用于指示请求或响应消息不能缓存）、no-store、max-age、max-stale、min-fresh、only-if-cached。

4.4.响应时的缓存指令包括：public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age、s-maxage。

4.5.为了指示IE浏览器（客户端）不要缓存页面，服务器端的JSP程序可以编写如下：response.sehHeader(“Cache-Control”,“no-cache”)；//response.setHeader(“Pragma”,“no-cache”);作用相当于上述代码，通常两者//合用这句代码将在发送的响应消息中设置普通报头域：Cache-Control:no-cache

4.6.Date普通报头域表示消息产生的日期和时间。

4.7.Connection普通报头域允许发送指定连接的选项。例如指定连接是连续，或者指定“close”选项，通知服务器，在响应完成后，关闭连接

5.请求报头

5.1.请求报头允许客户端向服务器端传递请求的附加信息以及客户端自身的信息。

5.2.Accept：Accept请求报头域用于指定客户端接受哪些类型的信息。

例如：Accept：image/gif，表明客户端希望接受GIF图象格式的资源；Accept：text/html，表明客户端希望接受html文本。

5.3.Accept-Charset：Accept-Charset请求报头域用于指定客户端接受的字符集。

例如：Accept-Charset:iso-8859-1,gb2312.如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。

5.4.Accept-Encoding：Accept-Encoding请求报头域类似于Accept，但是它是用于指定可接受的内容编码。

例如：Accept-Encoding:gzip.deflate.如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

5.5.Accept-Language：Accept-Language请求报头域类似于Accept，但是它是用于指定一种自然语言。

例如：Accept-Language:zh-cn.如果请求消息中没有设置这个报头域，服务器假定客户端对各种语言都可以接受。

5.6.Authorization：Authorization请求报头域主要用于证明客户端有权查看某个资源。当浏览器访问一个页面时，如果收到服务器的响应代码为401（未授权），可以发送一个包含Authorization请求报头域的请求，要求服务器对其进行验证。
Host（发送请求时，该报头域是必需的）Host请求报头域主要用于指定被请求资源的Internet主机和端口号，它通常从HTTP URL中提取出来的

例如：在浏览器中输入：http://www.guet.edu.cn/index.html
浏览器发送的请求消息中，就会包含Host请求报头域，如下：
Host：www.guet.edu.cn此处使用缺省端口号80，若指定了端口号，则变成：Host：www.guet.edu.cn:指定端口号。

5.7.User-Agent：上网登陆论坛的时候，其中列出你的操作系统的名称和版本，所使用的浏览器的名称和版本，实际上服务器应用程序就是从User-Agent这个请求报头域中获取到这些信息。User-Agent请求报头域允许客户端将它的操作系统、浏览器和其它属性告诉服务器。不过，这个报头域不是必需的，如果自己编写一个浏览器，不使用User-Agent请求报头域，那么服务器端就无法得知的信息。

6.响应报头

6.1.响应报头允许服务器传递不能放在状态行中的附加响应信息，以及关于服务器的信息和对Request-URI所标识的资源进行下一步访问的信息。

6.2.Location：Location响应报头域用于重定向接受者到一个新的位置。Location响应报头域常用在更换域名的时候。

6.3.Server：Server响应报头域包含了服务器用来处理请求的软件信息。与User-Agent请求报头域是相对应的。

7.实体报头

7.1.请求和响应消息都可以传送一个实体。一个实体由实体报头域和实体正文组成，但并不是说实体报头域和实体正文要在一起发送，可以只发送实体报头域。实体报头定义了关于实体正文和请求所标识的资源的元信息。

7.2.Content-Encoding：Content-Encoding实体报头域被用作媒体类型的修饰符，它的值指示了已经被应用到实体正文的附加内容的编码，因而要获得Content-Type报头域中所引用的媒体类型，必须采用相应的解码机制。Content-Encoding这样用于记录文档的压缩方法。

例如：Content-Encoding：gzip

7.3.Content-Language：Content-Language实体报头域描述了资源所用的自然语言。没有设置该域则认为实体内容将提供给所有的语言阅读者。

例如：Content-Language:da

7.4.Content-Length：Content-Length实体报头域用于指明实体正文的长度，以字节方式存储的十进制数字来表示。

7.5.Content-Type：Content-Type实体报头域用语指明发送给接收者的实体正文的媒体类型。

例如：Content-Type:text/html;charset=ISO-8859-1

7.6.Last-Modified：Last-Modified实体报头域用于指示资源的最后修改日期和时间。

7.7.Expires：Expires实体报头域给出响应过期的日期和时间。为了让代理服务器或浏览器在一段时间以后更新缓存中(再次访问曾访问过的页面时，直接从缓存中加载，缩短响应时间和降低服务器负载)的页面，我们可以使用Expires实体报头域指定页面过期的时间。

九.HTTP扩展

1.Cookie机制

1.1.Cookie是由服务器发给客户端的特殊信息，而这些信息，以文本文件的方式存在客户端，然后客户端每次向服务器发送请求的时候就会带上这些特殊信息，以便服务器做身份识别。

2.Cookie处理过程

2.1.当用户第一次请求服务器时，请求报文中并不会包含Cookie信息，当服务器接收到客户端的请求时，会响应信息给客户端，这时候响应报文的头部会包含一个set-Cookie的字段信息，并包含了用户的身份信息。当客户端收到set-Cookie时，会把Cookie保存在本地（内存或者硬盘中）

2.2.当客户端再次发送请求报文给服务器时，请求报文头部会携带Cookie信息并发送给服务器，服务器通过Cookie自带的信息分析，动态生成与该客户端相对应的数据。

3.实例

3.1.第一次访问：http://120.78.128.25:8765网站，使用Fiddler抓取请求此网站首页的请求报文和响应报文。

3.2.可以看到第一次请求次网站时，请求报文是不含有Cookie信息的，而响应报文返回一个set-Cookie给客户端。
在这里插入图片描述

3.3.第二次访问：第二次请求的报文和响应报文。

3.4.请求报文已经携带了Cookie信息，而响应报文不再携带set-Cookie信息。
在这里插入图片描述

4.Session机制

4.1.Session是另外一种记录客户状态和身份的机制，不同的是Cookie保存在客户端本地中，而Session保存在服务器中。

4.2.与Cookie机制作用相同，只不过Cookie是通过检查客户身上的通行证确定客户身份，而Session则是通过服务器上的客户明细表来确认客户身份。

5.Session处理过程

5.1.当客户端第一次请求服务器时，服务器会创建一个Session并为该Session分配唯一标识Session id，并向Session中添加内容，服务器收到客户的请求后，会返回给客户端响应的信息，那么响应报文头部会携带Session id返回给客户端。

5.2.当客户端再次请求服务器时，请求报文头部会携带之前的Session id(session id 是需要通过cookie传递)，服务器收到请求后根据Session id查找对应的session内容，并分析对比是否为同一个客户端发来的请求，接着返回相应的数据给客户端。

6.区别

笔者曾经常去的一家咖啡店有喝5杯咖啡免费赠一杯咖啡的优惠，然而一次性消费5杯咖啡的机会微乎其微，这时就需要某种方式来纪录某位顾客的消费数量。想象一下其实也无外乎下面的几种方案：

6.1、该店的店员很厉害，能记住每位顾客的消费数量，只要顾客一走进咖啡店，店员就知道该怎么对待了。这种做法就是协议本身支持状态。 

6.2、发给顾客一张卡片，上面记录着消费的数量，一般还有个有效期限。每次消费时，如果顾客出示这张卡片，则此次消费就会与以前或以后的消费相联系起来。这种做法就是在客户端保持状态。 

6.3、发给顾客一张会员卡，除了卡号之外什么信息也不纪录，每次消费时，如果顾客出示该卡片，则店员在店里的纪录本上找到这个卡号对应的纪录添加一些消费信息。这种做法就是在服务器端保持状态。

十.HTTP协议相关技术补充

1.高层协议有：文件传输协议FTP、电子邮件传输协议SMTP、域名系统服务DNS、网络新闻传输协议NNTP和HTTP协议等。

2.中介由三种：代理(Proxy)、网关(Gateway)和通道(Tunnel)，一个代理根据URI的绝对格式来接受请求，重写全部或部分消息，通过 URI的标识把已格式化过的请求发送到服务器。网关是一个接收代理，作为一些其它服务器的上层，并且如果必须的话，可以把请求翻译给下层的服务器协议。一个通道作为不改变消息的两个连接之间的中继点。当通讯需要通过一个中介(例如：防火墙等)或者是中介不能识别消息的内容时，通道经常被使用。

3.代理(Proxy)：一个中间程序，它可以充当一个服务器，也可以充当一个客户机，为其它客户机建立请求。请求是通过可能的翻译在内部或经过传递到其它的服务器中。一个代理在发送请求信息之前，必须解释并且如果可能重写它。代理经常作为通过防火墙的客户机端的门户，代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。

4.网关(Gateway)：一个作为其它服务器中间媒介的服务器。与代理不同的是，网关接受请求就好象对被请求的资源来说它就是源服务器；发出请求的客户机并没有意识到它在同网关打交道。网关经常作为通过防火墙的服务器端的门户，网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。

5.通道(Tunnel)：是作为两个连接中继的中介程序。一旦激活，通道便被认为不属于HTTP通讯，尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时，通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通讯时通道被经常使用。

6.Http指纹识别技术：记录不同服务器对Http协议执行中的微小差别进行识别。Http指纹识别比TCP/IP堆栈指纹识别复杂许多,理由是定制Http服务器的配置文件、增加插件或组件使得更改Http的响应信息变的很容易,这样使得识别变的困难；然而定制TCP/IP堆栈的行为需要对核心层进行修改,所以就容易识别。要让服务器返回不同的Banner信息的设置是很简单的，象Apache这样的开放源代码的Http服务器,用户可以在源代码里修改Banner信息,然后重起Http服务就生效了；对于没有公开源代码的Http服务器比如微软的IIS或者是Netscape,可以在存放Banner信息的Dll文件中修改,相关的文章有讨论的,这里不再赘述,当然这样的修改的效果还是不错的.另外一种模糊Banner信息的方法是使用插件。

原文链接：https://blog.csdn.net/hyq413950612/article/details/122318339