http请求中加号被替换为空格？源码背后的秘密

这是why技术的第20篇原创文章
在这里插入图片描述
本周本来是没有时间写技术文章的，为了周更不断，想着去把之前发布在其他平台的一篇原创文章搬过来就行。结果发现，当年我写的那篇文章，离真相还差着十万八千里。

而去搜索这个问题时，我的文章是检索结果的第一个。
在这里插入图片描述

原文《http请求参数中加号被替换为空格及请求参数被URLDeCode的记录》链接如下：
https://www.jianshu.com/p/1a3...

所以为了避免继续误导读者，就算周末"爆肝"，也得输出此文，不得不发。

这是我作为程序员的自我修养。

加号变空格

之前写那篇文章的原因是碰到了两个有趣的问题，如下：

在这里插入图片描述

首先，我们进行场景复现，搭建项目的过程就不说了，用idea+springboot搭建一个简单的web项目还不是信手拈来的事？

在这里插入图片描述

正如上面的现象所示：我的入参是jay+love，但是后台接收到的是jay love，加号变空格了。为什么呢？

源码之下无秘密

本文分析的Tomcat源码版本为：9.0.29.
在这里插入图片描述

通过Debug可以找到两处关键的代码：

第一处：
org.apache.tomcat.util.http.Parameters#processParameters(byte[], int, int, java.nio.charset.Charset) 下图中的290行
在这里插入图片描述
在这个地方因为有'+'，所以把decodeValue参数设置为true，表示需要对请求中的value进行decode操作。

decode的具体的源码位置如下，也就是第二处关键代码：
org.apache.tomcat.util.buf.UDecoder#convert(org.apache.tomcat.util.buf.ByteChunk, boolean)
在这里插入图片描述

可以看到，在源码里面有一段代码，是把'+'替换了为了空格，是特意做了这样的特殊处理。

整个方法的解读如下：
在这里插入图片描述

所以我的入参是jay+love，但是后台接收到的是jay love，加号变空格了。为什么呢？

原因很简单，在源码中有一段代码把'+'替换成了空格，刻意为之。

为什么这样做呢?

之前的文章里面我写的是：

在这里插入图片描述

由于历史原因，那到底是什么历史原因呢？

我在网上查了一圈，没有找到具体的历史原因，我看到的所有的关于这个问题的文章，要么只是给了解决方案，要么就是上面这一句历史原因，一带而过，含糊其辞。

这里，我就明明白白的告诉你为啥。

经过我长时间的摸排，我找到了很多蛛丝马迹，整理之后，我决定从JDK的一个"BUG"讲起。

对应链接:http://bugs.sun.com/view_bug....

在这里插入图片描述

从提交时间上可以看出，该问题早在2001年，距今18年前就有人指出来了，并给JDK上报了BUG，他的描述如下：

在这里插入图片描述

首先，我们先把他的测试代码拿出来跑一下：

在这里插入图片描述

他为什么说空格encode之后应该是%20呢?

因为他在BUG里面提到了RFC2396标准。（RFC就不解释了，你只要知道是业界认证的权威标准就行）：
地址：http://www.ietf.org/rfc/rfc23...

在这里插入图片描述
在RFC2396的第2.4.1节，明确的说了："%20"是US-ASCII空格字符的转义编码。

去查询标准的ASCII码你也可以发现确实是这样的：
在这里插入图片描述

用代码实践一下，证明以上结论：

在这里插入图片描述

看java.net.URLEncoder#encode(java.lang.String, java.lang.String)的源码也可以直观的看到，源码里面做了特殊处理：

在这里插入图片描述

再看java.net.URLDecoder#decode(java.lang.String, java.lang.String)的源码：

在这里插入图片描述

这里就和前面的呼应上了，这处理方式，一模一样呀。所以为什么这样处理，两处地方属于同宗同源啊！

而提BUG的那个哥们为什么觉得这是一个BUG呢？

虽然经过试验，'+'和'%20'经过decode都能转化为空格，但是他认为，根据RFC2396来讲，这里只能是'%20',怎么能变成'+'呢？所以他觉得这是一个BUG。

那我们看看JDK官方是怎么回复这个问题的呢？

在这里插入图片描述

官方回复：
*这不是BUG啊，朋友！这个类就是遵循了HTML规范中的规定：如何对 HTML表单中的URLs进行encode。它不打算用于其他用途。
而这样做的原因，是因为包括HTML 4.01第17.13.4节和RFC 1866(已经被W3C HTML推荐标准取代)都是这样规定的。*

对于第一段话，官方的意思我理解是：这个类就是拿来对url进行encode的，不做其他用途。因为你调用了encode编码，那就需要decode解码，我只要保证你解码之后的数据和你encode之前的数据是一样的就行了。你要拿去搞其他事情，我就管不了了。

而为什么这样做呢？是因为规定就是这样的呀，类似于国家标准就是这样的，类似于产品经理提出的需求就是这样的呀。这里官方提出了两个标准，一个是HTML 4.01，一个是RFC1866（这个已经被其他的标准取代了，那我们就只看HTML 4.01）。
*HTML4.01是1999年12月24日发布的，在HTML4.0基础上进行微小改进，W3C推荐标准。
在w3c上找到该标准，地址如下
https://www.w3.org/TR/html401...*

下图圈起来的地方很关键，可以点开放大查看：
在这里插入图片描述