用 Parsedown 对 Markdown 进行解析的时候,遇到了一些 XSS 过滤方面的问题。
发现 Parsedown 会对 代码
区域内的 html 代码进行转义,代码
区域外的却不进行转义,如以下代码所示
PHP
<?php include 'Parsedown.php'; $test = "```\n<script>alert('test')</script>\n```\n<script>alert('test')</script>"; $Parsedown = new Parsedown(); echo $Parsedown->text($test); /** * 得到结果是: * <pre><code><script>alert('test')</script></code></pre> * <script>alert('test')</script> * */
这样,<script>alert('test')</script>
这句还是被成功执行了
既然如此,那我先自己给它转义一下
PHP
<?php include 'Parsedown.php'; include 'com.func.php'; $test = "```\n<script>alert('test')</script>\n```\n<script>alert('test')</script>"; $test = htmlspecialchars($test, ENT_QUOTES); $Parsedown = new Parsedown(); echo $Parsedown->text($test); /** * 得到结果是: * <pre><code>&lt;script&gt;alert(&#039;test&#039;)&lt;/script&gt;</code></pre> * <p><script>alert('test')</script></p> */
虽然 XSS 是被过滤掉了,但是代码
区域的内容就被转义了两次。
然后我发现 SF 的 Markdown 好像是在后端就解析好的,例如这个页面,它的部分源码如下:
html
<p>我现在的代码是这样的<br> <html><br> <head><br><br> <title>Untitled Document</title></p> <pre><code><script> function test(){ <?php $conn = mysql_connect("localhost", "username", "123123"); mysql_select_db("username", $conn); mysql_query("INSERT INTO ChargerTogether (Chat) VALUES ('test')"); $result= mysql_query("SELECT *FROM ChargerTogether"); echo "<p> {$result} </p>>"; ?> } </script> </code></pre> <p></head><br> <body><br> <input type="button" onClick="javascript:test();"></p> <p></body><br> </html></p> <p>但这样是错误的<br> 我该怎样做呢</p>
这里的转义就做得很好。
我想到的解决方案是:先转义,再用 Parsedown 进行解析,接着正则匹配出解析后 <code></code>
内的代码,对其进行反转义(一次)。
不知道是不是还有别的更好的转义函数,或者说 有没有其他的能够过滤 XSS 的 Markdown 解析类
P.S. 我在 github 上面找到有个 markdown-js。用这个东西的话可以把经htmlspecialchars(()
转义后的字符串直接输出到一个 textaera
里,它能够正确地解析。虽然我可以把那个文本框隐藏起来,但是如果需要输出很多段 Markdown (帖子有很多回复)的话,那可不是一个好的解决方案啊!
刚刚把 Parsedown 源码里所有(共三处)转义用的语句(如下所示)给注释掉,
这句出现在了以下三个方法中:
protected function blockCodeComplete($Block)
、protected function blockFencedCodeComplete($Block)
、protected function inlineCode($Excerpt)
然后再修改一下
function text($text)
:这么做虽然说是解决了,但是可能不是最完美的解决方案,还请各位大大继续提供更好的方案~