<meta charset="utf-8" emacsmode="-*- markdown -*-"> <link rel="stylesheet" href="https://casual-effects.com/markdeep/latest/journal.css?">
本文有多个主题:
各个主题相互独立,可直接跳到你想看的那个。
SHell 代码的本质
有句话说是, Bash 上一切皆字符串。
猜测原因: Bash 是被造出来用来统筹 Linux (或者别的类 *nix 系统)的进程交互协作的,而进程间通信时所用数据的类型一定是字符串。
示例:
下面几行的意义是完全一样的
echo a echo 'a' echo "a" echo \a
这里
a
本身就是一般字符串了,所以不管是用引号消除功能还是用转义消除功能,它都仍然是一般字符。下面几行的意义是完全一样的
echo 'foo bar' echo "foo bar" echo foo' 'bar echo foo" "bar echo foo\ \ bar
下面几行的意义是完全一样的
v1=foo v2=ar ; echo $v1\ \ b$v2 v3=\ \ ; echo foo"$v3"bar v4=' ' ; echo foo"$v4"bar
如果上面的
v3
v4
都是只有一个空格字符串而不是像上面那样是两个的话,使用时就可以不必被双引号包围,就像这样:v5=\ ; echo foo${v5}bar
大括号可以清晰描述变量名的边界。没有歧义的时候可以省略大括号。
下面几行是意义完全一样的
bash -c 'echo foo\ \ bar' bash -c "echo foo\ \ bar" bash -c 'echo foo" "bar' bash -c "echo foo' 'bar" v=' ' ; bash -c "echo foo'$v'bar"
下面几行是意义完全一样的(我觉得这是比较能体现「一切皆字符串」的地方)
echo aa e''cho aa 'e'cho aa e'ch''o' aa x1=ec ; ${x1}ho aa x2=o ; ech$x2 aa
任何 Bash 代码,首先其实是 Bash 数据。当然,其类型是 字符串 。
上面频繁对空格字符使用了反斜杠转义。这会让它变为 一般字符 而失去 特殊功能 。 空格符 有什么特殊功能?那就是,在代码被解释时,首先会切分成多块,空格就是默认的切分符号。
(这个切分符号也能改。不过没事儿别乱改,改了以后很可能想干啥都不方便。改法就是改一个全局变量,我在这里不告诉你,因为几乎用不到而且也不建议这么玩儿。感兴趣可以自己查。。。)
另外,转义反斜杠后面紧跟一个换行字符(就是在多数语言的代码里写作 \n
的那个字符)的话,它会被转义成等价于「没有这个字符」。
(另外,数据类型的话,基本数据类型就字符串。 Bash 里也有数组,不过与其说是数据类型,不如说是变量的一种特殊功能,就好像 ${x:-321}
一样。这些数组的元素只会是字符串,并且无法是数组。数组变量不带索引的话,就只能包含数组第一元素的信息,而无法是整个数组。)
成对符、结尾符、退出码,和一些习惯
什么什么符
成对符:
"
:这个是和前或后的最近一个自己成对,有限找前没有则找后。'
:这个同上。{
}
:这俩是一对。(
)
:这俩是一对。[
]
:这俩是一对。do
done
:这俩是一对。if
fi
:这俩是一对。case
esac
:这俩是一对。
对于所有成对符,都有一个共同特性:在终端 SHell 上(就是一般的那种你手动操作的 SHell 命令行界面)编写的时候,只要前有开头而后无结尾,输入回车就不会触发命令执行。
成对符的作用见后文。
在下文会用到的一些概念:
「一行命令」指的是:你一敲回车就可以开始执行的整块代码
它不一定真的只能写成行:因为有时候你敲回车,它只给你显示一个换行,不执行,且解释时这个回车也是被当作一个空格来处理。
- 「行结尾符」:就是一行代码的最后一个字符。如果是
;
且后面是换行符的话,可省略不写,它会得到自动补全。 - 「一条命令」指的是:代表至少一个进程(它下面可能还会有子进程可能不会有)。
- 「条结尾符」:可以把多条命令连接成一行命令。
下文的「行结尾符」和「条结尾符」的最显著区别就是:
- 前者后面输入换行符会触发新进程的执行;
- 后者不会,只会多显示一个换行;
后者表现类似于「成对符只有头没有尾时输入了换行符」的表现,但本质不同。
之所以条结尾符后的换行符不会触发调起进程执行,是因为:在它之后、在后面那条命令开始之前,所有换行符,对于解释器都是等价于空格的。
- 另外,
{
}
和(
)
这两对成对符,能够把一行命令变为一条命令,从而进一步参与到代码对进程的组织中。
退出码:
一般,任何一条语句都有退出码。因为任何进程都有退出码,而一般一条语句代表一个进程。
退出码范围是 0 ~ 255
。已有约定: 0
表示 正确退出
,其余表示各种不同的 错误退出
。
结尾符:
;
:最普通的行结尾符。表示前面的执行完才执行后面的。一般是可以省略不写的,会被自动补全。&
:跟上面那个一样也是行结尾符,但是它会使得,被它结尾的 一行代码 所启动的一切进程,都放入后台执行,而不阻塞当前终端的操作。|
:条结尾符。管道,把前一条的 标准输出 内容变为后一条的 标准输入 内容。管道链条本身的退出码就是最后一条的退出码。&&
:条结尾符。它前一条成功执行(正确退出),它后一条才会执行。否则跳过后一条并以同样的退出码退出。||
:条结尾符。与前者刚好相反,它前一条失败执行(错误退出),后一条才会执行,否则跳过后一条并以同样的退出码(也就是0
)退出。
一些习惯
在终端命令行手动临时输入的时候,只要没必要,能省则省。
在脚本文件里,尽可能写清楚所有的 结尾符 。
在脚本文件里,尽可能在所有结尾符后都有换行。对于条结尾符,可根据个人喜好在换行后适当缩进,以突出你想强调的一些信息给代码读者(代码读者可能还是自己)。
玩玩并行
词汇解释:
- 并行:同时执行(不关注是不是互相独立)
- 并发:互相独立(不关注是不是同时执行)
一般需要同时执行的话,可能会想到用 &
指定进程后台执行。或在循环体内部这样。
我这有个更好的方案: xargs
。这是一个软件,通过安装 find-utils
软件包来安装。
道理
管道
管道就是 |
,它会把左边一条语句的 标准输出 直接当成是右边一条语句的 标准输入 。
不知道标准输入意味着什么,可以执行这段代码,然后随便输入些啥子试试: while read -p ':: ' -- z ; do echo $z ; done
。玩儿够了(退出按 Ctrl-D
),再在它前面加上个 cat xxx.txt |
试试。(只要是能输出很多行你读得懂的文本的一条命令就都可以不一定非要是查看某个 .txt
文件。)
标准输出?你在字符界面看到的大部分打印,其中怎么也得有一半是标准输出(另一半是标准错误)。
标准输出和标准错误就是俩名字、叫法。前者是能对接管道的接口,后者就是一个用来输出提示信息的东西。跟程序错没错没关系。(在 Linux 上文件的扩展名跟文件实际的格式也没有必然联系)
一般来说,管道后面那条语句的程序,都是处理自己标准输入得到的内容。比如你可以直接执行下面的代码后自己尝试输入些什么看看:
awk '/xx/{print$2}'
——可以分别输入这样的东西并回车试试:xx ss
egrege
echo xxxx
fgrep -v xx
——可以分别输入这样的东西并回车试试:xx ss
egrege
echo xxxx
bash
——可以分别输入这样的东西并回车试试:xx ss
egrege
echo xxxx
然后在当前路径搞一个文本(名字可以是 xxx
),内容就是:
xx ss
egrege
echo xxxx
(或者别的你想尝试的东西)
然后再试试这三个:
cat xxx | awk '/xx/{print$2}'
cat xxx | fgrep -v xx
cat xxx | bash
这下,你应该就能理解管道到底是什么了。
然后,你就可以用管道连起来多条命令,并且还能让数据被当代码执行。
也就是说
对于一个 Linux 程序来说,可能的信息来源途径有这些:
- 参数指示。(可以指示信息本身也可以指示信息获取途径。)
- 标准输入。(事实上——同上,也是可以指示信息本身也可以指示信息获取途径。)
Xargs
上面讲了管道。管道只管把东西扔给后面语句会调用的程序,别的不管,不同程序肯定有不同处理规则。
而 xargs
的规则就是,它会把收到的内容,尝试补全到,你在后面用参数指给它的程序的,参数列表上。
示例
批量增加文件名后缀
你有以下文件:
asser
xerz
mio
wee
heed
mox-x
...
你需要给他们共同的后缀 .png
你实际需要让下面每行代码一起执行:
mv asser asser.png
mv xerz xerz.png
mv mio mio.png
mv wee wee.png
mv heed heed.png
mv mox-x mox-x.png
...
如果有一万个文件,总不能全手打。就算你的编辑软件可以列编辑,这仍旧是个大工程。
用下面的代码就能让它们在受限制的情况下同时执行:
ls | xargs -i -P0 -- mv {} {}.png
这是比较完整的写法。
其中:
- 那个
{}
是-i
后的默认值,只是-i
其实就等于-i{}
。 - 那个
-P
后面的数字就是并发度了。0
表示动态契合当前运行机器的核心数。1
就是普通的串行,不写-P
也是串行。
稍微复杂一点的工作
如果你需要让稍微复杂一点的工作被 xargs
这样限制着同时执行——比如每一个工作都有「失败后就重来」的能力。
举个例子:
你在某目录下有以下文件:
10.21.233.1.txt
10.21.179.6.txt
10.33.230.5.txt
...
现在需要发他们到同文件名的服务器的同名目录。
一般代码是:
rsync -avz -- 10.21.233.1.txt 10.21.233.1:$PWD
这是把 10.21.233.1.txt
发到 10.21.233.1
里的,和 本地的当前所在目录 一样的目录。
如果想增加重试:
retring ()
{
retried=${1:-0} ;
rsync -avz -- 10.21.233.1.txt 10.21.233.1:$PWD &&
{ echo :succ :r :: $retried ; } ||
{ echo :fail :r :: $retried ; exec bash -c "$(declare -f retring) ; retring $((retried + 1))" ; } ;
} ;
就像上面这样定义,然后执行 retring
就好了。
(多说一句,这里只是举例子,对于 rsync
应该没这么用的。。。。网不通的话,就停止它并去检查网络,而不是像这样硬去重试。但是,往网上上传批量图片的话,网络不好,就可以用这招。)
如果是批量呢?
retring_xrg ()
{
retried=${1:-0} ;
rsync -avz -- {}.txt {}:$PWD &&
{ echo :succ :r :: $retried ; } ||
{ echo :fail :r :: $retried ; exec bash -c "$(declare -f retring_xrg) ; retring_xrg $((retried + 1))" ; } ;
} &&
ls | xargs -i -P4 -- bash -c "$(declare -f retring_xrg) ; retring_xrg" ;
这样就行啦!
其实说这个还是想强调一点:代码首先是数据。
上面的几个 bash -c
后面的紧挨着的那个值,是一个比较长的字符串。 declare -f retring_xrg
的效果大家可以自行试试,它就是把一个函数定义当作字符串给送到标准输出里头。
直接执行那么标准输出就是屏幕打印了,而,如果像上面 $(declare -f retring_xrg)
那样用的话,被丢给标准输出的字符串就会被用来替换掉这个 $(xxxx)
整体。从而,实际上, bash -c
后面的那个值,在被 bash
作为参数接收的时候,就已经是个写好了的函数定义,以及这个定义后面紧跟的 ; retring_xrg
了。
像如 $(xxx)
里面的 xxx
这部分代码,在它还没有结果的时候,它前面的 bash -c
是还没被解析的——换个比方就是:还没出生、只是做好了准备而已,这是因为关于它的代码还尚未得到完整的生成。
当然了,要清楚一点就是,不论是 --
还是 -c
还是 bash
还是后面双引号里那一大坨,这些都是 xargs
的 参数(或者有人可能习惯管这个叫「实参」不过我觉得其实也没必要)。其中的 --
属于选项的概念了,双短横线一般用于分开「选项」和「一般参数」,它们对于软件(这里就是 xargs
了)来说都是参数( args ),只不过根据软件的规则(这个规则不同软件一般也会统一)细分后,它前面的属于「选项」( opt ),它后面的是「一般参数」( para )。总之, xargs
以及后面所有的,这整个,是 一条命令 。再包含上前面的 ls |
就是 一行命令 了。
EOF
<style class="fallback">body{visibility:hidden}</style><script>markdeepOptions={tocStyle:'long'};</script>
<!-- Markdeep: --><script src="https://casual-effects.com/markdeep/latest/markdeep.min.js?" charset="utf-8"></script>
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。