Unix 是一个多任务系统,允许多用户同时运行多个程序。shell 的元字符
提供了在后台运行不需要键盘输入的程序的方法。输入命令后,其后紧跟
- &
字符,该命令就会被送往到 linux 后台执行,而终端又可以继续输入下一个命令了。比如:
- &
- sh a.sh &
- sh b.sh &
- sh c.sh &
这三个命令就会被同时送往 linux 后台执行,在这个程度上,认为这三个命令并发执行了。
文件描述符(缩写 fd)在形式上是一个非负整数。实际上,它是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时,内核向进程返回一个文件描述符。每一个 unix 进程,都会拥有三个标准的文件描述符,来对应三种不同的流:
文件描述符 | 名称 |
---|---|
0 | Standard Input |
1 | Standard Output |
2 | Standard Error |
每一个文件描述符会对应一个打开文件,同时,不同的文件描述符也可以对应同一个打开文件;同一个文件可以被不同的进程打开,也可以被同一个进程多次打开。
在
中,列举了进程
- /proc/PID/fd
所拥有的文件描述符,例如
- PID
- #!/bin/bash
- source /etc/profile;
- # $$表示当前进程的PID
- PID=$$
- # 查看当前进程的文件描述符指向
- ll /proc/$PID/fd
- echo "-------------------";echo
- # 文件描述符1与文件tempfd1进行绑定
- ( [ -e ./tempfd1 ] || touch ./tempfd1 ) && exec 1<>./tempfd1
- # 查看当前进程的文件描述符指向
- ll /proc/$PID/fd
- echo "-------------------";echo;
- [ learn_linux]$ sh learn_redirect.sh
- total 0
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 0 -> /dev/pts/0
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 1 -> /dev/pts/0
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 2 -> /dev/pts/0
- lr-x------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 255 -> /home/ouyangyewei/workspace/learn_linux/learn_redirect.sh
- -------------------
- [ learn_linux]$ cat tempfd1
- total 0
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 0 -> /dev/pts/0
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 1 -> /home/ouyangyewei/workspace/learn_linux/tempfd1
- lrwx------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 2 -> /dev/pts/0
- lr-x------. 1 ouyangyewei ouyangyewei 64 Jan 4 22:17 255 -> /home/ouyangyewei/workspace/learn_linux/learn_redirect.sh
- -------------------
上述的例子中第 12 行,将文件描述符 1 与文件
进行了绑定,此后,文件描述符 1 指向了
- tempfile
文件,标准输出被重定向到了文件
- tempfile
中。
- tempfile
在 Unix 或类 Unix 操作系统中,管道是一个由标准输入输出链接起来的进程集合,因此,每一个进程的输出将直接作为下一个进程的输入,
linux 管道包含两种:
在 Unix 或类 Unix 操作系统的命令行中,匿名管道使用 ASCII 中垂直线
作为匿名管道符,匿名管道的两端是两个普通的,匿名的,打开的文件描述符:一个只读端和一个只写端,这就让其它进程无法连接到该匿名管道。
- |
例如:
- cat file | less
为了执行上面的指令,Shell 创建了两个进程来分别执行
和
- cat
。下图展示了这两个进程是如何使用管道的:
- less
有一点值得注意的是两个进程都连接到了管道上,这样写入进程
就将其标准输出(文件描述符为
- cat
)连接到了管道的写入端,读取进程
- fd 1
就将其标准输入(文件描述符为
- less
)连接到了管道的读入端。实际上,这两个进程并不知道管道的存在,它们只是从标准文件描述符中读取数据和写入数据。shell 必须要完成相关的工作。
- fd 0
命名管道也称 FIFO,从语义上来讲,FIFO 其实与匿名管道类似,但值得注意:
命令),存在于文件系统中;
- mkfifo
比如,可以利用 FIFO 实现单服务器、多客户端的应用程序:
有了上面的知识准备,现在可以开始讲述,linux 多进程并发时,如何控制每次并发的进程数。
最近小 A 需要生产 2015 年全年的 KPI 数据报表,现在小 A 已经将生产脚本写好了,生产脚本一次只能生产指定一天的 KPI 数据,假设跑一次生产脚本需要 5 分钟,那么:
既然不能一次性把 365 个任务放到 linux 后台执行,那么,能不能实现自动地每次将 N 个任务放到后台并发执行呢?当然是可以的啦。
- #! /bin/bash
- source /etc/profile;
- # -----------------------------
- tempfifo=$$.fifo # $$表示当前执行文件的PID
- begin_date=$1 # 开始时间
- end_date=$2 # 结束时间
- if [ $# -eq 2 ]
- then
- if [ "$begin_date" \> "$end_date" ]
- then
- echo "Error! $begin_date is greater than $end_date"
- exit 1;
- fi
- else
- echo "Error! Not enough params."
- echo "Sample: sh loop_kpi 2015-12-01 2015-12-07"
- exit 2;
- fi
- # -----------------------------
- trap "exec 1000>&-;exec 1000<&-;exit 0" 2
- mkfifo $tempfifo
- exec 1000<>$tempfifo
- rm -rf $tempfifo
- for ((i=1; i<=8; i++))
- do
- echo >&1000
- done
- while [ $begin_date != $end_date ]
- do
- read -u1000
- {
- echo $begin_date
- hive -f kpi_report.sql --hivevar date=$begin_date
- echo >&1000
- } &
- begin_date=`date -d "+1 day $begin_date" +"%Y-%m-%d"`
- done
- wait
- echo "done!!!!!!!!!!"
:
- sh loop_kpi_report.sh 2015-01-01 2015-12-01
表示脚本入参的第一个参数,等于 2015-01-01
- $1
表示脚本入参的第二个参数,等于 2015-12-01
- $2
表示脚本入参的个数,等于 2
- $#
是转义
- \>
中断命令,则关闭文件描述符 1000 的读写,并正常退出
- Ctrl+C
表示关闭文件描述符 1000 的写
- exec 1000>&-;
表示关闭文件描述符 1000 的读
- exec 1000<&-;
读的绑定,
- <
写的绑定,
- >
则标识对文件描述符 1000 的所有操作等同于对管道文件
- <>
的操作
- $tempfifo
的作用就是读取管道中的一行,在这里就是读取一个空行;每次读取管道就会减少一个空行
- read -u1000
吗?它表示进程放到 linux 后台中执行
- &
每次操作,都会导致管道减少一个空行,当 linux 后台放入了 8 个任务之后,由于文件描述符 1000 没有可读取的空行,将导致
- read -u1000
一直处于等待。
- read -u1000
来源: