来源 https://www.ibm.com/developerworks/cn/linux/l-cn-gdbmp/index.htmlGDB 是 linux 系统上常用的 c/c++ 调试工具,功能十分强大。对于较为复杂的系统,比如多进程系统,如何使用 GDB 调试呢?考虑下面这个三进程系统:
Proc2 是 Proc1 的子进程,Proc3 又是 Proc2 的子进程。如何使用 GDB 调试 proc2 或者 proc3 呢?
实际上,GDB 没有对多进程程序调试提供直接支持。例如,使用 GDB 调试某个进程,如果该进程 fork 了子进程,GDB 会继续调试该进程,子进程会不受干扰地运行下去。如果你事先在子进程代码里设定了断点,子进程会收到 SIGTRAP 信号并终止。那么该如何调试子进程呢?其实我们可以利用 GDB 的特点或者其他一些辅助手段来达到目的。此外,GDB 也在较新内核上加入一些多进程调试支持。
接下来我们详细介绍几种方法,分别是 follow-fork-mode 方法,attach 子进程方法和 GDB wrapper 方法。
在 2.5.60 版 Linux 内核及以后,GDB 对使用 fork/vfork 创建子进程的程序提供了 follow-fork-mode 选项来支持多进程调试。
follow-fork-mode 的用法为:
- set follow-fork-mode [parent|child]
因此如果需要调试子进程,在启动 gdb 后:
1
|
|
并在子进程代码设置断点。
此外还有 detach-on-fork 参数,指示 GDB 在 fork 之后是否断开(detach)某个进程的调试,或者都交由 GDB 控制:
- set detach-on-fork [on|off]
注意,最好使用 GDB 6.6 或以上版本,如果你使用的是 GDB6.4,就只有 follow-fork-mode 模式。
follow-fork-mode/detach-on-fork 的使用还是比较简单的,但由于其系统内核 / gdb 版本限制,我们只能在符合要求的系统上才能使用。而且,由于 follow-fork-mode 的调试必然是从父进程开始的,对于 fork 多次,以至于出现孙进程或曾孙进程的系统,例如上图 3 进程系统,调试起来并不方便。
众所周知,GDB 有附着(attach)到正在运行的进程的功能,即 attach <pid> 命令。因此我们可以利用该命令 attach 到子进程然后进行调试。
例如我们要调试某个进程 RIM_Oracle_Agent.9i,首先得到该进程的 pid
1
2
3
|
|
通过 pstree 可以看到,这是一个三进程系统,oserv 是 RIM_Oracle_prog 的父进程,RIM_Oracle_prog 又是 RIM_Oracle_Agent.9i 的父进程。
1
|
|
启动 GDB,attach 到该进程
现在就可以调试了。一个新的问题是,子进程一直在运行,attach 上去后都不知道运行到哪里了。有没有办法解决呢?
一个办法是,在要调试的子进程初始代码中,比如 main 函数开始处,加入一段特殊代码,使子进程在某个条件成立时便循环睡眠等待,attach 到进程后在该代码段后设上断点,再把成立的条件取消,使代码可以继续执行下去。
至于这段代码所采用的条件,看你的偏好了。比如我们可以检查一个指定的环境变量的值,或者检查一个特定的文件存不存在。以文件为例,其形式可以如下:
1
2
3
4
5
6
7
8
9
10
|
{
while(1)
{
if (tag_file 存在)
睡眠一段时间; else
break; }
}
|
当 attach 到进程后,在该段代码之后设上断点,再把该文件删除就 OK 了。当然你也可以采用其他的条件或形式,只要这个条件可以设置 / 检测即可。
Attach 进程方法还是很方便的,它能够应付各种各样复杂的进程系统,比如孙子 / 曾孙进程,比如守护进程(daemon process),唯一需要的就是加入一小段代码。
很多时候,父进程 fork 出子进程,子进程会紧接着调用 exec 族函数来执行新的代码。对于这种情况,我们也可以使用 gdb wrapper 方法。它的优点是不用添加额外代码。
其基本原理是以 gdb 调用待执行代码作为一个新的整体来被 exec 函数执行,使得待执行代码始终处于 gdb 的控制中,这样我们自然能够调试该子进程代码。
还是上面那个例子,RIM_Oracle_prog fork 出子进程后将紧接着执行 RIM_Oracle_Agent.9i 的二进制代码文件。我们将该文件重命名为 RIM_Oracle_Agent.9i.binary,并新建一个名为 RIM_Oracle_Agent.9i 的 shell 脚本文件,其内容如下:
1
2
3
4
|
#!/bin/sh
|
当 fork 的子进程执行名为 RIM_Oracle_Agent.9i 的文件时,gdb 会被首先启动,使得要调试的代码处于 gdb 控制之下。
新的问题来了。子进程是在 gdb 的控制下了,但还是不能调试:如何与 gdb 交互呢?我们必须以某种方式启动 gdb,以便能在某个窗口 / 终端与 gdb 交互。具体来说,可以使用 xterm 生成这个窗口。
xterm 是 X window 系统下的模拟终端程序。比如我们在 Linux 桌面环境 GNOME 中敲入 xterm 命令:
就会跳出一个终端窗口:
如果你是在一台远程 linux 服务器上调试,那么可以使用 VNC(Virtual Network Computing) viewer 从本地机器连接到服务器上使用 xterm。在此之前,需要在你的本地机器上安装 VNC viewer,在服务器上安装并启动 VNC server。大多数 linux 发行版都预装了 vnc-server 软件包,所以我们可以直接运行 vncserver 命令。注意,第一次运行 vncserver 时会提示输入密码,用作 VNC viewer 从客户端连接时的密码。可以在 VNC server 机器上使用 vncpasswd 命令修改密码。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
[root@tivf09 root]#
[root@tivf09 root]#
|
Vncserver 是一个 Perl 脚本,用来启动 Xvnc(X VNC server)。X client 应用,比如 xterm,VNC viewer 都是和它通信的。如上所示,我们可以使用的 DISPLAY 值为 tivf09:1。现在就可以从本地机器使用 VNC viewer 连接过去:
输入密码:
登录成功,界面和服务器本地桌面上一样:
下面我们来修改 RIM_Oracle_Agent.9i 脚本,使它看起来像下面这样:
1
2
|
#!/bin/sh
|
如果你的程序在 exec 的时候还传入了参数,可以改成:
1
2
|
#!/bin/sh
|
最后加上执行权限
1
|
|
现在就可以调试了。运行启动子进程的程序:
1
2
3
4
5
6
7
8
9
10
11
12
|
Instance Home :
Instance Name :
|
程序停住了。从 VNC viewer 中可以看到,一个新的 gdb xterm 窗口在服务器端打开了
1
2
3
4
|
|
运行的正是要调试的程序。设置好断点,开始调试吧!
注意,下面的错误一般是权限的问题,使用 xhost 命令来修改权限:
1
2
3
|
|
xhost + 禁止了访问控制,从任何机器都可以连接过来。考虑到安全问题,你也可以使用 xhost + <你的机器名>。
上述三种方法各有特点和优劣,因此适应于不同的场合和环境:
来源: http://www.bubuko.com/infodetail-2435485.html