当前位置：

首页
/
IT
/
linux
/
linux 比较两个文件的不同 (6/21)

linux 比较两个文件的不同 (6/21)

cmp 命令: 比较任意两个类型的文件, 且吧结果输出到标准输出, 默认文件相同不输出, 不同的文件输出差异

必要参数

-c 显示不同的信息

-l 列出所有的不同信息

-s 错误信息不提示

选择参数

-i <字符数> 指定字符数目

-v 显示版本信息

--help 显示帮助信息

[函数的返回值]

0 : 文件时同样的

1 : 文件是不同的

>1: 发生错误

comm 将逐行比较已经排序的两个文件. 显示结果包括 3 列:

第 1 列为只在 file1 中找到的行; 第 2 列为只在 file2 中找到的行; 第 3 列为两个文件的公用行.

参数

参数 file1 和 file2 为 comm 要比较的文件的路径名. 用连字符 (-) 来替代 file1 或者 file2 时, comm 将从标准输入读取输入信息

选项

-1 不显示第 1 列(即不显示只在 file1 中找到的行)

-2 不显示第 2 列(即不显示只在 file2 中找到的行)

-3 不显示第 3 列(即不显示在两个文件中都找到的行)

注意

如果文件没有排序, comm 就不能正常的工作

第 2 列的没一行前面有一个制表符, 第 3 列中的每一行前面有两个制表符

diff 命令是 linux 上非常重要的工具, 用于比较文件的内容, 特别是比较两个版本不同的文件以找到改动的地方. diff 在命令行中打印每一个行的改动. 最新版本的 diff 还支持二进制文件. diff 程序的输出被称为补丁 (patch), 因为 Linux 系统中还有一个 patch 程序, 可以根据 diff 的输出将 a.c 的文件内容更新为 b.c.diff 是 svn,cvs,git 等版本控制工具不可或缺的一部分.

diff 命令能比较单个文件或者目录内容. 如果指定比较的是文件, 则只有当输入为文本文件时才有效. 以逐行的方式, 比较文本文件的异同处. 如果指定比较的是目录的的时候, diff 命令会比较两个目录下名字相同的文本文件. 列出不同的二进制文件, 公共子目录和只在一个目录出现的文件.

3．命令参数:

- 指定要显示多少行的文本. 此参数必须与 - c 或 - u 参数一并使用.

-a 或 --text diff 预设只会逐行比较文本文件.

-b 或 --ignore-space-change 不检查空格字符的不同.

-B 或 --ignore-blank-lines 不检查空白行.

-c 显示全部内文, 并标出不同之处.

-C 或 --context 与执行 "-c-" 指令相同.

-d 或 --minimal 使用不同的演算法, 以较小的单位来做比较.

-D 或 ifdef 此参数的输出格式可用于前置处理器巨集.

-e 或 --ed 此参数的输出格式可用于 ed 的 script 文件.

-f 或 - forward-ed 输出的格式类似 ed 的 script 文件, 但按照原来文件的顺序来显示不同处.

-H 或 --speed-large-files 比较大文件时, 可加快速度.

-l 或 --ignore-matching-lines 若两个文件在某几行有所不同, 而这几行同时都包含了选项中指定的字符或字符串, 则不显示这两个文件的差异.

-i 或 --ignore-case 不检查大小写的不同.

-l 或 --paginate 将结果交由 pr 程序来分页.

-n 或 --rcs 将比较结果以 RCS 的格式来显示.

-N 或 --new-file 在比较目录时, 若文件 A 仅出现在某个目录中, 预设会显示: Only in 目录: 文件 A 若使用 - N 参数, 则 diff 会将文件 A 与一个空白的文件比较.

-p 若比较的文件为 C 语言的程序码文件时, 显示差异所在的函数名称.

-P 或 --unidirectional-new-file 与 - N 类似, 但只有当第二个目录包含了一个第一个目录所没有的文件时, 才会将这个文件与空白的文件做比较.

-q 或 --brief 仅显示有无差异, 不显示详细的信息.

-r 或 --recursive 比较子目录中的文件.

-s 或 --report-identical-files 若没有发现任何差异, 仍然显示信息.

-S 或 --starting-file 在比较目录时, 从指定的文件开始比较.

-t 或 --expand-tabs 在输出时, 将 tab 字符展开.

-T 或 --initial-tab 在每行前面加上 tab 字符以便对齐.

-u,-U 或 --unified= 以合并的方式来显示文件内容的不同.

-v 或 --version 显示版本信息.

-w 或 --ignore-all-space 忽略全部的空格字符.

-W 或 --width 在使用 - y 参数时, 指定栏宽.

-x 或 --exclude 不比较选项中所指定的文件或目录.

-X 或 --exclude-from 您可以将文件或目录类型存成文本文件, 然后在 = 中指定此文本文件.

-y 或 --side-by-side 以并列的方式显示文件的异同之处.

--help 显示帮助.

--left-column 在使用 - y 参数时, 若两个文件某一行内容相同, 则仅在左侧的栏位显示该行内容.

--suppress-common-lines 在使用 - y 参数时, 仅显示不同之处.

比较后的不同之处以指定的形式列出, 如下所示:

n1 a n3,n4

n1,n2 d n3

n1,n2 c n3,n4

其中, 字母 "a","d","c" 分别表示添加, 删除及修改操作. 而 "n1","n2" 表示在文件 1 中的行号,"n3","n4" 表示在文件 2 中的行号.

注意: 以上说明指定了两个文件中不同处的行号及其相应的操作. 在输出形式中, 每一行后面将跟随受到影响的若干行. 其中, 以 <开始的行属于文件 1, 以> 开始的行属于文件 2.

11,12d10表示第一个文件比第二个文件多了第 11 和 12 行.

diff
log2013
.log
log2014
.log
-y -W 50

"|" 表示前后 2 个文件内容有不同

"<" 表示后面文件比前面文件少了 1 行内容

">" 表示后面文件比前面文件多了 1 行内容

2,4c2,4 的含义是: 第一个文件中的第 [2,4] 行(注意这是一个闭合区间, 包括第 2 行和第 4 行)需要做出修改才能与第二个文件中的 [2,4] 行相匹配.

接下来的内容则告诉我们需要修改的地方, 前面带 <的部分表示左边文件的第 [2,4] 行的内容, 而带> 的部分表示右边文件的第 [2,4] 行的内容, 中间的 --- 则是两个文件内容的分隔符号.

diff
log2014
.log log2013.log  -u
--- log2014.log 2012-12-07 18:01:54.000000000 +0800   +++ log2013.log 2012-12-07 16:36:26.000000000 +0800

"-" 表示变动前的文件,"+++" 表示变动后的文件.

diff
log2013
.log log2014.log  -c

"+" 比较的文件的后者比前着多一行 "-" 比较的文件的后者比前着少一行 "!" 比较的文件两者有差别的行

comm 命令的参数

-1 不显示只在第 1 个文件里出现过的列.

-2 不显示只在第 2 个文件里出现过的列.

-3 不显示只在第 1 和第 2 个文件里出现过的列.

comm 命令是一个非常简洁的命令, 其只有两个参数. 不过三个参数也结常要组合使用, 我们常用的用法如下:

comm - 12 就只显示在两个文件中都存在的行;

comm - 23 只显示在第一个文件中出现而未在第二个文件中出现的行;

comm - 123 则什么也不显示.

comm 找出文件 2 中有, 文件 1 中没有的行:

cat /etc/dhcpd.conf|grep "fixed-address"|grep -v ^#|awk '{print $NF}'|sed 's/;//g'|sort> /tmp/1.txt
arp -n|grep ether|grep -v eth0|awk '{ print $1}'|sort>/tmp/2.txt
comm -23 2.txt 1.txt

注: 两个文件的内容在比较前, 一定要进行 sort 排序. 不然输出的结果将是错误的.

方法二: diff 命令比较

diff 命令是一个比较经典的文本比较工具了, diff 命令较 comm 的参数要多. 其经常和 patch 命令组合使用, 进行补丁升级. 其默认使用的是 - a 参数, 即逐行比较两个文件之间的不同. 此处我们要实现想要得到的结果, 还需要配合 grep 和 awk 实用:

diff 2.txt 1.txt |grep "<"|awk '$1 =" " '

注: 此处也发现, 在使用 diff 命令进行比较时, 也需要预先对经比较的文件进行 sort 排序, 不然输出的结果同样是不正确的.

方法三: awk 实现

awk 应该算是 shell 常用命令中的泰山北斗了, 几乎很多其他命令能完成的工作, awk 都能完成(只不过有些写起来可能比较复杂). 本例中也不例外:

awk 'NR==FNR{a[$0]++} NR>FNR&&!a[$0]' 1.txt 2.txt

找出两个文件之间的相同部分可以使用

awk 'NR==FNR{a[$0]++} NR>FNR&&a[$0]' 1.txt 2.txt

下面的两个语句也可以换成:

awk 'NR==FNR{a[$0]}NR>FNR{ if(!($1 in a)) print $0}' file1 file2 找出文件 2 中不同的值

awk 'NR==FNR{a[$0]}NR>FNR{ if($1 in a) print $0}' file1 file2 找出两文件中相同的值

注:

1,awk 实现时, 并不需要事先对两个文件进行 sort 排序,

2, 注意和上两个命令中两个文件的放置顺序是不同的. 三种实现方法, 文件的顺序一定颠倒, 颠倒了, 效果就刚好想反了, 就变成找出文件 1 中有文件 2 中没有的行了.

方法四: grep 误人子弟法

网上另外流传一个错误的方法, 即通过 grep 命令实现:

grep -v -f 1.txt 2.txt

经测试, 无论我事先是否对两个文件进行 sort 倒序, 此方法输出的结果, 发现都是不正确的.

linux 比较两个文件的不同(6/21)

来源: http://www.bubuko.com/infodetail-2654062.html

与本文相关文章

暂无,快来抢沙发吧！