linux脚本Shell之awk详解

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

linux脚本Shell之awk详解
⼀．基本介绍
1.awk:
awk是⼀个强⼤的⽂本分析⼯具，在对⽂本⽂件的处理以及⽣成报表，awk是⽆可替代的。

awk认为⽂本⽂件都是结构化的，它将每⼀个输⼊⾏定义为⼀个记录，⾏中的每个字符串定义为⼀个域(段)，域和域之间使⽤分割符分割。

2.功能：流控制、数学运算、进程控制、内置的变量和函数、循环和判断
3.⼯作原理：
awk 会把每⾏进⾏⼀个拆分，⽤相应的命令对拆分出来的“段”进⾏处理。

（1）⾏⼯作模式，读⼊⽂件的每⼀⾏，会把⼀⾏的内容，存到$0⾥
（2）使⽤内置的变量FS(段的分隔符，默认⽤的是空⽩字符)，分割这⼀⾏，把分割出来的每个段存到相应的变量$(1-100)
（3）输出的时候按照内置变量OFS(out FS)，输出
（4）读⼊下⼀⾏继续操作
简单实例
1 [root@tx3 ~]# echo "this is a book" > awk.txt
2 [root@tx
3 ~]# awk '{print $2,$1,$3,$4}' awk.txt
is this a book
4. Awk常⽤内置变量表：
1 $0 当前记录（作为单个变量）
2 $1~$n 当前记录的第n个字段，字段间由FS分隔
3 FS 输⼊字段分隔符默认是空格（可记忆为：FieldsSpace缩写）
4 NF 当前记录中的字段个数，就是有多少列（可记忆为：NumberFields缩写）
5 NR 已经读出的记录数，就是⾏号，从1开始（可记忆为：NumberRows缩写）
6 RS 输⼊的记录他隔符默认为换⾏符（可记忆为：RowsSpace缩写）
7 OFS 输出字段分隔符默认也是空格（可记忆为：OutputFieldsSpace缩写）
8 ORS 输出的记录分隔符，默认为换⾏符（可记忆为：OutputRowsSpace缩写）
9 ARGC 命令⾏参数个数
10 ARGV 命令⾏参数数组
11 FILENAME 当前输⼊⽂件的名字
12 IGNORECASE 如果为真，则进⾏忽略⼤⼩写的匹配
13 ARGIND 当前被处理⽂件的ARGV标志符
14 CONVFMT 数字转换格式 %.6g
15 ENVIRON UNIX环境变量
16 ERRNO UNIX系统错误消息
17 FIELDWIDTHS 输⼊字段宽度的空⽩分隔字符串
18 FNR 当前记录数
19 OFMT 数字的输出格式 %.6g
20 RSTART 被匹配函数匹配的字符串⾸
21 RLENGTH 被匹配函数匹配的字符串长度
⼆．print的简单使⽤
例：打印整⾏: $0
1 [root@tx3 ~]# cp /etc/passwd p1
2 [root@tx
3 ~]# awk '{print $0}' p1
例：打印每⾏的最后⼀个字段: $NF
1 [root@tx3 ~]# awk -F : '{print $NF}' p1
例：打印第三个字段: $3
[root@tx3 ~]# awk -F : '{print $3}' p1
例：打印第⼀⾏NR==1
1 [root@tx3 ~]# awk 'NR==1{print $0}' p1
root:x:0:0:root:/root:/bin/bash
例：打印最后⼀⾏
1 [root@tx3 ~]# awk 'END{print $0}' p1
tx:x:500:500:tx:/home/tx:/bin/bash
例：打印第⼀⾏最后⼀个字段
1 [root@tx3 ~]# awk -F: 'NR==1{print $NF}' p1
/bin/bash
例：打印最后⼀⾏最后⼀个字段
1 [root@tx3 ~]#awk -F: 'END{print $NF}' p1
例：打印每⾏的倒数第⼆个字段，并在其后打印你好
1 [root@tx3 ~]# awk -F: '{print $(NF-1),"nihao"}' p1
/root nihao
/bin nihao
/sbin nihao
例：打印⾏号
1 [root@tx3 ~]# awk '{print NR,$0}' p1
1 root:x:0:0:root:/root:/bin/bash
2 bin:x:1:1:bin:/bin:/sbin/nologin
3 daemon:x:2:2:daemon:/sbin:/sbin/nologin
例：打印当前系统环境变量的某个特定值
1 [root@tx3 ~]# awk 'BEGIN{print ENVIRON["PATH"];}'
/usr/kerberos/sbin:/usr/kerberos/bin:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
例：⽤:分割，删除第2个字段
1 [root@tx3 ~]# awk 'BEGIN{FS=":";OFS=":"}{print $1,$3,$4,$5,$6,$7}' p1
root:0:0:root:/root:/bin/bash
bin:1:1:bin:/bin:/sbin/nologin
daemon:2:2:daemon:/sbin:/sbin/nologin
BEGIN和END:(打印报表实例)
在Unix awk中两个特别的表达式，BEGIN和END，这两者都可⽤于pattern中（参考前⾯的awk语法），提供BEGIN和END的作⽤是给程序赋予初始状态和在程序结束之后执⾏⼀些扫尾的⼯作。

任何在BEGIN之后列出的操作（在{}内）将在Unix awk开始扫描输⼊之前执⾏，⽽END之后列出的操作将在扫描完全部的输⼊之后执⾏。

因此，通常使⽤BEGIN来显⽰变量和预置（初始化）变量，使⽤END来输出最终结果。

例：累计销售⽂件xs中的销售⾦额（假设销售⾦额在记录的第三字段）：
1 [root@tx3 ~]#awk 'BEGIN{FS=":";print "统计销售⾦额";total=0}{print $3;total=total+$3;}END{printf "销售⾦额总计：%.2f",total}' sx
在这⾥，BEGIN预置了内部变量FS（字段分隔符）和⾃定义变量total,同时在扫描之前显⽰出输出⾏头。

⽽END则在扫描完成后打印出总合计。