<a target="_blank" href="https://www.huoban.com/news/tags-8196.html"style="font-weight:bold;">6.11</a> Linux awk<a target="_blank" href="https://www.huoban.com/news/tags-534.html"style="font-weight:bold;">命令</a>的高级玩法-伙伴云

6.11 Linux awk命令的高级玩法

网友投稿 950 2025-03-31

前面一节已经介绍了 awk 的基本用法，其实在 awk 脚本程序中，还支持使用一些编程语言，比如变量、数组、分支结构（if-then-else）、循环结构（while）、函数等，下面一一给大家介绍。

awk 使用变量

在 awk 的脚本程序中，支持使用变量来存取值。awk 支持两种不同类型的变量：

内建变量：awk 本身就创建好，用户可以直接拿来用的变量，这些变量用来存放处理数据文件中的某些字段和记录的信息。

自定义变量：awk 支持用户自己创建变量。

awk 程序使用内建变量来引用程序数据里的一些特殊功能。常见的一些内建变量，包括上一节介绍的数据字段变量（

awk 程序使用内建变量来引用程序数据里的一些特殊功能。常见的一些内建变量，包括上一节介绍的数据字段变量（$0、$1、

、、

2...

2...n）以及表 1 、表 2 中所示的这些变量。

在表 1 中，变量 FS 和 OFS 定义了 awk 如何处理数据流中的数据字段。我们已经知道了如何使用变量 FS 来定义记录中的字段分隔符，变量 OFS 具备相同的功能，只不过是用在 print 命令的输出上，例如：

[root@localhost ~]# cat data1 data11,data12,data13,data14,data15 data21,data22,data23,data24,data25 data31,data32,data33,data34,data35 [root@localhost ~]# awk 'BEGIN{FS=","; OFS="-"} {print ,,}' data1 data11-data12-data13 data21-data22-data23 data31-data32-data33 [root@localhost ~]# awk 'BEGIN{FS=","; OFS="--"} {print ,,}' data1 data11--data12--data13 data21--data22--data23 data31--data32--data33

可以看到，print 命令会自动将 OFS 变量的值放置在输出中的每个字段间。通过设置 OFS 变量，可以在输出中使用任意字符串来分隔字段。

FIELDWIDTHS 变量允许用户不依靠字段分隔符来读取记录。在一些应用程序中，数据并没有使用字段分隔符，而是被放置在了记录中的特定列，这种情况下，必须设定 FIELDWIDTHS 变量来匹配数据在记录中的位置。

一旦设置了 FIELDWIDTH 变量，awk 就会忽略 FS 变量，并根据提供的字段宽度来计算字段，下面是个采用字段宽度而非字段分隔符的例子：

[root@localhost ~]# cat data1b 1005.3247596.37 115-2.349194.00 05810.1298100.1 [root@localhost ~]# awk 'BEGIN{FIELDWIDTHS="3 5 2 5"}{print ,,,}' data1b 100 5.324 75 96.37 115 -2.34 91 94.00 058 10.12 98 100.1

6.11 Linux awk命令的高级玩法

注意，一旦设定了 FIELDWIDTHS 变量的值，就不能再改变了，因此，这种方法并不适用于变长的字段。

变量 RS 和 ORS 定义了 awk 程序如何处理数据流中的字段，默认情况下，awk 将 RS 和 ORS 设为换行符。默认的 RS 值表明，输入数据流中的每行新文本就是一条新纪录。有时，你会在数据流中碰到占据多行的字段。典型的例子是包含地址和电话号码的数据，其中地址和电话号码各占一行，例如：

Riley Mullen 123 Main Street Chicago, IL 60601 (312)555-1234

如果你用默认的 FS 和 RS 变量值来读取这组数据，awk 就会把每行作为一条单独的记录来读取，并将记录中的空格当作字段分隔符，这并不是用户想要的。

要解决这个问题，只需把 FS 变量设置成换行符，这就表明数据流中的每行都是一个单独的字段，每行上的所有数据都属于同一个字段；与此同时，把 RS 变量设置成空字符串，然后在数据记录间留一个空白行，awk 会把每个空白行当作一个记录分隔符。例如：

[root@localhost ~]# cat data2 Riley Mullen 123 Main Street Chicago, IL 60601 (312)555-1234 Frank Williams 456 Oak Street Indianapolis, IN 46201 (317)555-9876 Haley Snell 4231 Elm Street Detroit, MI 48201 (313)555-4938 [root@localhost ~]# awk 'BEGIN{FS="\n"; RS=""} {print $1,$4}' data2 Riley Mullen (312)555-1234 Frank Williams (317)555-9876 Haley Snell (313)555-4938

其中，FNR 和 NR 变量虽然类似，但又略有不同。FNR 变量含有当前数据文件中已处理过的记录数，NR 变量则含有已处理过的记录总数。举个例子：

[root@localhost ~]# cat data1 data11,data12,data13,data14,data15 data21,data22,data23,data24,data25 data31,data32,data33,data34,data35 [root@localhost ~]# awk ' \> BEGIN {FS=","} \> {print $1,"FNR="FNR,"NR="NR} \> END{print "There were",NR,"records processed"}' data1 data1 data11 FNR=1 NR=1 data21 FNR=2 NR=2 data31 FNR=3 NR=3 data11 FNR=1 NR=4 data21 FNR=2 NR=5 data31 FNR=3 NR=6 There were 6 records processed

由此可以看出，当只使用一个数据文件作为输入时，FNR 和 NR 的值是相同的；如果使用多个数据文件作为输入，FNR 的值会在处理每个数据文件时被重置，而 NR 的值则会继续计数直到处理完所有的数据文件。

和其他典型的编程语言一样，awk 允许用户定义自己的变量在脚本程序中使用。awk 自定义变量名可以是任意数目的字母、数字和下划线，但不能以数字开头。更重要的是，awk 变量名区分大小写。

举个简单的例子：

[root@localhost ~]# awk ' \> BEGIN{ \> testing="This is a test" \> print testing \> testing=45 \> print testing \> }' This is a test 45

可以看到，print 语句的输出是 testing 变量的当前值。

也可以用 awk 命令行来给程序中的变量赋值，这允许我们在正常的代码之外赋值，即时改变变量的值，比如：

[root@localhost ~]# cat script1 BEGIN{FS=","} {print $n} [root@localhost ~]# awk -f script1 n=2 data1 data12 data22 data32 [root@localhost ~]# awk -f script1 n=3 data1 data13 data23 data33

需要注意的是，使用命令行参数来定义变量值会有一个问题，即设置了变量后，这个值在代码的 BEGIN 部分不可用，如下所示：

[root@localhost ~]# cat script2 BEGIN{print "The starting value is",n; FS=","} {print $n} [root@localhost ~]# awk -f script2 n=3 data1 The starting value is data13 data23 data33

解决这个问题，可以用 -v 命令行参数，它可以实现在 BEGIN 代码之前设定变量。在命令行上，-v 命令行参数必须放在脚本代码之前，如下所示：

[root@localhost ~]# awk -v n=3 -f script2 data1 The starting value is 3 data13 data23 data33

awk 使用数组

为了在单个变量中存储多个值，许多编程语言都提供数组，awk 使用关联数组提供数组功能。

关联数组跟数字数组不同之处在于，它的索引值可以是任意文本字符串。用户不需要用连续的数字来标识数组中的数据元素；相反，关联数组用各种字符串来引用值。每个索引字符串都必须能够唯一地标识出赋给它的数据元素。

如果你熟悉其他编程语言的话，其实关联数组和散列表、字典的用法类似。

在 awk 脚本程序中，定义一个数组变量可以使用标准复制语句，其基本格式为：

var[index]=element

其中，var 是数组名，index 是关联数组的索引值，element 是数据元素值。例如：

capital["Illinois"] = "Springfield" capital["Indiana"] = "Indianapolis" capital["Ohio"] = "Columbus"

在引用数组变量时，必须用索引值（index）来提取相应的数据元素值，例如：

[root@localhost ~]# awk 'BEGIN{ \> capital["Illinois"] = "Springfield" \> print capital["Illinois"] \> }' Springfield

数组变量也是变量，也可以使用其进行基本的算术运算，例如：

[root@localhost ~]# awk 'BEGIN{ \> var[1] = 34 \> var[2] = 3 \> total = var[1] + var[2] \> print total \> }' 37

在 awk 中遍历关联数组，可以用 for 语句的一种特殊形式：

for (var in array) { statements }

这个 for 语句会在每次循环时将关联数组 array 的下一个索引值赋给变量 var，然后执行一遍 statements。

再次强调，整个遍历过程中，传给 var 的都是每个数组元素的索引值（也就是 index），不是数组元素的值。

举个例子：

[root@localhost ~]# awk 'BEGIN{ \> var["a"] = 1 \> var["g"] = 2 \> var["m"] = 3 \> var["u"] = 4 \> for (test in var) \> { \> print "Index:",test," - Value:",var[test] \> } \> }' Index: u - Value: 4 Index: m - Value: 3 Index: a - Value: 1 Index: g - Value: 2

注意，索引值不会按任何特定顺序返回，但它们都能够指向对应的数据元素值。

awk脚本程序还支持从关联数组中删除某个数组索引，使用 delete 命令就可以，此命令会从数组中删除指定的索引值及相关的数据元素的值。

delete 命令的基本格式如下：

delete array[index]

举个例子：

[root@localhost ~]# awk 'BEGIN{ \> var["a"] = 1 \> var["g"] = 2 \> for (test in var) \> { \> print "Index:",test," - Value:",var[test] \> } \> delete var["g"] \> print "---" \> for (test in var) \> { \> print "Index:",test," - Value:",var[test] \> } \> }' Index: a - Value: 1 Index: g - Value: 2 \--- Index: a - Value: 1

需要注意的是，一旦从关联数组中删除了索引值，就没法再用它来提取元素值。

awk使用分支结构

awk 支持标准的 if-then-else 格式的 if 语句，其基本格式为：

if (condition) statement1 else statements

也可以将它放在一行上，像这样：

if (condition) statement1；else statement2

举个简单的例子：

[root@localhost ~]# cat data4 10 5 13 50 34 [root@localhost ~]# awk '{if ($1 > 20) print $1 * 2; else print $1 / 2}' data4 5 2.5 6.5 100 68

awk使用循环结构

awk 脚本程序中，可以使用 while、do-while、for 这 3 种循环结构，它们各自的基本格式分别如表 3 所示。

awk使用函数

和内建变量类似，awk 也提供了不少内建函数，可进行一些常见的数学、字符串以及时间函数运算，如表 4 所示。

时间戳指的是格林威治时间，即从 1970年1月1日8时1起到现在的总秒数。

除了awk 中的内建函数，还可以在 awk 脚本程序中自定义函数，创建自定义函数的基本格式为：

function 函数名(参数1，参数2，...) { 运行代码； }

注意，自定义函数的函数名必须能够唯一标识此函数，换句话说，在同一个 awk 脚本程序中，多个函数的函数名不能相同。同时，函数的参数可以有多个（0 个、1 个或多个）。

例如：

function printthird() { print $3 }

此函数会打印记录中的第三个数据字段。

函数还能用 return 语句返回值，例如：

function myrand(limit) { return int(limit * rand()) }

需要注意的是，在定义函数时，它必须出现在所有代码块之前（包括 BEGIN 和 END代码块）。

awk 提供了一种途径来将多个函数放到一个库文件中，这样用户就能在所有的 awk 脚本程序中使用了。为了方便大家理解，下面给大家举个实例。

首先，我们需要创建一个存储所有 awk 函数的文件：

[root@localhost ~]# cat funclib function myprint() { printf "%-16s - %s\n", $1, $4 } function myrand(limit) { return int(limit * rand()) } function printthird() { print $3 }

要想让 awk 成功读取 funclib 函数库文件，就需要使用 -f 选项，但此选项无法和 awk 脚本程序同时放到命令行中一起使用。因此，要使用库函数文件，只能再创建一个脚本程序文件，例如：

[root@localhost ~]# cat script4 BEGIN{ FS="\n"; RS=""} { myprint() } [root@localhost ~]# awk -f funclib -f script4 data2 Riley Mullen - (312)555-1234 Frank Williams - (317)555-9876 Haley Snell - (313)555-4938

linux 数据结构

常用 命令2(升级版)">Linux常用 命令2(升级版)

950 2025-03-31

保护 Apache Web 服务器的技巧">在 Linux 上保护 Apache Web 服务器的技巧

950 2025-03-31

Scrapy-Splash 的安装

950 2025-03-31

6.11 Linux awk命令的高级玩法

常用 命令2(升级版)">Linux常用 命令2(升级版)

保护 Apache Web 服务器的技巧">在 Linux 上保护 Apache Web 服务器的技巧

Scrapy-Splash 的安装

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

6.11 Linux awk命令的高级玩法

微信扫一扫：分享

常用命令2(升级版)">Linux常用命令2(升级版)

保护 Apache Web 服务器的技巧">在 Linux 上保护 Apache Web 服务器的技巧

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

友情链接