linux awk 数组和循环[通俗易懂]

linux awk 数组和循环[通俗易懂]awk作为强大的文本处理工具,少不了数组处理。awk中数组叫做关联数组(associativearrays),下标可以是数字也可以是字符串。awk中的数组不必提前声明,也不必声明大小,初始化数组元素用0或空串,这根据上下文而定。一语法语法: awk'{pattern+action}’  或 awk’pattern{action}’其中pattern表示AWK

大家好,又见面了,我是你们的朋友全栈君。

awk 作为强大的文本处理工具,少不了数组处理。

awk 中数组叫做关联数组(associative arrays),下标可以是数字也可以是字符串。awk 中的数组不必提前声明,也不必声明大小,初始化数组元素用 0 或空串,这根据上下文而定。


一 语法

语法: awk ‘{pattern + action}’    或   awk ‘pattern {action}’

其中 pattern 表示 AWK 在数据中查找的内容, action 是在找到匹配内容时所执行的一系列命令。花括号 {} 不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组(作用域)。



二 数组定义

1 一维数组

a) 数字下标

array[1]=”it”
array[2]=”homer”
array[3]=”sunboy”
array[4]=2050


b) 字符下标

array[“first”]=”yang”
array[“second”]=”gang”
array[“third”]=”sunboy”


示例 1:

#!/bin/bash

awk 'BEGIN{
array[1]="it"
array[2]="homer"
array[3]="sunboy"
array[4]=2050


array["first"]="yang"
array["second"]="gang"
array["third"]="sunboy"


print array[1], array[4]
print array[3], array["third"]}'

结果:

it    2050
sunboy    sunboy

示例 2: 

#!/bin/bash

awk 'BEGIN{
   for(i=1; i<=5; i++){
       array[i] = i*2 - 1;
   }

   for(i in array){
       print i" = " array[i];
   }
}'

结果:

4 = 7
5 = 9
1 = 1
2 = 3
3 = 5

注: for in 输出数组元素顺序是不定的,下面介绍对数组如何排序



2 二维数组

awk 多维数组在本质上是一维数组,因awk在存储上并不支持多维数组,awk提供了逻辑上模拟二维数组的访问方式。例如,array[2,3] = 1这样的访问是允许的。

awk使用一个特殊的字符串SUBSEP (\034)作为分割字段,在上面的例子 array[2,3] = 1 中,关联数组array存储的键值实际上是2\0343,2和3分别为下标(2,3),\034为SUBSEP分隔符

类似一维数组的成员测试,多维数组可以使用 if ( (i,j) in array) 语法,但是下标必须放置在圆括号中。
类似一维数组的循环访问,多维数组使用 for ( item in array ) 语法遍历数组。与一维数组不同的是,多维数组必须使用split()函数来访问单独的下标分量,格式: split ( item, subscr, SUBSEP), 例如: split (item, array2, SUBSEP); 后,array2[1]为下标“2”, array2[2]为下标“3”

示例:

#!/bin/bash

awk 'BEGIN{
   for(i=1; i<=3; i++){
       for(j=1; j<=3; j++){
           array[i, j] = i * j;
           print i" * "j" = "array[i,j];
       }
   }

   print

   for(i in array){
       split(i, array2, SUBSEP);
       print array2[1]" * "array2[2]" = " array[i];
   }
}'

结果:

1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9

2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
3 * 1 = 3
3 * 2 = 6
3 * 3 = 9
1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
注: 示例中 split(i, array2, SUBSEP); 即是把二维数组作为一维数组处理,同样数组元素顺序不确定,下面将介绍数组排序



三 数组函数

1) 数组长度(length)

length(array) 获取数组长度, split 分割数组也返回数组长度,示例: 

#!/bin/bash

awk 'BEGIN{
    info="it is  a   test"; 
    len = split(info, array, " "); 
    
    print len, length(array);

    print
    for(i in array){
        print i" = " array[i];
    }
}'

结果:

4    4

4 = test
1 = it
2 = is
3 = a

2) 数组排序(asort)

asort对数组array按照首字母进行排序,返回数组长度;

如果要得到数组原本顺序,需要使用数组下标依次访问;

for…in 输出关联数组的顺序是无序的所以通过for…in 得到是无序的数组。如果需要得到有序数组,需要通过下标获得

示例: 

#!/bin/bash

awk 'BEGIN{
    info="it is  a   test"; 
    len = split(info, array, " "); 
    
    print len, length(array);

    print "--- for in ---"
    for(i in array){
        print i" = " array[i];
    }

    print "--- for ---"
    for(i=1; i<=len; i++){
        print i" = "array[i];
    }


    print
    print "--- asort ---"
    print "asort(array) = ", asort(array);
    

    print
    print "--- for in ---"
    for(i in array){
        print i" = " array[i];
    }

    print "--- for ---"
    for(i=1; i<=len; i++){
        print i" = "array[i];
    }
}'

结果:

4 4
— for in —
4 = test
1 = it
2 = is
3 = a
— for —
1 = it
2 = is
3 = a
4 = test

— asort —
asort(array) =  4

— for in —
4 = test
1 = a
2 = is
3 = it
— for —
1 = a
2 = is
3 = it
4 = test

3) 键值操作

a 查找键值(in)

awk ‘BEGIN{array[“a”]=”aaa”; array[“b”]=”bbb”; if(array[“c”]!=”ccc”){print “no found”;}; for(k in array){print k, array[k];}}’

结果:

no found
a aaa
b bbb

注: array[“c”]没有定义,但是循环时存在该键值,它的值为空。这是因为awk数组是关联数组,只要通过数组引用它的key,就会自动创建改序列


正确做法是用: in

awk ‘BEGIN{array[“a”]=”aaa”; array[“b”]=”bbb”; if(“c” in array){print “found”;}else{print “not found”}; for(k in array){print k, array[k];}}’

结果:

not found
a aaa
b bbb

注: 没有引用array下标“c”,因此没有添加到数组中


b 删除键值(delete)

awk ‘BEGIN{array[“a”]=”aaa”; array[“b”]=”bbb”; delete array[“a”]; for(k in array){print k, array[k];}}’ 

结果: b bbb




四 循环控制语句

linux awk中的流程控制语句和语法结构,与c语言类型。

awk 的 while、do-whilefor语句中允许使用breakcontinue语句来控制流程走向,也允许使用exit这样的语句来退出,其中break中断当前正在执行的循环并跳到循环外执行下一条语句;if 是流程选择用法。

1) if-else if 语句

#!/bin/bash

awk 'BEGIN{
    test = 80;
    if(test >= 90){
        print "good";
    }else if(test >= 80){
        print "soso";
    }else{
        print "fail";
    }
}'

结果: 
soso


2) for 语句

#!/bin/bash

awk 'BEGIN{
    for(i=1; i<=3; i++){
        array[i] = i*i;
        print i" = "array[i];
    }

    print
    for(i=1; i<=length(array); i++){
        if(array[i] > 5){  # larger 5 then break
            break;
        }
        print i" = "array[i];
    }
}'

结果:

1 = 1
2 = 4
3 = 9

1 = 1
2 = 4

3) while 语句

#!/bin/bash

awk 'BEGIN{
    test = 100;
    total=0;

    while(i<=test){
        total+=i;
        i++;
    }
    print "total = ", total;


    print
    test=100;
    total=0;
    i=0;

    do{
        total+=i;
        i++;
    }while(i<=test);
    print "total = ", total;
}'

结果:

total =  5050
total =  5050

以上为awk流程控制语句,从语法上与c语言是一样的。有了这些语句,其实很多shell程序都可以交给awk,而且性能是非常快


跳转关键字

break 当 break 语句用于 while 或 for 语句时,导致退出程序循环。
continue 当 continue 语句用于 while 或 for 语句时,使程序循环移动到下一个迭代。
next 能能够导致读入下一个输入行,并返回到脚本的顶部。这可以避免对当前输入行执行其他的操作过程。
exit 语句使主输入循环退出并将控制转移到END,如果END存在的话。如果没有定义END规则,或在END中应用exit语句,则终止脚本的执行。

性能比较

1) awk

time (awk ‘BEGIN{ total=0; for(i=0; i<=100000; i++){total+=i;} print total;}’)

结果:

5000050000

real 0m0.035s
user 0m0.020s
sys 0m0.016s


2) sed

time(total=0; for i in $(seq 100000); do total=$(($total+i)); done; echo $total;)

结果:

5000050000

real 0m0.976s
user 0m0.672s
sys 0m0.292s


测试100000累加,实现相同功能,awk实现的性能是shell 的约 30



参考推荐: 

awk 实例 (IBM)

沉于思考,默默学习

linux awk 内置函数实例

linux awk 内置变量实例

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/161628.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 关系数据库基础理论[通俗易懂]

    关系数据库基础理论[通俗易懂]mysql系列之一关系数据库基础理论正是数据库管理的需要催生了数据库管理系统DBMS,而关系型数据库管理系统为RDBMS常见的数据模型有三种:-层次模型-网状模型-关系模型一、关系数据库的产生在DBMS出现之前,人们用文件来管理数据,但存在很多缺陷:1.数据冗余和不一致性。数据冗余表示在每个shell脚本中基本上都是/bin/bash,但很多用户使用…

    2022年10月16日
    4
  • 芯片行业未来_为什么中国没有自己的芯片架构

    芯片行业未来_为什么中国没有自己的芯片架构【CSDN编者按】随着设备扩展带来的效益越来越少,人们开始设计内置AI的系统,以在本地处理更多数据。芯片制造商正在研究一种新的结构,这种结构能够显著增加每能耗和每个时钟周…

    2025年9月29日
    5
  • java 常量池和运行时常量池_常量池在jvm的哪个部分

    java 常量池和运行时常量池_常量池在jvm的哪个部分前言一直在《深入理解JVM》对常量池只有一个浅薄的了解,之前也遇到过这种题目,今天还是要挑出来进行一次全方位的了解。常量池分类常量池大体可以分为:静态常量池,运行时常量池。静态常量池存在于class文件中,比如经常使用的javap-verbose中,常量池总是在最前面把?运行时常量池呢,就是在class文件被加载进了内存之后,常量池保存在了方法区中,通常说的常量池值的…

    2025年10月17日
    5
  • 中国的程序员数量是否已经饱和或者过剩?「建议收藏」

    中国的程序员数量是否已经饱和或者过剩?「建议收藏」根据教育部数据显示:2020年本科毕业生人数874万人。《2020年中国大学生就业报告》显示:计算机类本科生在2020届毕业生数量中稳居前10。每年都有源源不断的新生力量加入程序员大军。另一方面,5G时代到来,对于互联网行业来说,未来将会有更多机会。各大互联网公司进入了新一轮技术资源抢占与加速发展;经过疫情的洗礼,各大传统企业也纷纷加入转型大军,重点发展线上业务;从国家“新基建”的行业分布来看,大多涉及互联网IT行业,预示了未来科学技术的发展走向……可以看到IT行业技术不断更新,专业IT人才随时都处

    2022年8月31日
    3
  • go 环境搭建(mac 版)

    go 环境搭建(mac 版)1.下载合适你电脑的版本,下载地址是:https://studygolang.com/dl,我是macm1的,我下载的是https://studygolang.com/dl/golang/go1.17.2.darwin-arm64.pkg如下图:2.下载完成后,双击安装,安装成功后如下图:3.打开终端,输入goversion如果出现版本成功,就是安装成功了,如下图:如果输入命令,说找不到commandnotfound:go的情况解决如下:…

    2022年10月12日
    4
  • 使用VScode配置Java环境—JDK-17

    使用VScode配置Java环境—JDK-17一、JDK的安装与环境配置1、在java的官网下载页面找到安装包进行安装。找到对应的操作系统,第一个是直接下载压缩包,第二个是下载一个下载器再安装,我是直接下的第一个。2、修改环境变量,先建立一个JAVA_HOME变量,将JDK的安装下载位置设为值。3、点击系统变量中的Path,然后点击编辑,然后把bin的路径填上。按道理来说其实填路径这一步,直接把bin的路径加到Path中也可以,但是网上好多教的都是做一个JAVA_HOME变量,我也不知道为啥。记得退出环境…

    2022年10月3日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号