Linux-awk数组

Linux-awk数组linuxawk数组

大家好,又见面了,我是你们的朋友全栈君。

闲话: Linux 从来没有系统的学过,AWK 这个高端的东西更没有系统全面的学过,知道真正项目中遇到的时候才会想着系统的学习一下,今天先写一下AWK的数组使用,网上有很多这样的文章,但是很多地方都没有讲的很细,所以看了半天还是一知半解,今天来细细的分析一下(本人忘心大,所以每次都的写的很细,以便以后能看懂,大牛或者觉得繁琐的请略过。偷笑


先简单说明一下awk吧

1. 官方解释AWK 

awk :适用程序,一种unix工具
就是一个强大的文本分析工具,相对于grep查找、sed的编辑,awk在对数据分析并生成报告的时候,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种处理。

用法:

1) awk [ -F separator] ‘{pattern action}’  fileName

或者2)awk [ -F separator] ‘ pattern {action}’  fileName


2. 个人理解

像一个for循环,逐行读入文件内容(或者管道传输过来的值) ,然后使用分隔符将每行切片(用户可以指定自己想使用的分隔符)


3. AWK数组

因为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。和Java等数组不一样,Java等数组下表只能是数字。其实这里的数组相当于Java等语言中的Map。 AWK 的下标是关键字。值和关键字都存储在内部的一张针对key/value应用hash的表格里。由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,awk也同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。 说了一大堆,如果你没看太懂,你只要记住把awk数组看成是Map就可以

eg:  a[1] =  5 a[2] = 6 其实相当于 map.key = 1 map.value = 5 map.key=2 map.value=6 这也就说是为什么下表可以是数字或者字母。


4. 举例


1)[root@admin home]# cat awk.txt
aaa

bbb

ccc

aaa

bbb

aaa


统计一下awk.txt文件中每个字符串名出现的次数:cat awk.txt | awk ‘{a[$1]++} END { for (i in a) {print i,a[i]}}’

a[$1]++ : 就是awk  数组的形式,  a 是数组名称, [$1]做为key . 现在我们需要计算每个字符串出现的次数,所以需要把扫描到的相同的字符串名分别存储起来 ,就是键值对的数组,这里的键—对应的就是字符串,如aaa,值 — 对应的就是aaa出现的次数。数组a中的下标$1代表的是第一个域中列名,如aaa。awk开始逐行扫描,相当于for循环,每扫到一个相同的字符串,对应的hash数组里的值就+1,如a[aaa]++,直到扫到文件的结尾。(注:数组的默认值为空,如果要做++操作了,就会把里的值变成0)

awk数组不需要定义,可以直接赋值。 


2) 有文件file.log内容如下:

http://www.sohu.com/aaa

http://www.sina.com/111

http://www.sohu.com/bbb

http://www.sina.com/222

http://www.sohu.com/ccc

http://www.163.com/zzz

http://www.sohu.com/ddd


要统每个域名出现次数:

http://www.sohu.com 4

http://www.sina.com 2

http://www.163.com 1


答案是:  awk -F / ‘{a[$3]++} END{for(i in a){print i,a[i] | “sort -r -k 2”}}’ file.log;



-F参数是制定awk分隔符,这里制定的是 /,所以每行被分成4个部分。


sort 的-r是降序,-k是按照第几组字符排序,从1开始。


a可以理解成key-value形式的对象,域名做key 个数做value。

在end动作里完成对结果a的打印


3) awk统计ip访问次数(进阶)
现在有一个文件,数据量大概在200多万条记录,想用shell的awk做统计,文件的格式如下
#关键字#URL#IP地址#
key1|url1|192.80.80.1

key1|url1|192.80.80.1

key1|url2|192.80.80.2
key1|url1|192.80.80.2
key2|url1|192.80.80.1
key2|url2|192.80.80.2
key2|url1|192.80.80.2
现在想要统计的结果是:查看同一个关键字和URL总的访问的次数,以及多少个不同的IP,输出到一个文件中

awk -F”|” ‘{a[$1″ “$2]++;b[$1” “$2” “$3]++}(b[$1” “$2” “$3]==1){++c[$1” “$2]}END{ for (i in a) print i,c[i],a[i]}’ file

看起来很复杂,其实分开理解还算简单

有三个值  a[$1″ “$2] 很好理解key url为关键字的访问次数。 就是理解为就是key url为关键字的 然后 a[$1” “$2]++ 可以理解为如果以$1″ “$2为关键字的。如果存在了就增加1,如果还不存在,就设值为1

那算多少个不同的IP怎么算呢? 单纯的想,做法应该是如果  #关键字#URL#IP地址#  是第一次出现, key url为关键字的访问IP肯定要+1 ,但是如果不是第一次出现,那此IP之前已经计算过了。就不用计算了。翻译为代码就是     (b[$1″ “$2” “$3]==1){++c[$1” “$2]}      


再看一下:处理方法就是: 

依次加载一行(for 循环/awk)  如果以$1″ “$2为关键字的。如果存在了就增加1,如果还不存在,就设值为1    a[$1” “$2]++

如果  #关键字#URL#IP地址#  是第一次出现, key url为关键字的访问IP肯定要+1 ,但是如果不是第一次出现,什么都不需要做  {b[$1″ “$2” “$3]++}(b[$1” “$2” “$3]==1){++c[$1” “$2]}

现在再看是不是就好理解了,最后结果为:

key2 url2 1 1
key1 url1 2 3
key2 url1 2 2
key1 url2 1 1

                                                                                                                                                                                                                                       


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/161639.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 云计算和虚拟化技术的关系_云计算技术与应用

    云计算和虚拟化技术的关系_云计算技术与应用#写于2021.04.10#本文为学习笔记,用的ppt是陈羽中教授版,侵删#笔记只为交流,入门小白,有错望留言纠正#总结不易望赞鼓励1.大数据和云计算1.1大数据现象是怎么形成的?形成人用的多了产生数据设备多了大数据时代导致数据有以下特点:1.2云计算有哪些特点?超大规模虚拟化高可靠性通用性高可伸缩性按需服务极其廉价1.3云计算你找服务类型可分为哪几类?1.4云计算技术体系结构可分为哪几层?资源池和管理中间件层为云计算技术的

    2025年7月13日
    0
  • PTA 浙大版《C语言程序设计实验与习题指导(第3版)》题目集(参考代码)

    PTA 浙大版《C语言程序设计实验与习题指导(第3版)》题目集(参考代码)C语言PTA练习题浙大版《C语言程序设计实验与习题指导(第3版)》题目集寒假在家,想着吧PTA上的C语言练习题写写,博主初学C语言,其中有些代码写的可能有些令人费解甚至是让人笑话,但是这也是一个练习的过程。注:其中有些题的代码参考了其他人。题目号题目名实验1-1HelloWorld!实验1-2WelcometoYou!实验1-3ProgramminginCisfun!实验1-4输出三角形实验1-5输出菱形图案实验1-6输出带

    2025年7月18日
    1
  • django 自定义过滤器_自定义权限过滤器

    django 自定义过滤器_自定义权限过滤器前言虽然DTL给我们内置了许多好用的过滤器。但是有些时候还是不能满足我们的需求。因此Django给我们提供了一个接口,可以让我们自定义过滤器,实现自己的需求。自定义过滤器首先在某个app中,创建

    2022年7月30日
    4
  • 4.Python中条件语句使用方法(if语句、if嵌套)

    4.Python中条件语句使用方法(if语句、if嵌套)Python条件语句是通过一条或多条语句的执行结果(True或者False)来决定执行的代码块。可以通过下图来简单了解条件语句的执行过程:1.if条件语句的基本用法:if判断条件:执行语句……else:执行语句……其中”判断条件”成立时(非零),则执行后…

    2022年9月25日
    0
  • php httponly_php如何设置httponly

    php httponly_php如何设置httponlyphp设置httponly的方法:首先找到并打开“php.ini”文件;然后设置“session.cookie_httponly”项的值为1或者TRUE;接着通过“setrawcookie”方法开启即可。PHP设置Cookie的HTTPONLY属性httponly是微软对cookie做的扩展。这个主要是解决用户的cookie可能被盗用的问题。大家都知道,当我们去邮箱或者论坛登陆后,服务器会写一些c…

    2022年6月16日
    33
  • 【控制】人工势场法及人工势场函数「建议收藏」

    【控制】人工势场法及人工势场函数「建议收藏」人工势场法是由Khatib提出的一种机器人路径规划算法。该算法将目标和障碍物分别看做对机器人有引力和斥力的物体,机器人沿引力与斥力的合力来进行运动。该法结构简单,便于低层的实时控制,在实时避障和平滑的轨迹控制方面,得到了广泛应用,其不足在于存在局部最优解,容易产生死锁现象,因而可能使移动机器人在到达目标点之前就停留在局部最优点。From:人工势场法1.概述我们打两个比方来说明人工势场法的作用机理。首先,我们把构型空间比作一个电势场平面,机器人(的当前构型)比作空间中一点。如果让机器人的起点和障碍物

    2022年6月29日
    35

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号