日常部分数据以 txt 的文件格式提供，为避免入库之后再进行统计的麻烦，故学习 shell 进行处理，减少工作量。

1.样例数据

# test.txtnYD5Gxxx|6618151|6825449073|6476534190|36251|超级会员|0nYD5Gxxx|8968336|1445546463|6476534190|36251|超级会员|0nYD5Gxxx|2545939|6904742993|0858636804|36251|超级会员|80%以上nYD5Gxxx|3200810|6896525523|6501574903|36251|普通|0nYD5Gxxx|3378244|6926264463|6519442719|36251|超级会员|80%以上nYD5Gxxx|8075700|6854827783|0858523344|36251|普通|80%以上nYD5Gxxx|3368804|6934387193|0000487348|36251|超级会员|(0，50%]nYD5Gxxx|2865288|6865082233|0859114957|36251|普通|(0，50%]nYD5Gxxx|6655543|6930124273|6521876215|36251|超级会员|(0，50%]nYD5Gxxx|2952781|6820973583|0858704189|36251|超级会员|0n

2.一些普通操作

通过 awk -F 可以实现按分隔符进行切割操作，再通过 {print $6} 可以输出字段。

sort 进行排序，uniq 进行去重操作，wc -l 进行计数操作。

cat test.txt | awk -F '|' '{print $6}' | sort n普通n普通n普通n超级会员n超级会员n超级会员n超级会员n超级会员n超级会员n超级会员nncat test.txt | awk -F '|' '{print $6}' | sort | uniq n普通n超级会员nncat test.txt | awk -F '|' '{print $6}' | sort | uniq | wc -ln2n

也可以通过 grep 进行查找，然后再进行下一步操作，例如重定向到另一个新的文件。

cat test.txt | grep '超级会员' | awk -F '|' '{print $2}' > super_user.txtn

通过 split -l 对文件进行切分。

split -l 5 super_user.txtn# 每5行切分为一个文件n

3.分组统计

[$6] 实现分组，count[$6]++ 实现计数。

awk -F '|' '{count[$6]++;} END {for(i in count) {print i count[i]}}' test.txtn普通3n超级会员7n

根据第7列进行筛选之后，再按第6列进行分组统计。

awk -F '|' '{if($7=="0") {count[$6]++;}} END {for(i in count) {print i count[i]}}' test.txtn普通1n超级会员3n

4.分组求和

对所有进行求和。

awk -F '|' '{sum += $2} END {print sum}' test.txtn# 48629596n

分组一般使用x[$2]=x[$3]的方式来实现，其中x[$2]中的$2为要分的组，可以多个分组，x[$3]为要处理的值。

一次分组

awk -F '|' '{x[$6] += $2} END {for(i in x){print i, x[i]}}' test.txtn普通 14141798n超级会员 34487798n

二次分组

awk -F '|' '{x[$6"-"$7] += $2} END {for(i in x){print i, x[i]}}' test.txtn超级会员-80%以上 5924183n超级会员-0 18539268n普通-(0，50%] 2865288n超级会员-(0，50%] 10024347n普通-0 3200810n普通-80%以上 8075700n

格式化处理

awk -F '|' '{x[$6] += $2} END {for(i in x){print("%st%dn",i,x[i])}}' test.txtn# 显示的格式有点不对劲n

分组求平均值

awk -F '|' '{sum += $2} END {print "Average = ", sum/NR}' test.txtn# Average = 4.86296e+06nnawk -F '|' '{a[$6] += $2; ca[$6]++} END {for(i in a){print(i,a[i]/ca[i])}}' test.txtn# 普通 4.71393e+06n# 超级会员 4.92683e+06nnn

分组求最大最小

awk -F '|' 'BEGIN {max=0} {if($2>max){max=$2}} END {print max}' test.txtn# 最大值nnawk -F '|' '{if($2>x[$6]){x[$6]=$2}} END {for(i in x) {print i, x[i]}}' test.txtn# 普通 8075700n# 超级会员 8968336n

分组整理字符

awk -F '|' '{x[$6]=x[$6]"n"$2} END {for(i in x){print i ":" x[i]}}' test.txtn普通:n3200810n8075700n2865288n超级会员:n6618151n8968336n2545939n3378244n3368804n6655543n2952781

参考来源：Shell学习笔记：awk实现group by分组统计功能 - Hider1214 - 博客园

网络知识

Linux awk实现group by分组统计功能

1.样例数据

2.一些普通操作

3.分组统计

4.分组求和

对所有进行求和。

一次分组

二次分组

格式化处理

分组求平均值

分组求最大最小

分组整理字符

1.样例数据

2.一些普通操作

3.分组统计

4.分组求和

对所有进行求和。

一次分组

二次分组

格式化处理

分组求平均值

分组求最大最小

分组整理字符

相关文章

央媒谈“文盲演员”引发饭圈甩锅大战

野生大熊猫深夜遛达 镜头前呆萌打卡

张萌谈演员到底需不需要有文化

情人节多地迎领证高峰

婚房烂尾10年业主住进毛坯房

多地首套房贷利率降至4%以下 为什么急于提前还贷

野生大熊猫深夜遛达镜头前呆萌打卡

多地首套房贷利率降至4%以下为什么急于提前还贷