首页 / LINUX / linux awk比较两个csv文件并使用标志创建一个新文件

linux awk比较两个csv文件并使用标志创建一个新文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了linux awk比较两个csv文件并使用标志创建一个新文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2807字，纯文字阅读大概需要5分钟。

内容图文

我有2个CSV文件,我需要比较并获得新格式化文件的差异.样品如下.

旧文件

DTL,11111111,1111111111111111,11111111111,Y,N,xx,xx
DTL,22222222,2222222222222222,22222222222,Y,Y,cc,cc
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd
DTL,44444444,4444444444444444,44444444444,Y,Y,ss,ss
DTL,55555555,5555555555555555,55555555555,Y,Y,qq,qq

新文件

DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc
DTL,44444444,4444444444444444,44444444444,Y,Y,ss,ss
DTL,55555555,5555555555555555,55555555555,Y,Y,qq,qq
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee

输出文件

我想比较旧的和新的CSV文件,并找到在新文件中产生的更改,并更新标记以表示这些更改

U – 如果新文件记录是UPDATED
D – 如果旧文件中存在的记录在新文件中被删除
N – 如果新文件中存在的记录在旧文件中不可用

示例输出文件是这样的.

DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

我使用了diff命令,但它也会重复UPDATED记录,这不是我想要的.

 DTL,11111111,1111111111111111,11111111111,Y,N,xx,xx
 DTL,22222222,2222222222222222,22222222222,Y,Y,cc,cc
 DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd
  ---
 DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx
 DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc
 5a5
 DTL,77777777,7777777777777777,77777777777,N,N,ee,ee

我使用AWK单行命令来过滤掉我的记录

 awk 'NR==FNR{A[$1];next}!($1 in A)' FS=: old.csv new.csv

这个问题是没有得到我只属于OLD文件的记录.
是的

DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd

我发起了一个驱动的bash脚本,以便对此进行讨论,但没有找到一个很好的例子.

 myscript.awk

BEGIN { 
        FS = ","    # input field seperator 
        OFS = ","   # output field seperator
}

NR > 1 {
    #flag 
    # N - new record  D- Deleted U - Updated

id = $1
    name = $2
    flag = 'N'

   # This prints the columns in the new order. The commas tell Awk to use the     character set in OFS
    print id,name,flag
}

 >> awk -f  myscript.awk  old.csv new.csv > formatted.csv

解决方法:

这可能对你有用：

diff  -W999 --side-by-side OLD NEW |
sed '/^[^\t]*\t\s*|\t\(.*\)/{s//\1 U/;b};/^\([^\t]*\)\t*\s*<$/{s//\1 D/;b};/^.*>\t\(.*\)/{s//\1 N/;b};d'
DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

一个同样的awk解决方案：

diff -W999 --side-by-side OLD NEW |
awk '/[|][\t]/{split($0,a,"[|][\t]");print a[2]" U"};/[\t] *<$/{split($0,a,"[\t]* *<$");print a[1]" D"};/>[\t]/{split($0,a,">[\t]");print a[2]" N"}'
DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx U
DTL,22222222,2222222222222222,22222222222,Y,N,cc,cc U
DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd D
DTL,77777777,7777777777777777,77777777777,N,N,ee,ee N

内容总结

以上是互联网集市为您收集整理的linux awk比较两个csv文件并使用标志创建一个新文件全部内容，希望文章能够帮你解决linux awk比较两个csv文件并使用标志创建一个新文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/960422.html

来源：【匿名】

【上一篇】linux – 如何从另一个sh文件运行sh文件【下一篇】Linux下安装GD

更多 ►

【linux awk比较两个csv文件并使用标志创建一个新文件】教程文章相关的互联网学习教程文章

如何解决linux环境下php读取csv文件，出现中文读取不到的情况

如何解决linux环境下php读取csv文件，出现中文读取不到的情况在做一个数据批量导入的时候出现了一个神奇的问题！在LIUNX环境下PHP读取csv文件的时候，csv文件中的中文不显示....在执行csv文件读取前加上一句： setlocale(LC_ALL, zh_CN); 瞬间，问题解决了....setlocale(LC_ALL, zh_CN); $handle = fopen(”xxx.csv”,”r”); while ($data = fgetcsv($handle, 1000,,)) {... } fclose($handle);注解： // utf-8 setlocale(LC_ALL,...

Linux环境下sqlldr一个csv文件【图】

本来是练习三思的书里一个sqlldr的小示例，就是把excel文件另存为csv后通过sqlldr加载到oracle数据库中。其目的本来是为了演示一本来是练习三思的书里一个sqlldr的小示例，就是把excel文件另存为csv后通过sqlldr加载到Oracle数据库中。其目的本来是为了演示一下csv文件的sqlldr以及csv文件中的字符串中存在逗号, 和双引号”的处理方法，，结果却引出了一个让我困惑了一阵子的问题，说大不大说小不小，反复测试了一番，怀疑到了一个...

linux-如何按特定列对CSV文件排序？【代码】

我想按以下方式对csv进行排序,我想要的是 >按第2列排序>如果列相同,则按第3列排序(按数字) 这是我的工作：$sort -t"," -k2 -nk3 /tmp/test.csv 55b64670abb9c0663e77de84,525e3bfad07b4377dc142a24:9999,0.081032 5510b33ec720d80086865312,525e3bfad07b4377dc142a24:9999,0.081033 55aca6a1d2e33dc888ddeb31,525e3bf7d07b4377d31429d2:2,0.081034 55aca6a1d2e33dc888ddeb31,525e3bf7d07b4377d31429d2:2,0.081034 5514548ec720d...

Linux-从外壳输出CSV文件【代码】

嗨,我有这种格式的输入文件.[Header A] key1 value1 key2 value2[Header B] header1 header2 header3 // separated by tab 1 2 3 //separated by tab a b c //separated by tab[Header C] a b c我必须将HeaderB中的内容输出为另一个csv文件因此,CSV文件看起来像header1,header2,header3 1,2,3 a,b,c我写了一个python脚本来做到这一点,但要求它通过shell命令来完成.我对编...

linux-如何在字符串字段中使用多个逗号格式化.CSV文件的日期字段【代码】

我有一个.CSV文件(file.csv),其数据都用双引号引起来.该文件的示例格式如下：column1,column2,column3,column4,column5,column6, column7, Column8, Column9, Column10 "12","B000QRIGJ4","4432","string with quotes, and with a comma, and colon: in between","4432","author1, name","890","88","11-OCT-11","12" "4432","B000QRIGJ4","890","another, string with quotes, and with more than, two commas: in between","455"...

linux-用awk清理csv文件的头【代码】

我有一堆的csv文件看起来像这样：Time,Channel A (s),(V)0.00000000,0.58058560 0.00666667,0.58913630 0.01333334,0.58058560我想将其转换为：Time (s),Channel A (V) 0.00000000,0.58058560 0.00666667,0.58913630 0.01333334,0.58058560跨文件的单位不一定相同(即可能有(ms),(V)等) 我可以用awk’FNR！= 3’删除空白行(始终是第3行),但是剪切第二行参数并将其粘贴到第一行字段的后面是我的能力; 请帮帮我！动机：这些文件很多.手...

linux – 使用bash按第5列排序csv文件【代码】

该文件看起来像5.1,3.5,1.4,0.2,Banana 4.9,3.0,1.4,0.6,Apple 4.8,2.8,1.3,1.2,Apple我需要拥有它4.9,3.0,1.4,0.2,Apple 4.8,2.8,1.3,1.2,Apple 5.1,3.5,1.4,0.2,Banana我一直在尝试使用sort -t, -k5 file.csv > sorted.csv它所做的一切就是成功5.1,3.5,1.4,0.2,Banana 4.8,2.8,1.3,1.2,Apple 4.9,3.0,1.4,0.6,Apple我怎么做到这样？它似乎根本没有排序.解决方法:这就是你需要的东西# sort -t . -nrk2 sorted.csv 4.9,3.0,1.4,0....

如何在Linux命令行上解析CSV文件？【代码】

如何在Linux命令行上解析CSV文件？做以下事情：csvparse -c 2,5,6 filename从所有行中提取第2,5和6列的字段. 它应该能够处理csv文件格式：http://tools.ietf.org/html/rfc4180这意味着引用字段并根据需要转义内部引号,因此对于包含3个字段的示例行：field1,"field, number ""2"", has inner quotes and a comma",field3所以,如果我请求上面一行的字段2,我得到：field, number "2", has inner quotes and a comma我很欣赏有很多解决...

根据匹配的行合并两个csv文件,并在linux中添加新列【代码】

我正在使用java开发一个应用程序,但为此我需要一个csv文件的顺序.我不太了解linux,但想知道是否有某种方式以所需的格式合并csv文件. 我有两个包含数十万条记录的csv文件.样本如下：name,Direction,Date abc,sent,Jan 21 2014 02:06 xyz,sent,Nov 21 2014 01:09 pqr,sent,Oct 21 2014 03:06 和name,Direction,Date abc,received,Jan 22 2014 02:06 xyz,received,Nov 22 2014 02:06所以,这第二个csv文件将包含文件1的一些记录.我需...

合并许多大型CSV文件(在Linux中)【代码】

我有~500个CSV文件,每个文件有5000行和1000列(~20Mb).我想按列添加它们并保存为大型CSV文件. 之前的帖子部分回答了这个问题Merge multiple csv files awk column-wise, no match 但有没有办法做到这一点,而不必写出每个文件名？我的文件是顺序名称(例如,X1.csv,X2.csv,X3.csv,…,X500.csv),如果这有帮助的话.解决方法:举个例子,假设有三个这样的文件：$cat X1.csv A,B A,B A,B $cat X2.csv C C C $cat X3.csv D D D我们想要以逗号分...

如何在Linux上的目录中找到csv文件的总行数？【代码】

使用巨大的CSV文件进行数据分析,我们通常需要知道位于特定文件夹中的所有csv文件的行数. 但是如何在Linux中只使用一个命令呢？解决方法:如果要检查目录中所有.csv文件的总行,可以使用find和wc：find . -type f -name '*.csv' -exec wc -l {} +

linux awk比较两个csv文件并使用标志创建一个新文件【代码】

我有2个CSV文件,我需要比较并获得新格式化文件的差异.样品如下. 旧文件DTL,11111111,1111111111111111,11111111111,Y,N,xx,xx DTL,22222222,2222222222222222,22222222222,Y,Y,cc,cc DTL,33333333,3333333333333333,33333333333,Y,Y,dd,dd DTL,44444444,4444444444444444,44444444444,Y,Y,ss,ss DTL,55555555,5555555555555555,55555555555,Y,Y,qq,qq新文件DTL,11111111,1111111111111111,11111111111,Y,Y,xx,xx DTL,22222222,2222...

linux – 如何剪切CSV文件【代码】

我有以下CSV文件more file.csvNumber,machine_type,OS,Version,Mem,CPU,HW,Volatge1,HG652,linux,23.12,256,III,LOP90,2202,HG652,linux,23.12,256,III,LOP90,2203,HG652,SCO,MK906G,526,1G,LW1005,2204,HG652,solaris,1172,1024,2Core,netra,2205,HG652,solaris,1172,1024,2Core,netra,220请建议如何剪切CSV文件(通过cut或sed或awk命令) 为了获得部分CSV文件 >命令需要获取表示我们要从CSV中剪切的字段的值根据示例1(值应为6) 例...

如何使用linux命令合并两个单列csv文件【代码】

我想知道如何将两个单列csv文件合并到一个文件中,其中生成的文件将包含两列. file1.csv名字克里斯本杰瑞 file2.csv姓工匠白色佩里 result.csv名字,姓氏克里斯史密斯奔,白杰里,佩里谢谢解决方法: [ghoti@pc ~]$cat file1 John Mary [ghoti@pc ~]$cat file2 Smith Jones [ghoti@pc ~]$paste -d, file1 file2 John,Smith Mary,Jones [ghoti@pc ~]$

linux – 如何使用shell脚本加入2个csv文件？【代码】

我正在尝试制作一个shell脚本,它将以下列方式组合两个csv文件：我有两个csv文件,f1.csv和f2.csv. f1.csv的格式是：startId, endId, roomNumf2.csv的格式如下：startId, endId, teacherId 我想用这种格式将这两个组合成一个csv文件：startId, endId, roomNum, teacherId. 使用在Linux下运行的shell脚本实现此目的的最佳方法是什么？解决方法:尝试：join -t, -1 1 -2 1 -o 1.2 1.3 1.4 2.4 <(awk -F, '{print $1":"$2","$0}' f1.csv...

LINUX - 最热教程

Xrdp - 通过Windows的RDP连接Linux远程...VMware中Linux虚拟机挂载主机共享文件夹...Linux双网卡配置虚拟机下Linux安装好Nginx后，宿主机无...linux下安装postgresql并配置远程图形桌...Linux命令--exportfs命令详解 linux 终端printf打印显示乱码问题修正 Linux下Shell的for循环语句N种写法 Linux下创建nginx脚本-start、stop、re...SUSELinux安装MySQL

首页 / LINUX / linux awk比较两个csv文件并使用标志创建一个新文件

linux awk比较两个csv文件并使用标志创建一个新文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【linux awk比较两个csv文件并使用标志创建一个新文件】教程文章相关的互联网学习教程文章

如何解决linux环境下php读取csv文件，出现中文读取不到的情况

Linux环境下sqlldr一个csv文件【图】

linux-如何按特定列对CSV文件排序？【代码】

Linux-从外壳输出CSV文件【代码】

linux-如何在字符串字段中使用多个逗号格式化.CSV文件的日期字段【代码】

linux-用awk清理csv文件的头【代码】

linux – 使用bash按第5列排序csv文件【代码】

如何在Linux命令行上解析CSV文件？【代码】

根据匹配的行合并两个csv文件,并在linux中添加新列【代码】

合并许多大型CSV文件(在Linux中)【代码】

如何在Linux上的目录中找到csv文件的总行数？【代码】

linux awk比较两个csv文件并使用标志创建一个新文件【代码】

linux – 如何剪切CSV文件【代码】

如何使用linux命令合并两个单列csv文件【代码】

linux – 如何使用shell脚本加入2个csv文件？【代码】

LINUX - 相关标签

文件 - 相关标签

LINUX - 最新教程

LINUX - 最热教程