首页 / PERL / Perl / Linux使用另一个文件的内容过滤大文件

Perl / Linux使用另一个文件的内容过滤大文件

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Perl / Linux使用另一个文件的内容过滤大文件，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2613字，纯文字阅读大概需要4分钟。

内容图文

我正在使用另一个较小文件的内容过滤580 MB文件.
File1(较小的文件)

chr start  End
1    123   150
2    245   320
2    450   600

File2(大文件)

chr pos RS ID A B C D E F
1   124 r2 3  s 4 s 2 s 2
1   165 r6 4  t 2 k 1 r 2
2   455 t2 4  2 4 t 3 w 3
3   234 r4 2  5 w 4 t 2 4

如果满足以下条件,我想从File2捕获行.
File2.Chr == File1.Chr&& File2.Pos> File1.Start&& File2.Pos< File1.End
我尝试过使用awk但它运行得非常慢,我也想知道是否有更好的方法来实现相同的目标？

谢谢.

这是我正在使用的代码：

#!/usr/bin/perl -w
use strict;
use warnings;

my $bed_file = "/data/1000G/Hotspots.bed";#File1 smaller file
my $SNP_file = "/data/1000G/SNP_file.txt";#File2 larger file
my $final_file = "/data/1000G/final_file.txt"; #final output file

open my $in_fh, '<', $bed_file
        or die qq{Unable to open "$bed_file" for input: $!};

    while ( <$in_fh> ) {

     my $line_str = $_;

     my @data = split(/\t/, $line_str);

     next if /\b(?:track)\b/;# skip header line
     my $chr = $data[0]; $chr =~ s/chr//g; print "chr is $chr\n";
     my $start = $data[1]-1; print "start is $start\n";
     my $end = $data[2]+1; print "end is $end\n";

     my $cmd1 = "awk '{if(\$1==chr && \$2>$start && \$2</$end) print (\"chr\"\$1\"_\"\$2\"_\"\$3\"_\"\$4\"_\"\$5\"_\"\$6\"_\"\$7\"_\"\$8)}' $SNP_file >> $final_file"; print "cmd1\n";
     my $cmd2 = `awk '{if(\$1==chr && \$2>$start && \$2</$end) print (\"chr\"\$1\"_\"\$2\"_\"\$3\"_\"\$4\"_\"\$5\"_\"\$6\"_\"\$7\"_\"\$8)}' $SNP_file >> $final_file`; print "cmd2\n";

}

解决方法:

将小文件读入数据结构并检查其他文件的每一行.

在这里,我将其读入一个数组,每个元素都是一个带有一行字段的arrayref.然后根据此数组中的arrayrefs检查数据文件的每一行,比较每个要求的字段.

use warnings 'all';
use strict;

my $ref_file = 'reference.txt';
open my $fh, '<', $ref_file or die "Can't open $ref_file: $!";
my @ref = map { chomp; [ split ] } grep { /\S/ } <$fh>;

my $data_file = 'data.txt';
open $fh, '<', $data_file or die "Can't open $data_file: $!";

# Drop header lines
my $ref_header  = shift @ref;    
my $data_header = <$fh>;

while (<$fh>) 
{
    next if not /\S/;  # skip empty lines
    my @line = split;

    foreach my $refline (@ref) 
    {
        next if $line[0] != $refline->[0];
        if ($line[1] > $refline->[1] and $line[1] < $refline->[2]) {
            print "@line\n";
        }
    }   
}
close $fh;

这将从提供??的样本中打印出正确的行.它允许多行匹配.如果这不可能,请在if块中添加last,以便在找到匹配后退出foreach.

关于代码的一些评论.如果更多可能有用,请告诉我.

在阅读参考文件时,< $fh>在列表上下文中使用它以返回所有行,并且grep过滤掉空行. map首先选择换行符,然后通过[]生成一个arrayref,其中元素是split获得的行上的字段.输出列表分配给@ref.

当我们重用$fh时,它首先被关闭(如果它是打开的),所以不需要关闭.

我存储标题行,也许是打印或检查.我们真的只需要排除它们.

内容总结

以上是互联网集市为您收集整理的Perl / Linux使用另一个文件的内容过滤大文件全部内容，希望文章能够帮你解决Perl / Linux使用另一个文件的内容过滤大文件所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/966401.html

来源：【匿名】

【上一篇】linux – 确定TCP端口是否可用的最佳perl方法【下一篇】Win2000+Apache+MySql+PHP4+PERL安装使用小结

更多 ►

【Perl / Linux使用另一个文件的内容过滤大文件】教程文章相关的互联网学习教程文章

HyperLedger-Fabric原理-MSP详解-Peer&Orderer配置MSP【代码】【图】

本文是MSP详解的第二部分，我们通过第一部分对MSP有了初步的认识，下面我们来通过peer和order节点来对MSP做一个详细的讲解本文会以下面的结构展开：一，生成公私钥和证书信息生成证书和公私钥的过程Fabric中有两种类型的公私钥和证书，一种是给节点之间，为了通讯安全而准备的TLS证书，另一种是用户登录和权限控制的用户证书。这些证书本来应该是由CA来颁发，但是我们这里是测试环境，并没有启用CA节点，这里我们使用：cryptoge...

Perl语法之解析Perl变量使用

本文和大家重点讨论一下Perl语法中Perl变量的概念，Perl变量分为标量变量,数组变量,联系关系数组变量3类.Perl的变量对巨细写敏感,好比:An,AN,an是3个分歧的变量,可是分歧范例的变量可以利用统一个名字。 Perl语法简介 1.Perl变量 1.1.Perl语法中Perl变量分类 Perl变量分为标量变量,数组变量,联系关系数组变量3类.Perl的变量对巨细写敏感,好比:An,AN,an是3个分歧的变量,可是分歧范例的变量可以利用统一个名字,好比:VAR可所以一个标量...

perl子程序的运用及子程序中变量私有(my)声明的重要性

一个转换程序，简单的把DNA序列中的A转变成T，第一种情况没有使用私有变量。复制代码代码如下:#!/bin/perl#下面是一段DNA序列 $DNA=ATTATATAT;#这里是我们的序列 $result=A_to_T($DNA); print "I changed all $DNA A to T, and the we get the result $result\n\n"; sub A_to_T { my ($input)=@_; $DNA=$input;#没有使用私有变量 $DNA=~s/A/T/g; return $DNA; } 结果如下：F:\>perl\a.pl I changed all T...

linux安装MySQL报错perl【代码】

报错景象：　　error: Failed dependencies: perl(DBI) is needed by MySQL-server-4.0.26-0.i386　　error: Failed dependencies: perl(DBI) is needed by MySQL-client-4.0.26-0.i386 解决办法：1、安装perlDBI，运行：yum install perl-DBI2、安装perl的依赖，运行：yum install -y perl-Module-Install.noarch 注意：不要强制--force安装，安装完了也不能用！原文：https://www.cnblogs.com/yorge/p/13266976.htm...

【转载】Perl异常处理方法总结

程序脚本在运行过程中，总会碰到这样那样的问题，我们会预知一些问题并为其准备好处理代码，而有一些不能预知。好的程序要能尽可能多的处理可能出现的异常问题，本文就总结了一些方法来解决这些异常，当然perl在这个处理了不及其它同类语言，但也不会差到那里。在开始前，我们先盘点一些关于perl的优缺点。0. 历史太悠久了。你可以在1997年的计算机上找到perl5.0。(只是吐槽一下，历史悠久没什么不好，与时俱进才是关键)1. 不回收循...

Perlin Noise【图】

参考文献：1 http://en.wikipedia.org/wiki/Perlin_noise2 http://webstaff.itn.liu.se/~stegu/TNM022-2005/perlinnoiselinks/perlin-noise-math-faq.html3 http://www.mrl.nyu.edu/~perlin/doc/oscar.html#noise 目的：Generate a perlin noise image 图一 perlin noise 图像对于如何获得一个periin noise,wiki上说大体上分为三个部分：1Grid definition2 Dot product3Interpolation 前提：计算整张noise图像的问题可以转化为求取...

利用superlance监控supervisor运行状态【代码】【图】

此文已由作者张家裕授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验。最近开发问到supervisor管理下的进程重启了，有无办法做到主动通知，楼主最先想到的是supervisor自带的eventlistener，于是找到了下面的解决方法。supervisor与superlance简介supervisor是一款非常实用的进程管理工具，可以方便的通过命令开启、关闭、重启等操作，而且它管理的进程一旦崩溃会自动重启。在KM上面已有多篇文章介绍supervi...

perl字符集处理

本文内容适用于perl 5.8及其以上版本.perl internal form在 Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只认识两种编码: Ascii(octets)和utf8(string).utf8 flag那么perl如何确定一个字符串是octets还是utf8编码的字符串呢? perl可没有什么智能, 他完全是靠字符串上的utf8 flag. 在perl内部, 字符串结构由两部分组成: 数据和...

hyperledger-fabric环境快速搭建踩坑集锦（实用）【代码】【图】

安装docker 及 docker-compose安装docker没什么好说的，一部分教程都给出了指令，在这里就不谈了。docker-compose不同的教程给出了不同的方法，在这里介绍一种极为快速的方法，那就是通过python的pip工具安装docker-compose：ubuntu18.04:sudo apt-get install python-pip; pip install docker-compose; 安装fabric和fabric-sample大部分资源提供的下载链接地址都指向github.com，但是在国内访问github是非常慢的，在这里介绍一种非...

perl-5.14.0在新版gcc中编译不通过解决办法

1?? ? 由于在新版本中GCC把C99中的标准库分成了libc和libm两个部分，libm中包含一些数学库等，如果要用到libm时，必须加上-lm选项在解压Configure之后，再在Makefile中，LDFLAGS 和 CLDFLAGS两个参数后面加上 -lm即可解决问题2?? ? 参考：http://serverfault.com/questions/145288/make-error-when-compiling-perl-5-12-1-rhel-5-5? ? ?修改 dist/IO/poll.h：将 #include 修改为 #include3?? ? 参考：http://blog.163.com/zhangliy...

perl: 函数和排序

函数(子程序)：Perl中的函数括号可以写也可以不写，除非不写影响含义。自定义子程序：sub function-name{ expressions;} 子程序的返回值：所有perl子程序都有返回值，子程序中最后一个语句运算结果默认是程序的返回值。return操作符会从子程序立即返回某个值。子程序参数：给子程序传参数只需要在调用子程序时在子程序后面加上圆括号和参数就可以了。perl将参数列表存放在 @_ 这个特殊数组变量中，子程序获取整个变量得...

zabbix监控mysql(perl)

1.yum install perl-libwww-perlyum install perl-File-Which yum install perl-DBD-MySQLyum install perl-Digest-SHA1yum install perl-Time-HiResyum install perl-Crypt-SSLeay2.测试#!/usr/bin/perl -wuse DBI;my $database = "mysql";my $hostname = "localhost";my $data_source = "DBI:mysql:$database:$hostname";my $username = "root";my $password = "123";my $dbh = DBI->connect( $data_source,$username,$password)...

解决控制台console导入模型报错 django.core.exceptions.ImproperlyConfigured: Requested setting INSTALLED_APPS, but settings are not configured.【图】

import osimport django os.environ.setdefault(‘DJANGO_SETTINGS_MODULE‘, ‘rookie.settings‘) # rookie替换你的app应用名称django.setup() 原文：https://www.cnblogs.com/SunshineKimi/p/14545432.html

perl 在win下输出中文乱码问题【代码】

1use utf8;2my$name = ‘你好‘;3#binmode(STDOUT, ":encoding(gbk)"); 4print$name,"\n";5 6# #或7# use Encode;8# my $str=‘你好‘;9# $str = encode("gbk", decode("utf-8", $str)); 10# print $str,"\n"; 原文：http://www.cnblogs.com/perl6/p/6417790.html

HyperLeger Fabric开发（五）——HyperLeger Fabric账本存储【图】

HyperLeger Fabric开发（五）——HyperLeger Fabric账本存储一、HyperLeger Fabric账本简介Fabric里的数据以分布式账本的形式存储。账本由一系列有顺序和防篡改的记录组成，记录包含着数据的全部状态改变。账本中的数据项以键值对的形式存放，账本中所有的键值对构成了账本的状态，也称为世界状态（World State）。?每个通道中有唯一的账本，由通道中所有成员共同维护着账本，每个记账节点上都保存了所属通道的账本的一个副本，因...

PERL - 相关标签

perl脚本 perl语言 perl语言入门 perl正则表达式

PERL - 最热教程

脚本 – 如何使用python或perl等在xml中...-bash: ./scripts/mysql_install_db: /...mysql-关于MHA在perl同步测试时报错请问...Python和perl实现批量对目录下电子书文...pycharm-perl脚本 linux – Perl进程解析在Linux下安装PHP,APACHE,ORACLE,PERL的...pgspider perl 语言扩展使用Perl,Python或Ruby,如何编写程序以...用于在Linux上创建Excel电子表格的Pyth...

首页 / PERL / Perl / Linux使用另一个文件的内容过滤大文件

Perl / Linux使用另一个文件的内容过滤大文件

内容导读

内容图文

内容总结

内容备注

内容手机端

【Perl / Linux使用另一个文件的内容过滤大文件】教程文章相关的互联网学习教程文章

HyperLedger-Fabric原理-MSP详解-Peer&Orderer配置MSP【代码】【图】

Perl语法之解析Perl变量使用

perl子程序的运用及子程序中变量私有(my)声明的重要性

linux安装MySQL报错perl【代码】

【转载】Perl异常处理方法总结

Perlin Noise【图】

利用superlance监控supervisor运行状态【代码】【图】

perl字符集处理

hyperledger-fabric环境快速搭建踩坑集锦（实用）【代码】【图】

perl-5.14.0在新版gcc中编译不通过解决办法

perl: 函数和排序

zabbix监控mysql(perl)

解决控制台console导入模型报错 django.core.exceptions.ImproperlyConfigured: Requested setting INSTALLED_APPS, but settings are not configured.【图】

perl 在win下输出中文乱码问题【代码】

HyperLeger Fabric开发（五）——HyperLeger Fabric账本存储【图】

LINUX - 相关标签

PERL - 相关标签

文件 - 相关标签

PERL - 最新教程

PERL - 最热教程