【几行Python代码快速解析、整理上万份数据文件】教程文章相关的互联网学习教程文章

python-Scrapy-获取正在解析的项目的索引?【代码】

我正在尝试使用Scrapy从数据库加载一些XPATH规则. 到目前为止,我编写的代码运行良好,但是经过一些调试后,我意识到Scrapy正在异步解析每个项目,这意味着我无法控制要解析哪个项目的顺序. 我想做的是找出命中parse()函数的列表中当前正在解析的项,因此我可以将该索引引用到数据库中的行并获取正确的XPATH查询.我目前这样做的方式是使用一个名为item_index的变量,并在每次项目迭代后将其递增.现在我意识到这还不够,我希望有一些内部功...

python使用lxml和xpath解析html表上的特定数据【代码】

首先,我是python和Stack Overflow的新手,所以请客气. 这是我要从中提取数据的html页面的源代码. 网页:http://gbgfotboll.se/information/?scr=table&ftid=51168表格在页面底部<html>table class="clCommonGrid" cellspacing="0"><thead><tr><td colspan="3">Kommande matcher</td></tr><tr><th style="width:1%;">Tid</th><th style="width:69%;">Match</th><th style="width:30%;">Arena</th></tr></thead><tbody class="clGrid"...

在剥离了python中的样式和元素后如何解析代码【代码】

这是关于html解析的一个非常基本的问题: 我是python(编码,计算机科学等)的新手,自学解析html,并且导入了模式和漂亮的汤模块进行解析.我在互联网上找到了此代码,以删除所有格式.import requests import json import urllib from lxml import etree from pattern import web from bs4 import BeautifulSoupurl = "http://webrates.truefx.com/rates/connect.html?f=html" html = urllib.urlopen(url).read() soup = BeautifulSoup(h...

使用Python优化字符串解析【代码】

我的字符串格式为“ AB(AB(DDC)C)A(BAAC)DAB(ABC)”. >每个字符代表一个元素(A,B,C或D).>在右括号之间,每个元素都有一个子元素(可能不存在). 例如,具有“ AB(AB(DDC)C)A(BAAC)DA”,顶层将是AB(AB(DDC)C)A(BAAC)DA. [A,B,A,D,A],相应的子代将为[无,AB(DDC)C,BAAC,无,无].儿童也将被递归解析. 我在这里实现了一个解决方案:def parse_string(string):i = 0 p...

使用Python获取DNS解析时间和响应时间【代码】

PycURL或任何其他python pakcage是否提供有关以下信息: >查找>连接时间 我想获得与此cURL命令相同的信息(无需使用子过程调用该命令): 命令curl -s -w '\nLookup time:\t%{time_namelookup}\nConnect time:\t%{time_connect}\nPreXfer time:\t%{time_pretransfer}\nStartXfer time:\t%{time_starttransfer}\n\nTotal time:\t%{time_total}\n' -o /dev/null https://stackoverflow.com/输出:Lookup time: 0.029 Connect time: ...

解析Python文件以检索变量,值,函数定义【代码】

我有一个包含内容的文件a = 24 b = 1.2def test(x, y):return x + y我想解析此文件以检索 >它包含两个变量a和b, >他们的价值观, >它包含一个称为test的函数 >有两个输入参数和>返回它们的总和. (我想使用此信息来创建另一个文件.) 怎么做? 我尝试过的 我可以使用Python 3解析它global_vars = {} local_vars = {} namespace = {} with open(args.infile) as f:code = compile(f.read(), args.infile, 'exec')exec(code, global_var...

在python中解析groovy文件【代码】

我有一个普通的配置文件,我也想附加数据.使用我想添加的python收集数据会更容易,但是我无法在python中找到相应的ConfigSlurper模块,而且我没有简单的方法可以使用ConfigParser或其他任何方法来做到这一点.有没有人做过这样的事情,对最佳方法有一些反馈/建议?解决方法:那是一个有趣的练习.from shlex import shlex from ast import literal_evalTRANSLATION = {"true": True,"false": False,"null": None,}class ParseException(Ex...

在Python中从SIP URI解析电话号码【代码】

urlparse是用于此的正确模块,还是还有其他功能?>>> o = urlparse.urlparse('"User Name" <sips:+msisdn@domain?Accept-Contact=+sip.instance="<urn:uuid:2e7671fd-31dd-1393-dkd6-835fe09f314f>";require;explicit>', scheme='sips') >>> print o ParseResult(scheme='sips', netloc='', path='"User Name" <sips:+msisdn@domain', params='', query='Accept-Contact=+sip.instance="<urn:uuid:2e7671fd-31dd-1393-dkd6-835fe09f...

Python将带有正则表达式的数据解析为字典.【代码】

我有一串数据.我想把它变成一个字典ff = '{wrapper:{one:{now:""},up:"north",down:"south"}}'请注意,键不是用’或’包裹的文本.正则表达式可以帮助吗?新文本应如下所示.如果熊猫可以做到这一点,我可以使用熊猫.ff = '{"wrapper":{"one":{"now":""},"up":"north","down":"south"}}' 解决方法:使用环顾:(?<={).*?(?=:)哪里(?<={) - match { before .*? - non greedy (?=:) - match : after所以在代码中会是..import r...

python——迭代和解析2【代码】【图】

最近又看到了迭代和解析的知识点,今天做一次更新吧,把迭代和解析讲完。 关于扩展生成器函数协议:send和next 我没有看懂,也没有看到用的意义,这里就不讲了,如果以后发现了,会再上一讲补充。 4.2 生成器表达式:迭代器遇到列表解析 a = [x ** 2 for x in range(4)] # 这个是列表解析:build a list b = (x ** 2 for x in range(4)) # 这个是生成器表达式(generator expression):make a iterable 从语法上讲,生成器表...

python-从一个文件中解析特定的XML属性,并将其追加到另一个文件中,前提是第二个文件中存在另一个属性【代码】

我有三个XML文件(下面的示例).我已经用各自的audioId属性值命名了文件.因此,有问题的文件将称为93.xml和2137.xml: 93.xml:<word BloomsTaxonomy="1,2,3" DictationGroupid="i-e combination List 7" Stage="0" Use="P,L" audioId="93" />2173.xml:<word BloomsTaxonomy="1,2,3" DictationGroupid="i-e combination List 7" Stage="0" Use="P,L" audioId="2137" />mainDataSet.xml:<word id="2137" title="over" level="1" grou...

Python XML 解析【代码】

Python XML 解析什么是 XML? XML 指可扩展标记语言(eXtensible Markup Language)。 你可以通过本站学习 XML 教程 XML 被设计用来传输和存储数据。 XML 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。 它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。Python 对 XML 的解析 常见的 XML 编程接口有 DOM 和 SAX,这两种接口处理 XML 文件的方式不同,...

python – 使用Element Tree findall解析XML命名空间【代码】

在给定以下xml的情况下,如何使用查询元素树findall(‘Email’)?<DocuSignEnvelopeInformation xmlns:xsd="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://www.docusign.net/API/3.0"><EnvelopeStatus><RecipientStatus><Type>Signer</Type><Email>joe@gmail.com</Email><UserName>Joe Shmoe</UserName><RoutingOrder>1</RoutingOrder><Sent>2015-05-04T09:58:01.947</S...

python-pd.to_datetime或解析日期时间不适用于我的csv文件(格式:dd / mm / yyyy,hh:mm:ss)【代码】

我从csv文件中提取了下表Date,Time,CO2(ppm),CellTemp(c),CellPres(kPa) 10/08/2016,13:21:11,356.89,51.07,99.91 10/08/2016,13:21:12,356.89,51.07,99.91 10/08/2016,13:21:13,356.83,51.07,99.91我研究了过去的几天,并尝试了不同的方法使熊猫将“日期”和“时间”列读取为日期时间,但我做不到.这是我尝试过的一些方法:df = pd.read_csv(myfile) print(df.dtypes)我得到:Date object Time obj...

python-在AWS SES上接收和解析电子邮件【代码】

我想设置一个Lambda函数以将传入的电子邮件解析为SES.我遵循了文档并设置了收货规则. 我通过将MIME电子邮件存储在txt文件中,解析电子邮件并将所需的信息存储在JSON文档中以存储在数据库中来测试脚本.现在,我不确定如何从SES访问收到的电子邮件并将信息提取到我的Python脚本中.任何帮助将不胜感激.from email.parser import Parser parser = Parser()f = open('roundtripMime.txt', "r") rawText = f.read() incoming = Parser().pa...