首页 / PYTHON / 使用python进行re拆分网页内容

使用python进行re拆分网页内容

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用python进行re拆分网页内容，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3278字，纯文字阅读大概需要5分钟。

内容图文

这里简短的总结一下而不是完全的罗列python的re模块，python的re具有强大的功能，如下是一个从我们学校抓取数据然后拆分的程序，代码如下：

import httplib

import urllib

import re

import sys

reload (sys)

sys.setdefaultencoding( "utf-8" )

parameters =

"__EVENTTARGET=&__EVENTARGUMENT=&__LASTFOCUS=&__VIEWSTATE=%2FwEPDwUKLTYwNjgwNDAyOQ8WBB4Jcm9vbXRhYmxlBQ9qZGRhdGFfcm9vbXZpZXceCWRhdGF0YWJsZQULamRkYXRhX3ZpZXcWAgIDD2QWBgIDDxBkZBYBAgFkAgUPEA8WBB4NRGF0YVRleHRGaWVsZAUIUk9PTU5BTUUeC18hRGF0YUJvdW5kZ2QQFRIPMDflj7flhazlr5MgICAgDzA45Y%2B35YWs5a%2BTICAgIA8wOeWPt%2BWFrOWvkyAgICAPMTDlj7flhazlr5MgICAgDzEy5Y%2B35YWs5a%2BTICAgIA8xM%2BWPt%2BWFrOWvkyAgICAPMTTlj7flhazlr5MgICAgDzE15Y%2B35YWs5a%2BTICAgIA8xNuWPt%2BWFrOWvkyAgICAPMTflj7flhazlr5MgICAgDzE45Y%2B35YWs5a%2BTICAgIA4xOeWPt%2BalvCAgICAgIA4yMOWPt%2BalvCAgICAgIA7mnKznp5E0ICAgICAgIA7mnKznp5E1ICAgICAgIA7mnKznp5E2ICAgICAgIA7noJTnqbYyICAgICAgIA7noJTnqbYzICAgICAgIBUSDzA35Y%2B35YWs5a%2BTICAgIA8wOOWPt%2BWFrOWvkyAgICAPMDnlj7flhazlr5MgICAgDzEw5Y%2B35YWs5a%2BTICAgIA8xMuWPt%2BWFrOWvkyAgICAPMTPlj7flhazlr5MgICAgDzE05Y%2B35YWs5a%2BTICAgIA8xNeWPt%2BWFrOWvkyAgICAPMTblj7flhazlr5MgICAgDzE35Y%2B35YWs5a%2BTICAgIA8xOOWPt%2BWFrOWvkyAgICAOMTnlj7fmpbwgICAgICAOMjDlj7fmpbwgICAgICAO5pys56eRNCAgICAgICAO5pys56eRNSAgICAgICAO5pys56eRNiAgICAgICAO56CU56m2MiAgICAgICAO56CU56m2MyAgICAgICAUKwMSZ2dnZ2dnZ2dnZ2dnZ2dnZ2dnZGQCFQ88KwANAGQYAQUJR3JpZFZpZXcxD2dks72pwRhFZXy7shqK0FV%2BHo%2BV6xw%3D&__EVENTVALIDATION=%2FwEWIwLCqrCECgKehO%2FXDgKS2sqQDQKbhO%2FXDgLvo6%2FWAQKchO%2FXDgKco5mFBAKo7ZuOCQKQtOGrAwLGtc2eAwKUkP3jDgKphpG2AgL3ot33AgL3ov2mCALP9anUDQLO9e2UAQLO9fEwAsHtjeQDAsHtlaACAsHtmdwCAsHtnfwCAs7toZgNAs7tpbgNAs7tqdQNAsHt7ZQBApnz9msChpiS3QMCtcKkWgL%2BhMCpBAK7ovXVAwLVvLqTBQKewdn%2BDgLeuZHECgK8w4S2BAKjm5WMBhrpaK%2FPVR7L%2BngMlHOw%2B5OLj989&DistrictDown=%E5%98%89%E5%AE%9A%E6%A0%A1%E5%8C%BA&BuildingDown=12%E5%8F%B7%E5%85%AC%E5%AF%93++++&RoomnameText="

+ sys.argv[ 1 ] + "&Submit=%E6%9F%A5%E8%AF%A2"

headers = {"Content-type": "application/x-www-form-urlencoded","Accept": "text/plain"}

conn = httplib.HTTPConnection( "nyglzx.tongji.edu.cn" )

conn.request( "POST" , "/web/datastat.aspx" ,parameters,headers)

response = conn.getresponse()

print response.status,response.reason

result = response.read()

pattern = r

‘<td><font color="Black">\d+-\d+-\d+</font></td><td><font color="Black">\d+,\d+.\d+</font></td><td><font color="Black">\d+,\d+.\d+</font></td><td><font color="Black">\d+.\d+</font></td>‘

matchs = re.findall(pattern,result)

pattern = r

‘<td><font color="Black">(\d+-\d+-\d+)</font></td><td><font color="Black">(\d+,\d+.\d+)</font></td><td><font color="Black">(\d+,\d+.\d+)</font></td><td><font color="Black">(\d+.\d+)</font></td>‘

for i in matchs:

tm = re.match(pattern, i)

print tm.group( 1 ),tm.group( 2 ),tm.group( 3 ),tm.group( 4 )

　　这里面的re模块主要用到了两个,一个是result = re.match(pattern,content), 通过result.group(1:n)来访问pattern中以()括起来的内容。另一个是result = re.findall(pattern,content),它的结果用for来访问或者result[index]来访问即可了。

原文：http://www.cnblogs.com/luomingchuan/p/3776049.html

内容总结

以上是互联网集市为您收集整理的使用python进行re拆分网页内容全部内容，希望文章能够帮你解决使用python进行re拆分网页内容所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1240343.html

来源：【匿名】

【上一篇】Python3+Cuda+Cudnn+GPU 【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【使用python进行re拆分网页内容】教程文章相关的互联网学习教程文章

Python之shebang

点1 - Python之shebang一. shebang在计算机科学中，Shebang是一个由井号和叹号构成的字符串行，其出现在文本文件的第一行的前两个字符。在文件中存在Shebang的情况下，类Unix操作系统的程序载入器会分析Shebang后的内容，将这些内容作为解释器指令，并调用该指令，并将载有Shebang的文件路径作为该解释器的参数。针对Python中经常会看到两种shebang的形式, 如下 :#!/usr/bin/python #!/usr/bin/env python二. #!/usr/bin/python对...

Python & PyCharm 安装与简单使用【图】

今天有些无聊，又听别人说Python怎么怎么的好，所以就来试下。 Python下载地址：https://www.python.org/downloads/windows/根据你的系统要求，安装你所需要的版本。其实Python的安装简单得很，直接跟进下一步就OK。下面我们继续PyCharm官网下载：https://www.jetbrains.com/pycharm/download/#section=windows因为我只是学下吧了，所以不需要使用专业版，只是使用免费的就OK，如果有谁需要使用专业的，那可以直接下载专业的版本，...

Python3基础 bool True为1 False为0【代码】

???????Python : 3.7.3?????????OS : Ubuntu 18.04.2 LTS????????IDE : pycharm-community-2019.1.3??????Conda : 4.7.5???typesetting : Markdowncodecoder@ubuntu:~$ source activate py37 (py37) coder@ubuntu:~$ ipython Python 3.7.3 (default, Mar 27 2019, 22:11:17) Type 'copyright', 'credits' or 'license' for more information IPython 7.5.0 -- An enhanced Interactive Python. Type '?' for help.In [1]: t = Tru...

如何访问python类中的私有方法【代码】

在python中，不像c#/java类语言，支持类的私有方法，这点有点像objc，虽然objc可以通过扩展extension来实现，但源于objc的运行时特性，我们还是可以通过非常手段来进行访问的。不过这点说白了，好像c#中也可以通过指定BindingFlags.NonPublic的方式结合反射来调用。假设有如下一个python类：1class Securityp(object): 2def__inaccessible(self): 3print"Bet you can‘t see me..."而s是Securityp的一个实例，我们1 s.__inaccessib...

python迭代器与生成器【代码】

一、迭代　　1.重复　　2.下一次重复是基于上一次结果二、迭代器　　python为了提供一种不依赖于索引的迭代方式，python会为一些对象内置__iter__方法，obj.__iter__称为可迭代的对象，obj.__iter__得到的结果就是迭代器，得到的迭代器既有__iter__，也有一个__next__方法d={‘a‘:1,‘b‘:2,‘c‘:3}i=d.__iter__() #i叫迭代器 print(i.__next__())三、迭代器的优缺点　　1.优点：　　　　1）提供了一种不依赖于索引的取值方式　　...

Python 模块与包【代码】

一、模块模块就是一个包含了python定义和申明的文件，文件名就是模块的名字加上.py的后缀/模块的分类： 1、使用python编写的py文件 2、已被编译位共享库或者DLL或C或者C++的扩展 3、包好一组模块的包 4、使用c编写并连接到python解释器的内置模块使用模块是为了让我们写的代码可以重用，不至于把所有的文件都写到一个py文件内。如果都写在一个py文件内，项目大时，不易维护。导入模块的两种方式1、import模块2、fro...

Python上下文管理器【代码】

在python脚本工具中，配合with使用上下文管理器的写法将会非常nice，比如进行数据库操作，邮件发送等等一些具有连接、关闭的操作时。第一种函数的写法"""以发送邮件为例""" import smtplib from contextlib import contextmanagerSMTP_SERVER = "" ACCOUNT = "" PASSWORD = ""@contextmanager def connect():smtp_obj = smtplib.SMTP(SMTP_SERVER)smtp_obj.login(ACCOUNT, PASSWORD)yield smtp_objsmtp_obj.quit() 第二种类的写法"...

使用pip安装Python库超时解决办法

如果在国内安装Python库，强烈推荐使用豆瓣的源http://pypi.douban.com/simple/可以这样使用pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple ipython比如安装djangopip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com django每次这样会很麻烦，配置一下 Windows下面可以这样配置1、在C:\Users\Administrator\AppData\Roaming目录下新建文件夹pip， 2、在...

Python - Unittest小结【代码】【图】

一、Unittest单元测试框架，可用于自动化测试用力组织，执行，输出结果二、Unittest构成Test CaseTest SuiteTest FixtureTest Runner (图片来源于网络)Test Case一个测试用例是一个独立的测试单元。它检查输入特定的数据时的响应。 unittest 提供一个基类： TestCase ，用于新建测试用例。一个完整的用例需要遵循3A原则Arrange: 初始化测试对象或者准备测试数据Act : 调用被测方法Assert: 断言（预期结果与实际结果的比较）test su...

selenium python （十五）控制滚动条操作

#!/usr/bin/python# -*- coding: utf-8 -*-__author__ = ‘zuoanvip‘#一般用到操作滚动条的两个场景 #注册时的法律条文的阅读，判断用户是否阅读完成的标准是：滚动条是否拉到最下方 #要操作的页面元素不在视觉范围，无法进行操作，需要拖动滚动条 #用于标识滚动条位置的代码 #<body onload="document.body.scrollTop=0"> #<body onload="document.body.scrollTop=100000">from selenium import webdriver...

Python 日志记录与程序流追踪（基础篇）【代码】

日志记录（Logging）More than print：每次用 terminal debug 时都要手动在各种可能出现 bug 的地方 print 相关信息来确认 bug 的位置；每次完成 debug 后为了避免输出太多细节信息和代码整洁，又需要把几个关键位置的 print 注释掉甚至删掉；当下次出 bug 时，继续上述步骤。。。有没有更好的方法呢？等级（Level ）Python 3 中提供了非常方便的日志记录库 logging，可以记录不同等级（level）的日志信息。系统默认的等级有：...

【已解决】python 赋值问题【代码】【图】

代码如下，问题：15 行那个变量为什么不是True啊？他和df_new_new的地址是相同的啊，df_new_new 已经是True了，他为什么不是呢？原因：df_new_new 重新赋值的时候，地址就变了。在python 中有如下规则，a = 10 b = a a = 20此时b=10 并不会受影响，a在赋值的时候会有一个新的地址分配给他。原文：https://www.cnblogs.com/howmanyk/p/12252982.html

[TimLinux] Python nonlocal和global的作用【代码】

1. 执行代码以下实例都是通过执行以下代码，需要把以下执行代码放在后面实例代码的后面。a = outer_func()print("call a()") a() a() a()b = outer_func()print("call b()") b() b() b()2. 未使用nonlocaldef outer_func():count = 3def inner_func():count += 1print("count", count)return inner_func#output>>> # count += 1 #UnboundLocalError: local variable ‘count‘ referenced before assignment3. 使用nonlocaldef ...

Python-SocketServer【代码】【图】

建立一个SocketServer，首先要创建一个请求处理类，这个类要继承BaseRequestHandler，还要重写父类里handle()方法，handle()方法在父类中为空的然后实例化TCPServer，并且传递server ip和创建的请求处理类给这个TCPServer服务器端# -*-coding:utf-8-*- __author__ = "MuT6 Sch01aR"import socketserver,socketclass MyTCPHandler(socketserver.BaseRequestHandler): #创建请求处理类，继承BaseRequestHandlerdef handle(self): #重...

python17之day2【代码】

一、进制1.进制简介　　进制就是进位制，是一种进位方法。计算机语言就是二进制，计算机能直接识别二进制数据，其它数据都不能直接识别。2.常用进制　1) 十进制：运算规则”逢十进一”；2) 八进制：运算规则”逢八进一”；3) 十六进制：运算规则”逢十六进一”；4) 二进制：运算规则”逢二进一”。3.进制转换我们有最常用的转换方法：用十进制数据除以目标进制得到余数，并将余数从最后一个到第一个排列，就是转换后的目标进制表示...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 使用python进行re拆分网页内容

使用python进行re拆分网页内容

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用python进行re拆分网页内容】教程文章相关的互联网学习教程文章

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程