首页 / PYTHON / python 网页抓取信息
python 网页抓取信息
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python 网页抓取信息,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1647字,纯文字阅读大概需要3分钟。
内容图文
![python 网页抓取信息](/upload/InfoBanner/zyjiaocheng/740/5de3cbef0061478d9faa3cd9fc11779f.jpg)
目标:从下面这个网页抓取前10页IP、端口、运营商、地址、最后检测时间并存入mysql数据库
代码:
import requests import re import pandas as pd import pymysql #导入需要使用到的模块 class huoqu(): #读入数据 def __init__(self): self.num=1 for i in range(10): #获取网页信息 response = requests.get('http://www.89ip.cn/index_%d.html'%i) self.HTML = response.text #print(HTML) #是一个字符串 #提取信息 self.ip = re.compile(r'<tr>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>',re.S) self.res = re.findall(self.ip,self.HTML) self.DButil(self.res) def DButil(self,res): #建立数据库连接 self.db=pymysql.connect('localhost','root','root','python_an') #获取游标对象 self.cursor = self.db.cursor() for ip_ in self.res: self.num+=1 #插入数据语句 query = """insert into catering_sale (num,IP,port,geographical,perators,final_detection) values (%s,%s,%s,%s,%s,%s)"""
#去\t \n操作
values = (self.num,ip_[0].replace('\n', '').replace('\t', ''),ip_[1].replace('\n', '').replace('\t', ''),ip_[2].replace('\n', '').replace('\t', ''),ip_[3].replace('\n', '').replace('\t', ''),ip_[4].replace('\n', '').replace('\t', '')) self.cursor.execute(query,values) #关闭游标,提交,关闭数据库连接 #如果没有这些关闭操作,执行后在数据库中查看不到数据 self.cursor.close() self.db.commit() self.db.close() if __name__=='__main__': huoqu=huoqu() huoqu.__init__
<tr>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>
对应源码:
</th> | |
</tr> | |
</thead> | |
<tbody> | |
<tr> | |
<td> | |
101.4.136.34 </td> | |
<td> | |
8080 </td> | |
<td> | |
北京市 </td> | |
<td> | |
教育网 </td> | |
<td> | |
2019/08/05 17:30:08 </td> | |
</tr> | |
<tr> | |
<td> |
数据库:
提醒:安装pymysql:python -m pip install pymysql
测试结果:
内容总结
以上是互联网集市为您收集整理的python 网页抓取信息全部内容,希望文章能够帮你解决python 网页抓取信息所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。