python爬虫实战-爬取励志名言并保存至本地(正则)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python爬虫实战-爬取励志名言并保存至本地(正则),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1497字,纯文字阅读大概需要3分钟。
内容图文
![python爬虫实战-爬取励志名言并保存至本地(正则)](/upload/InfoBanner/zyjiaocheng/841/e4e76d71805b484788eebb62efe81981.jpg)
python爬虫实战-爬取励志名言并保存至本地(正则)
import urllib.parse
import urllib.request
import re
def handle_request(url,page=None):
if page !=None:
url=url+str(page)+'.html'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
}
request=urllib.request.Request(url=url,headers=headers)
return request
def get_text(a_href):
request=handle_request(a_href)
text=urllib.request.urlopen(request).read().decode()
pattern=re.compile(r'<div class="neirong">(.*?)</div>',re.S)
let=pattern.findall(text)
#清除内容里面的所有图片
pat=re.compile(r'<img .*?>',re.S)
text=pat.sub('',let[0])
return(text)
def get_content(lt):
for href_title in lt:
a_href='http://www.yikexun.cn'+href_title[0]
title=href_title[1]
text=get_text(a_href)
string='<h1>%s</h1>%s' % (title,text)
with open('lizhi1.html','a',encoding='utf8')as fp:
fp.write(string)
def parse_content(content):
pattern=re.compile(r'<h3><a href="(.*?)"><b>(.*?)</b></a></h3>')
#返回的lt是一个列表,列表每个元素都是一个元祖,元祖的第一个元素就是url地址,第二个元素是标题
lt=pattern.findall(content)
get_content(lt)
def main():
# url='http://www.yikexun.cn/lizhi/qianming/list_50_2.html'
url='http://www.yikexun.cn/lizhi/qianming/list_50_'
start_page=int(input('请输入起始页码:'))
end_page=int(input('请输入结束页码:'))
for page in range(start_page,end_page+1):
request=handle_request(url,page)
content=urllib.request.urlopen(request).read().decode()
parse_content(content)
if __name__ == '__main__':
main()
内容总结
以上是互联网集市为您收集整理的python爬虫实战-爬取励志名言并保存至本地(正则)全部内容,希望文章能够帮你解决python爬虫实战-爬取励志名言并保存至本地(正则)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。