python模块之HTMLParser抓页面上的所有URL链接
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python模块之HTMLParser抓页面上的所有URL链接,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1799字,纯文字阅读大概需要3分钟。
内容图文
# -*- coding: utf-8 -*- # python 27 # xiaodeng # python模块之HTMLParser抓页面上的所有URL链接 import urllib # MyParser类写法一 ‘‘‘ from HTMLParser import HTMLParser class MyParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == ‘a‘: for name,value in attrs: if name == ‘href‘ and value.startswith(‘http‘): print value ‘‘‘ # MyParser类写法二 import HTMLParser class MyParser(HTMLParser.HTMLParser): def handle_starttag(self, tag, attrs):
#这里重新定义了处理开始标签的函数 if tag == ‘a‘:#判断标签<a>的属性 for name,value in attrs: if name == ‘href‘and value.startswith(‘http‘):#以什么字符串开头print value if__name__ == ‘__main__‘: url=‘http://www.cnblogs.com/‘ content=urllib.urlopen(url).read() my=MyParser() my.feed(content) my.close() ‘‘‘ http://www.cnblogs.com/Jaryleely/p/careertwo.html http://www.cnblogs.com/Jaryleely/ http://www.cnblogs.com/Jaryleely/ http://www.cnblogs.com/Jaryleely/p/careertwo.html#commentform http://www.cnblogs.com/Jaryleely/p/careertwo.html http://www.cnblogs.com/AndroidJotting/p/4983688.html http://www.cnblogs.com/AndroidJotting/ http://www.cnblogs.com/AndroidJotting/ http://www.cnblogs.com/AndroidJotting/p/4983688.html#commentform http://www.cnblogs.com/AndroidJotting/p/4983688.html http://www.cnblogs.com/fuly550871915/p/4983682.html http://www.cnblogs.com/fuly550871915/ http://www.cnblogs.com/fuly550871915/ http://www.cnblogs.com/fuly550871915/p/4983682.html#commentform http://www.cnblogs.com/fuly550871915/p/4983682.html http://www.cnblogs.com/Ray-liang/p/4983592.html http://www.cnblogs.com/Ray-liang/ http://www.cnblogs.com/Ray-liang/ http://www.cnblogs.com/Ray-liang/p/4983592.html#commentform http://www.cnblogs.com/Ray-liang/p/4983592.html ....... ‘‘‘
原文:http://www.cnblogs.com/dengyg200891/p/4983746.html
内容总结
以上是互联网集市为您收集整理的python模块之HTMLParser抓页面上的所有URL链接全部内容,希望文章能够帮你解决python模块之HTMLParser抓页面上的所有URL链接所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。