首页 / PYTHON / python 爬虫(二)
python 爬虫(二)
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了python 爬虫(二),小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1909字,纯文字阅读大概需要3分钟。
内容图文
![python 爬虫(二)](/upload/InfoBanner/zyjiaocheng/1261/7672aedd725649daa84597a564f538ee.jpg)
python 爬虫 Advanced HTML Parsing
1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能是像下面这样的
<span class="green" ></span> <span class="red"></span>
通过标签的class我们的程序能够简单的将他们分辨开来。
1 from urllib.request import urlopen 2from bs4 import BeautifulSoup 34 html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") 5 bsObj = BeautifulSoup(html,"html.parser") 67 nameList = bsObj.find_all("span",{"class":"green"}) 8for name in nameList: 9print(name.get_text())
运行上面的脚本会将所有class为green的标签找出来,并且打印出来他们的context
I find_all方法:
find_all(name,attrs,recursive,text,**kwargs)
name参数:用来查找名字为name的标签,字符串对象会被忽略掉。这个name参数的值可以使用任意一种过滤器:
1. 字符串,在查找方法中BeautifulSoup会查找与字符串完全匹配的内容
soup.find_all(‘span‘)
2. 正则表达式,BeautifulSoup会通过正则表达式的match来匹配内容
soup.find_all(re.compile("b")) # body b
3 列表:如果传入的是列表,beautifulSoup会将列表中所有元素匹配返回
soup.find_all([‘a‘,‘b‘])
4 True,返回所有标签
5 方法,如果没有合适的过滤器还可以定义一个方法,这个方法只能接受一个参数,如果方法返回为True表示当前元素匹配并且被找到,如果不是返回false
![技术分享](/upload/getfiles/default/2022/11/9/20221109080704275.jpg)
![技术分享](/upload/getfiles/default/2022/11/9/20221109080704298.jpg)
1 def has_class_but_no_id(tag): 2 return tag.has_attr(‘class‘) andnot tag.has_attr(‘id‘) 3 bsObj.find(has_class_but_no_id)
keyword参数:
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当做指定名字的标签的属性来搜索
其实这章主要是对BeautifulSoup的介绍:详细信息可见
soup.find_all(id=‘link2‘)
soup.find_all(href=re.compile("slsie"))
soup.find_all(id = True)所有有id的标签
搜索指定名字的属性可以是 字符串 正则表达式 列表 True
使用多个指定名称参数同时过滤
soup.find_all(href=re.compile("elsie"),id="link")
有些tag的属性不能够在搜索中使用 比如data-*
1 data_soup = BeautifulSoup(‘<div data-foo="value">foo!</div>‘) 2 data_soup.find_all(data-foo="value") 3# SyntaxError: keyword can‘t be an expression
text参数:
通过text参数可以搜搜文档中字符串的内容,和name的使用方式基本一样
limit参数:
find_all返回全部的搜索结果,如果文档树很大,那么搜索的结果会比较慢可以使用limit控制返回的数量
revursive参数
调用find_all的时候会搜索当前所有的子孙节点,如果只想搜索直接子节点使用recursive=False
II find方法
find方法和find_all方法在使用上基本相同,find返回一个标签find_all返回一个标签列表
在找的值为空的情况下find_all返回一个空列表find返回None
原文:http://www.cnblogs.com/someoneHan/p/6229863.html
内容总结
以上是互联网集市为您收集整理的python 爬虫(二)全部内容,希望文章能够帮你解决python 爬虫(二)所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。