javascript-使用Python,BeautifulSoup进行动态数据Web抓取
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了javascript-使用Python,BeautifulSoup进行动态数据Web抓取,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含2263字,纯文字阅读大概需要4分钟。
内容图文
![javascript-使用Python,BeautifulSoup进行动态数据Web抓取](/upload/InfoBanner/zyjiaocheng/691/0a79a8b817fd40dbb5f07fdf0abcb859.jpg)
我试图从HTML中提取许多页面的数据(数字).每个页面的数据都不同.当我尝试使用soup.select(‘span [class =“ pull-right”]’)时,它应该给我数字,但是只有标签出现.我相信这是因为网页中使用了Javascript. 180,476是我要在许多页面上使用的特定HTML处的数据位置:
<div class="legend-block--body">
<div class="linear-legend--counts">
Pageviews:
<span class="pull-right">
180,476
</span>
</div>
<div class="linear-legend--counts">
Daily average:
<span class="pull-right">
8,594
</span>
</div></div>
我的代码(这在很多页面中都是循环的):
res = requests.get(wiki_page, timeout =None)
soup = bs4.BeautifulSoup(res.text, 'html.parser')
ab=soup.select('span[class="pull-right"]')
print(ab)
输出:
[<span class="pull-right">\n<label class="logarithmic-scale">\n<input
class="logarithmic-scale-option" type="checkbox"/>\n Logarithmic scale
</label>\n</span>, <span class="pull-right">\n<label class="begin-at-
zero">\n<input class="begin-at-zero-option" type="checkbox"/>\n Begin at
zero </label>\n</span>, <span class="pull-right">\n<label class="show-
labels">\n<input class="show-labels-option" type="checkbox"/>\n Show
values </label>\n</span>]
我想要综合浏览量
解决方法:
如果您使用requests.get检索页面,则JavaScript代码将不会执行.因此,应改为使用硒.在浏览器中打开页面时,它将模仿用户喜欢的行为,因此将执行js代码.
要开始使用硒,您需要使用pip install selenium安装.然后使用以下代码检索您的商品:
from selenium import webdriver
browser = webdriver.Firefox()
# List of the page url and selector of element to retrieve.
wiki_pages = [("https://tools.wmflabs.org/pageviews/?project=en.wikipedia.org&platform=all-access&agent=user&range=latest-20&pages=Star_Wars:_The_Last_Jedi",
".summary-column--container .legend-block--pageviews .linear-legend--counts:first-child span.pull-right"),]
for wiki_page in wiki_pages:
url = wiki_page[0]
selector = wiki_page[1]
browser.get(wiki_page)
page_views_count = browser.find_element_by_css_selector(selector)
print page_views_count.text
browser.quit()
注意:如果需要运行无头浏览器,请考虑使用PyVirtualDisplay(Xvfb的包装器)运行无头WebDriver测试,有关更多信息,请参见’How do I run Selenium in Xvfb?‘.
内容总结
以上是互联网集市为您收集整理的javascript-使用Python,BeautifulSoup进行动态数据Web抓取全部内容,希望文章能够帮你解决javascript-使用Python,BeautifulSoup进行动态数据Web抓取所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。