首页 / 爬虫 / python利用beautifulSoup实现爬虫

python利用beautifulSoup实现爬虫

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python利用beautifulSoup实现爬虫，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2024字，纯文字阅读大概需要3分钟。

内容图文

以前讲过利用phantomjs做爬虫抓网页 www.gxlcms.com/article/55789.htm 是配合选择器做的

利用 beautifulSoup(文档：www.crummy.com/software/BeautifulSoup/bs4/doc/)这个python模块，可以很轻松的抓取网页内容

# coding=utf-8
import urllib
from bs4 import BeautifulSoup

url ='http://www.baidu.com/s'
values ={'wd':'网球'}
encoded_param = urllib.urlencode(values)
full_url = url +'?'+ encoded_param
response = urllib.urlopen(full_url)
soup =BeautifulSoup(response)
alinks = soup.find_all('a')

上面可以抓取百度搜出来结果是网球的记录。

beautifulSoup内置了很多非常有用的方法。

几个比较好用的特性：

构造一个node元素

代码如下:

soup = BeautifulSoup('
Extremely bold
')
tag = soup.b
type(tag)
#

属性可以使用attr拿到，结果是字典

代码如下:

tag.attrs
# {u'class': u'boldest'}

或者直接tag.class取属性也可。

也可以自由操作属性

tag['class'] = 'verybold'
tag['id'] = 1
tag
#Extremely bolddel tag['class']
del tag['id']
tag
#Extremely boldtag['class']
# KeyError: 'class'
print(tag.get('class'))
# None

还可以随便操作，查找dom元素，比如下面的例子

1.构建一份文档

html_doc = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;
and they lived at the bottom of a well...."""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

2.各种搞

soup.head
#The Dormouse's storysoup.title
#The Dormouse's storysoup.body.b
# The Dormouse's storysoup.a
# Elsiesoup.find_all('a')
# [Elsie,
# Lacie,
# Tillie]
head_tag = soup.head
head_tag
#The Dormouse's storyhead_tag.contents
[The Dormouse's story]

title_tag = head_tag.contents[0]
title_tag
#The Dormouse's storytitle_tag.contents
# [u'The Dormouse's story']
len(soup.contents)
# 1
soup.contents[0].name
# u'html'
text = title_tag.contents[0]
text.contents

for child in title_tag.children:
  print(child)
head_tag.contents
# [The Dormouse's story]
for child in head_tag.descendants:
  print(child)
#The Dormouse's story# The Dormouse's story

len(list(soup.children))
# 1
len(list(soup.descendants))
# 25
title_tag.string
# u'The Dormouse's story'

内容总结

以上是互联网集市为您收集整理的python利用beautifulSoup实现爬虫全部内容，希望文章能够帮你解决python利用beautifulSoup实现爬虫所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/433198.html

来源：【匿名】

【上一篇】简单的抓取淘宝图片的Python爬虫【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【python利用beautifulSoup实现爬虫】教程文章相关的互联网学习教程文章

Go语言实现的web爬虫实例

本文实例讲述了Go语言实现的web爬虫方法。分享给大家供大家参考。具体分析如下：这里使用 Go 的并发特性来并行执行 web 爬虫。修改 Crawl 函数来并行的抓取 URLs，并且保证不重复。复制代码代码如下:package main import ( "fmt" ) type Fetcher interface { // Fetch 返回 URL 的 body 内容，并且将在这个页面上找到的 URL 放到一个 slice 中。 Fetch(url string) (body string, urls []string, err error) } /...

用webmagic实现一个java爬虫小项目【代码】【图】

一、环境项目:maven项目数据库:mysql 二、项目介绍我们要爬去的页面是https://shimo.im/doc/iKYXMBsZ5x0kui8P 假设我们需要进入这个页面，爬取页面里面的所有电影百度云链接，并保存在mysql数据库里。三、pom.xml配置首先我们需要新建一个maven项目，并在pom.xml配置如下jar包。<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http...

爬虫的简单实现【代码】【图】

大数据时代虽然给我们的生活带来了很多的便利，但是往往我们想要获取或整理我们想要的资源却还是一件很难的事情，难在查找和搜寻资料，有了可共享数据的网站，却还要一页一页的点进去，筛选我们想要的信息，是不是很麻烦?是的，那么，这个时候你一定要有一个会写爬虫的朋友（或者男朋友^_^），前几次我们也已经实现了利用webcollector和htmlparser爬取网易云音乐和豆瓣图书，但是有很多网友评论说看不懂或者不明白，而且网上的资源...

Python实现网络爬虫【代码】【图】

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互...

京东爬虫实现词云图展示【代码】【图】

一.前期准备，抓取HTML我们所需要关键信息　　目标url：https://search.jd.com/Search?keyword=shouji&enc=utf-8&wq=shouji&pvid=a1727a28a24544829b30ef54d049feae　　目标url其中page可以换页可以更改　　然后跳转url转到相关数据页面：　　跳转到手机详细页面我们需要找到手机相关信息eg：名称价格销量等　　前期准备工作完成二.代码编写1.库的导入　　 2.函数功能 a.请求网页 b.数据处理 c.词云图设计　　 3.效果展示　　...

伪分布式网络爬虫框架的设计与自定义实现【图】

【项目愿景】系统基于智能爬虫方向对数据由原来的被动整理到未来的主动进攻的转变的背景下，将赋予”爬虫”自我认知能力，去主动寻找”进攻”目标。取代人工复杂而又单调的重复性工作。能够实现在人工智能领域的某一方向上独当一面的作用。【项目进展】项目一期基本实现框架搭建，对数据的处理和简单爬取任务实现。【项目说明】为了能够更好理解优秀框架的实现原理，本项目尽量屏蔽优秀开源第三方jar包实现，自定义实现后再去择优而...

python编写网页爬虫脚本并实现APScheduler调度【代码】

前段时间自学了python，作为新手就想着自己写个东西能练习一下，了解到python编写爬虫脚本非常方便，且最近又学习了MongoDB相关的知识，万事具备只欠东风。程序的需求是这样的，爬虫爬的页面是京东的电子书网站页面，每天会更新一些免费的电子书，爬虫会把每天更新的免费的书名以第一时间通过邮件发给我，通知我去下载。一、编写思路：　　1.爬虫脚本获取当日免费书籍信息　　2.把获取到的书籍信息与数据库中的已有信息作比较，如果...

爬虫-selenium实现验证码自动登录（14）【代码】

import time from io import BytesIO import randomimport requests from selenium import webdriver from selenium.webdriver import ActionChains from PIL import Imageurl = "https://www.douban.com/" browser = webdriver.Chrome(executable_path="E:/爬虫0基础入门/chromedriver_win32/chromedriver.exe")#2. 点击元素显示出有缺口的图片并下载 #3. 对比两张图片找出缺口的移动像素 #4. 拖动元素 url = "https://passport.b...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

scrapy爬虫基本实现和爬虫思想【代码】【图】

今天分享下scrapy爬虫的基本使用方法，scarpy是一个比较成熟稳定的爬虫框架，方便了爬虫设计，有较强的逻辑性。我们以旅游网站为例进行介绍，一方面是旅游网站多，各个网站的适用情况不同，方便我们的学习。最后有网易云评论的一个爬取思路和不同的实现方法。话不多说，下面是scrapy的框架：创建scrapy爬虫的命令可以在cmd中输入scrapy project XXXX之后创建蜘蛛文件使用scrapy genspider xxx "xxxx.com"接着初始化工作就做完了...

爬虫基础知识与简单爬虫实现【代码】

css规则：选择器，以及一条或者多条生命。selector{declaration1;,,,;desclarationN}每条声明是由一个属性和一个值组成property:value例子：h1{color:red;fontsize:14px} 元素选择器：直接选择文档元素比如head,p类选择器：元素的class属性，比如<h1 class =”important”>类名就是important.important选择所有有这个类属性的元素可以结合元素选择器，比如p.important id选择器元素的id属性，比如<h1 id=”aa”>id就是aa#aa用于选...

Python实现爬虫从网络上下载文档【代码】

最近在学习Python，自然接触到了爬虫，写了一个小型爬虫软件，从初始Url解析网页，使用正则获取待爬取链接，使用beautifulsoup解析获取文本，使用自己写的输出器可以将文本输出保存，具体代码如下：Spider_main.py# coding:utf8from baike_spider import url_manager, html_downloader, html_parser, html_outputerclass SpiderMain(object):def__init__(self):self.urls = url_manager.UrlManager()self.downloader = html_downlo...

Java实现网络爬虫【图】

昨晚用自己写的网络爬虫程序从某网站了下载了三万多张图片，很是爽快，今天跟大家分享几点内容。一、内容摘要1：Java也可以实现网络爬虫2：Jsoup.jar包的简单使用3：可以爬某网站的图片，动图以及压缩包4：可以考虑用多线程加快下载速度二、准备工作1：安装Java JDK2：下载Jsoup.jar3：安装Eclipse或其他编程环境4：新建一个Java项目，导入Jsoup.jar三、步骤1：用Java.net包联上某个网址获得网页源代码2：用Jsoup包解析和迭代源代码...

python使用rabbitmq实现网络爬虫示例

编写tasks.py 代码如下:from celery import Celeryfrom tornado.httpclient import HTTPClientapp = Celery(tasks)app.config_from_object(celeryconfig)@app.taskdef get_html(url): http_client = HTTPClient() try: response = http_client.fetch(url,follow_redirects=True) return response.body except httpclient.HTTPError as e: return None http_client.close() 编写celeryconfig.py 代...

PHP使用swoole实现多线程爬虫【代码】【图】

在swoole中,php可以借助其启动子进程的方式,实现php的多进程：<?php $s_time = time(); echo 开始时间:.date(H:i:s,$s_time).PHP_EOL; //进程数 $work_number=6;// $worker=[];//模拟地址 $curl=[https://blog.csdn.net/feiwutudou,https://wiki.swoole.com/wiki/page/215.html,http://fanyi.baidu.com/?aldtype=16047#en/zh/manager,http://wanguo.net/Salecar/index.html,http://o.ngking.com/themes/mskin/login/login.jsp,http...

爬虫 - 相关标签

爬虫程序爬虫代理ip 爬虫代码爬虫工程师爬虫工具爬虫是什么爬虫原理

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / python利用beautifulSoup实现爬虫

python利用beautifulSoup实现爬虫

内容导读

内容图文

内容总结

内容备注

内容手机端

【python利用beautifulSoup实现爬虫】教程文章相关的互联网学习教程文章

Go语言实现的web爬虫实例

用webmagic实现一个java爬虫小项目【代码】【图】

爬虫的简单实现【代码】【图】

Python实现网络爬虫【代码】【图】

京东爬虫实现词云图展示【代码】【图】

伪分布式网络爬虫框架的设计与自定义实现【图】

python编写网页爬虫脚本并实现APScheduler调度【代码】

爬虫-selenium实现验证码自动登录（14）【代码】

Python天气预报采集器实现代码(网页爬虫)

scrapy爬虫基本实现和爬虫思想【代码】【图】

爬虫基础知识与简单爬虫实现【代码】

Python实现爬虫从网络上下载文档【代码】

Java实现网络爬虫【图】

python使用rabbitmq实现网络爬虫示例

PHP使用swoole实现多线程爬虫【代码】【图】

PYTHON - 相关标签

爬虫 - 相关标签

爬虫 - 最新教程

爬虫 - 最热教程