首页 / 爬虫 / PHP爬虫抓取网页内容 (simple_html_dom.php)

PHP爬虫抓取网页内容 (simple_html_dom.php)

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了PHP爬虫抓取网页内容 (simple_html_dom.php)，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1636字，纯文字阅读大概需要3分钟。

内容图文

　　使用simple_html_dom.php，下载|文档

　　因为抓取的只是一个网页，所以比较简单，整个网站的下次再研究，可能用Python来做爬虫会好些。

             1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/>
 2 <?php
 3include_once ‘simplehtmldom/simple_html_dom.php‘;
 4//获取html数据转化为对象 5$html = file_get_html(‘http://paopaotv.com/tv-type-id-5-pg-1.html‘);
 6//A-Z的字母列表每条数据是在id=letter-focus 的div内class= letter-focus-item的dl标签内，用find方法查找即为  7 8foreach($html->find(‘.txt-list li a‘) as$element)
 9$arr[]= $element->innertext . ‘<br>‘;
1011$fileName=‘data.txt‘;//不用事先建好12$arrLen=count($arr);
13for($i=0;$i<$arrLen;$i++){
14file_put_contents($fileName,$arr[$i],FILE_APPEND|LOCK_EX);
15/*FILE_APPEND|LOCK_EX是往后追加数据，如果没有该参数，则只能插入一条数据
16        但是如果重新启动抓取时，则会将以往抓取过的数据继续存入*/17    }
18//以上是抓取的数据然后存到data.text里19$content=file_get_contents($fileName);
20$cont=explode("<br>",$content);
21$contLen=count($cont);
22for($i=0;$i<$contLen;$i++) {
23unset($cont[2*$i+1]);
24     }

先在 http://www.paopaotv.com/tv-type-id-5-pg-1.html 中找到节点，

            1
            foreach($html->find(‘.txt-list li a‘) as$element)
2$arr[]= $element->innertext . ‘<br>‘;

获得节点内的数据

技术分享

获得的数据：

技术分享

可以看到，每个获取的数据后面都有个<br>***<br>,这时因为 .txt-list li 下面有两个a,所以会得到两个数据

            1
            $content=file_get_contents($fileName);
2$cont=explode("<br>",$content);
3$contLen=count($cont);
4for($i=0;$i<$contLen;$i++) {
5unset($cont[2*$i+1]);
6     }

获取data.text中的数据，通过 explode("<br>",$content) 将<br>前后的数据分成两部分，将$cont用print_r()函数打印出来后，得到

技术分享

可以看出，所有不需要的数据都是奇数项，所以用 unset($cont[2*$i+1]); 函数删掉，显示的时候是：

技术分享

但是如何将现在的数组的key重新排序，这个我还没不知道怎么弄，试过array_splice,该函数也不能设定只支持删除奇数的内容。

原文：http://www.cnblogs.com/jacson/p/4711537.html

内容总结

以上是互联网集市为您收集整理的PHP爬虫抓取网页内容 (simple_html_dom.php)全部内容，希望文章能够帮你解决PHP爬虫抓取网页内容 (simple_html_dom.php)所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1178587.html

来源：【匿名】

【上一篇】Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【下一篇】PHP使用swoole实现多线程爬虫

更多 ►

【PHP爬虫抓取网页内容 (simple_html_dom.php)】教程文章相关的互联网学习教程文章

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据【代码】

接着上一遍，在用Selenium+phantomjs 抓取数据过程中发现，有时候抓取不到，所以又测试了用Selenium+浏览器驱动的方式：具体代码如下：#coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import ActionChainsimport IniFileclass IEDriverCrawler: def __init__(self): #通过配置文件获取IEDrive...

python爬虫CSDN文章抓取

CSDN原则上不让非人浏览访问，正常爬虫无法从这里爬取文章，需要进行模拟人为浏览器访问。使用：输入带文章的CSDN链接自动生成正文的HTML，文件名为标题名#!/usr/bin/env python # coding=utf-8 ##########################################> File Name: CSDN_article.py#> Author: nealgavin#> Mail: nealgavin@126.com #> Created Time: Tue 27 May 2014 03:42:54 PM CST #########################################import rando...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

转自:http://blog.csdn.net/pleasecallmewhy/article/details/8922826一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为...

Python-爬虫-基本库（requests）使用-抓取猫眼电影Too100榜【代码】【图】

1#抓取猫眼电影，https://maoyan.com/board/4 榜单电影列表 2import requests3import re4from requests.auth import HTTPBasicAuth5 6#定义爬虫工具类 7class SpiderTools():8def__init__(self):9 super(SpiderTools, self).__init__() 10#抓取首页信息11def load_onePage(self,url): 12 self.headers={ 13‘Host‘:‘maoyan.com‘, 14‘Accept‘:‘text / html, application / xhtml + xml, * / *‘, 15‘User-A...

PHP爬虫抓取网页内容 (simple_html_dom.php)【代码】【图】

使用simple_html_dom.php，下载|文档　　因为抓取的只是一个网页，所以比较简单，整个网站的下次再研究，可能用Python来做爬虫会好些。 1 <meta http-equiv="content-type" content="text/html;charset=utf-8"/>2 <?php3include_once ‘simplehtmldom/simple_html_dom.php‘;4//获取html数据转化为对象 5$html = file_get_html(‘http://paopaotv.com/tv-type-id-5-pg-1.html‘);6//A-Z的字母列表每条数据是在id=letter-focus 的di...

[转]网络爬虫（一）：抓取网页的含义和URL基本构成

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互...

PHP爬虫抓取【代码】【图】

目标：利用PHP解决网站列表内容抓取描述：在群里看到小伙伴问到关于抓取网站列表内容，我就想起了当时工作关于文章采集的问题，但是后面想想又不对，这是列表抓取，于是就想起了大神们经常说的说的“爬虫”，我想一定可以解决小伙伴的问题，因为是php小白，所以在网上找了很多爬虫的写法，但是太长了不想看，受个别启发看到了fopen()方法，那么这个方法是干嘛的，查找得出“把指定文件或者url资源绑定到资源流上”，额好像不错，就...

nodejs爬虫数据抓取 -- 问题总结【图】

一返回的信息提示 Something went wrong request模块请求出现未知错误其中，所用代码如下（无User-Agent部分）问题多次派查无果，包括：　　1：postman请求正常　　2. curl 请求正常　　解决办法：为请求添加user-agent头，如取消上注释部分。（我发现，只要有了user-agent这个key,无论其value是否为空，都可以正常返回了）所以对于模拟请求，有时候相应的http头部信息还是必须的。原文：http://www.cnblogs.com/imwtr/p/4679...

python爬虫如何抓取代理服务器【代码】

一年前突然有个灵感，想搞个强大的网盘搜索引擎，但由于大学本科学习软件工程偏嵌入式方向，web方面的能力有点弱，不会jsp，不懂html，好久没有玩过sql，但就是趁着年轻人的这股不妥协的劲儿，硬是把以前没有学习的全部给学了一遍，现在感觉web原来也就那么回事。好了，废话就不说了，看到本文的读者，可以先看看我做的东西：去转盘网：www.quzhuanpan.comok搜搜：www.oksousou.com（这个是磁力，顺便拿出来给大伙观赏）言归正传，...

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—【代码】【图】

第三百四十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容— 编写spiders爬虫文件循环抓取内容Request()方法，将指定的url地址添加到下载器下载页面，两个必须参数，　　参数：　　url=‘url‘ 　　callback=页面处理函数　　使用时需要yield Request() parse.urljoin()方法，是urllib库下的方法，是自动url拼接，如果第二个参数的url地址是相对路径会自动与第一个参数拼接# -*- coding: utf-...

python抓取搜索到的url，小型爬虫

#!/usr/bin/python # -*- coding: utf-8 -*-import sys import re import urllib2from BeautifulSoup import BeautifulSoupdef search(key):#请求搜索链接，关键字用参数key代替search_url='http://www.baidu.com/s?ie=UTF-8&wd=key'req=urllib2.urlopen(search_url.replace('key',key))#计数变量，用来记录页数count = 1#主循环，抓取每一页的url，直到最后一页while 1:print "\033[1;31mpage %s:\033[0m" % counthtml=req.read()...

Python爬虫实例（二）使用selenium抓取斗鱼直播平台数据【代码】【图】

程序说明：抓取斗鱼直播平台的直播房间号及其观众人数，最后统计出某一时刻的总直播人数和总观众人数。过程分析：一、进入斗鱼首页http://www.douyu.com/directory/all进入平台首页，来到页面底部点击下一页，发现url地址没有发生变化，这样的话再使用urllib2发送请求将获取不到完整数据，这时我们可以使用selenium和PhantomJS来模拟浏览器点击下一页，这样就可以获取完整响应数据了。首先检查下一页元素，如下：<a href="#" class...

Python爬虫-简单利用urllib.request和正则表达式抓取职位信息【代码】

1: 利用urllib.request和正则表达式抓取职位信息 1# coding:utf-8 2 3import re4import requests5import urllib.request6 7#利用urllib和re正则提取网页数据 8 9‘‘‘10url = ‘https://search.51job.com/list/020000,000000,0124,01,9,99,%2520,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fr...

python第一个爬虫的例子抓取数据到mysql，实测有数据【代码】【图】

python3.5先安装库或者扩展1 requests第三方扩展库 pip3 install requests2 pymysqlpip3 install pymysql3 lxmlpip3 install lxml4 贴个代码#!/usr/bin/env python # coding=utf-8import requests from bs4 import BeautifulSoup import pymysqlprint(‘连接到mysql服务器...‘) db = pymysql.connect("localhost","root","root","python") print(‘连接上了!‘) cursor = db.cursor() cursor.execute("DROP TABLE IF EXISTS COLO...

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成(转)

爬虫 - 最热教程

论Python爬虫与MySQL数据库交互的坑 Python爬虫实战教程：爬取网易新闻；爬...【Python爬虫实践】异步XHR爬取在线编...node爬虫进阶之——登录 Python3爬虫实例之网易云音乐爬虫 Python爬虫入门【10】：电子书多线程爬...c# – 尝试使用ZeroMQ构建分布式爬虫 Python爬虫抓取技术的门道，大师级总结 java网页爬虫正则表达式 [Python] [爬虫] 1.批量政府网站的招投...

首页 / 爬虫 / PHP爬虫抓取网页内容 (simple_html_dom.php)

PHP爬虫抓取网页内容 (simple_html_dom.php)

内容导读

内容图文

内容总结

内容备注

内容手机端

【PHP爬虫抓取网页内容 (simple_html_dom.php)】教程文章相关的互联网学习教程文章

爬虫 - 最新教程

爬虫 - 最热教程