网页表格信息抓取

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了网页表格信息抓取，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6817字，纯文字阅读大概需要10分钟。

内容图文

页面源代码如下：

假设页面为test.html,且最后一个表格Part Information的内容不固定，可能是1行也可能是多行。
如果要求抓蓝色字体部分怎么做？寻求解决方案。

回复讨论(解决方案)

循环table的tr，直接抓取td的值

这个页面本身返回数据的时候就有蓝色在上面吗？若是，则

<?php$string = '                                                                                                            aaaaaa 
aaaaaa 
                              aaaaaa xxxx(aaaaaa) 
                              aaaaaa xxxx 
                              adress                   aaaaaa adress                                                                                              交货计划单 
                              计划到达时间   2013-09-16 
                              PUS编号                   770266110   版本00 
                              Customer 客户                   
                              *DYNP-770266110-00*                               

                                Delivery Information             交货信息 
                  工厂
Plant           xxxxxx          
                  取货时间
Pick Up             Time           2013-09-09  16:30           需要供应商反馈
Need Duns             Response           N 
                  交货日期
Delivery             Date              2013-09-16           窗口时间
Window             Time           16:30 
                  卸货口
Dock           CC-70D           卸货口负责人
Dock Incharger                     kkk
                  卸货口电话
Dock Tel           011-1111           卸货口地址
Dock Address           adress 
                  交货地点
Delivery             Place           
                  计划跟踪员
Follow Up           kkkk           计划跟踪员电话/传真
FollowUp             Tel/Fax           011-1111
                  交货说明
Delivery Note           

                                Part Information 零件清单           
                  序号           零件号           零件说明           需求数量           承诺数量           实收数量           包装数           料箱数           料箱号           实发料箱号           实发料箱数           实收料箱号           实收料箱数           备注
                  1           12647212                     60           60                     15           4           P000000D                                                   
                  2           12654172                     615           615                     15           41           P000000D                                                   

';$result = array();preg_match_all('#<font\s*color\s*=\s*"blue">(.*)#iUus',$string,$result);print_r($result[1]);

本身要是没蓝色的（id，class之类的也没有的）话那就只能全部单元格正则匹配出来按页面结构需要来取了

本身要是没蓝色的（id，class之类的也没有的）话那就只能全部单元格正则匹配出来按页面结构需要来取了
本身无颜色区分，只是我标识出来的罢了。

$s 为你提供的页面内容

preg_match_all('#<td.+/td>#isU', $s, $r);$r = array_map('trim', array_map('strip_tags', $r[0]));print_r($r);

Array(    [0] =>      [1] => aaaaaa aaaaaa    [2] => aaaaaa xxxx(aaaaaa)    [3] => aaaaaa xxxx    [4] => adress                   aaaaaa adress    [5] =>     [6] => 交货计划单    [7] => 计划到达时间   2013-09-16    [8] => PUS编号                   770266110   版本00    [9] => Customer 客户    [10] => *DYNP-770266110-00*    [11] =>      [12] => Delivery Information             交货信息    [13] => 工厂Plant    [14] => xxxxxx    [15] => 取货时间Pick Up             Time    [16] => 2013-09-09  16:30    [17] => 需要供应商反馈Need Duns             Response    [18] => N    [19] => 交货日期Delivery             Date       [20] => 2013-09-16    [21] => 窗口时间Window             Time    [22] => 16:30    [23] => 卸货口Dock    [24] => CC-70D    [25] => 卸货口负责人Dock Incharger    [26] => kkk    [27] => 卸货口电话Dock Tel    [28] => 011-1111    [29] => 卸货口地址Dock Address    [30] => adress    [31] => 交货地点Delivery             Place    [32] =>     [33] => 计划跟踪员Follow Up    [34] => kkkk    [35] => 计划跟踪员电话/传真FollowUp             Tel/Fax    [36] => 011-1111    [37] => 交货说明Delivery Note    [38] =>     [39] => Part Information 零件清单    [40] => 序号    [41] => 零件号    [42] => 零件说明    [43] => 需求数量    [44] => 承诺数量    [45] => 实收数量    [46] => 包装数    [47] => 料箱数    [48] => 料箱号    [49] => 实发料箱号    [50] => 实发料箱数    [51] => 实收料箱号    [52] => 实收料箱数    [53] => 备注    [54] => 1    [55] => 12647212    [56] =>     [57] => 60    [58] => 60    [59] =>     [60] => 15    [61] => 4    [62] => P000000D    [63] =>     [64] =>     [65] =>     [66] =>     [67] =>     [68] => 2    [69] => 12654172    [70] =>     [71] => 615    [72] => 615    [73] =>     [74] => 15    [75] => 41    [76] => P000000D    [77] =>     [78] =>     [79] =>     [80] =>     [81] => )

读取某项内容不是什么难事吧？

//第二个表从下标 40 开始，14 列$t = array_chunk(array_slice($r, 40), 14);for($i=1; $i<count($t); $i++)   $res[] = array_combine($t[0], $t[$i]);print_r($res);

Array(    [0] => Array        (            [序号] => 1            [零件号] => 12647212            [零件说明] =>             [需求数量] => 60            [承诺数量] => 60            [实收数量] =>             [包装数] => 15            [料箱数] => 4            [料箱号] => P000000D            [实发料箱号] =>             [实发料箱数] =>             [实收料箱号] =>             [实收料箱数] =>             [备注] =>         )    [1] => Array        (            [序号] => 2            [零件号] => 12654172            [零件说明] =>             [需求数量] => 615            [承诺数量] => 615            [实收数量] =>             [包装数] => 15            [料箱数] => 41            [料箱号] => P000000D            [实发料箱号] =>             [实发料箱数] =>             [实收料箱号] =>             [实收料箱数] =>             [备注] =>         ))

preg_match_all('#<td.+/td>#isU', $s, $r);

这个正则这么用啊？感谢！

preg_match_all('#<td.+/td>#isU', $s, $r);
如果有的页面取的值的项不同，怎么求那些项？
例如：[10] => *DYNP-770266110-00* ，有时候是[12] => *DYNP-770266110-00*。
但是前一项的值都是一样的，只是键值不同。例：[9] => Customer 客户这项。

那就是你的问题了
一般说明文字与数据总是配对的，并且说明文字在前，数据在后

那就是你的问题了
一般说明文字与数据总是配对的，并且说明文字在前，数据在后

如果在1楼之前还有一个table,那么array_combine会有一个warning提示。

                                Supplier             Signature                           Carrier Signature
供应商签字             _____________                承运商签字 _____________           Supplier Confirm             Time    
供应商确认时间 13-09-10 09:01         
                  Receiver Signature             
收货人签字 _______________           
Date             日期 ______________ 
                  *** END OF PAGE ***

如何把这个table的信息过滤掉？

内容总结

以上是互联网集市为您收集整理的网页表格信息抓取全部内容，希望文章能够帮你解决网页表格信息抓取所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/194684.html

来源：【匿名】

【上一篇】GB系编码如何转换utf-8 【下一篇】PHP 5 数据对象 (PDO) 抽象层与 Oracle

更多 ►

【网页表格信息抓取】教程文章相关的互联网学习教程文章

但是这样导出身份证号会变为科学计数；解决方法就是：我们了解一下excel从web页面上导出的原理。当我们把这些数据发送到客户端时，我们想让客户端程序（浏览器）以excel的格式读取它，所以把mime类型设为：application/vnd.ms-excel，当excel读取文件时会以每个cell的格式呈现数据，如果cell 没有规定的格式，则excel会以默认的格式去呈现该cell的数据。这样就给我们提供了自定义数据格式的空间，当然我们必须使用excel支持的格式...

PHP Smarty 模板 section函数输出表格【代码】【图】

从数据库查询数据，浏览器以表格形式显示注意区别index 和iterationindex为数组下标索引iteration为序号模板页面<table border="1" width="800" align="center"> <caption>用户信息表</caption> <th align="center">index</th> <th align="center">iteration</th> <{foreach $tdname as $val}> <th align="center"><{$val}></th> <{/foreach}> ...

PHP 导出Excel表格【代码】

在实际开发中，有很多场景是需要导出Excel表格的，比如后台的统计数据，客户希望能导出为表格的形式，今天介绍一下TP5框架内实现Excel表格的导出功能，首先下载phpexcel.zip,解压后放到vendor第三方类库目录下，直接用函数vendor()引入就可以啦，直接贴代码： public function pushExcelAll(Request $request){vendor(‘phpexcel.PHPExcel‘); //引入核心库文件 vendor(‘phpexcel.PHPExcel.Writer.Excel2007‘); //引入excel2...

PHP简单导出Excel表格

<?php header(‘Content-Type: application/vnd.ms-excel‘); header(‘Content-Disposition: attachment; filename=demo.xls‘); header(‘Pragma: no-cache‘); header(‘Expires: 0‘); $title = array(‘编号‘, ‘姓名‘, ‘性别‘, ‘年龄‘, ‘身高‘, ‘体重‘); $data = array( array(1, ‘张三‘, ‘男‘, ‘22‘, 183, 72), array(2, ‘李四‘, ‘女‘, ‘18‘, 170, 50), array(3, ‘王五‘, ‘男‘, ‘14‘, 178, ...

PHP 简易输出CSV表格文件的方法详解

复制代码代码如下:$ret = ‘‘;$arrs = array(array(1,‘test1‘), array(2,‘test2‘), array(3,‘test3‘), array(4,‘test4‘), array(5,‘test5‘), array(6,‘test6‘), array(7,‘test7‘) );foreach($arrs as $k=>$arr){ $ret .= $arr[0].",".$arr[1]." \n";}//$ret = @mb_convert_encoding ($ret, ‘GBK‘,‘UTF-8‘);header("Co...

php+html表格内容悬浮提示功能的实现【代码】【图】

目前的页面常用在Chrome下打开，有一列的的字段值会出现过长的字符导致该列表格被填充拉长，而且当页面拖动放大时，还会出现换行的情况，导致所有单元格的行高跟着拉伸，影响美观。如下图所示计划将第六列的内容按一定的方式缩减，必要时显示全部字符。方案一：用tooltip做悬浮提示toolip 是CSS中的一种样式，专门做悬浮框，支持很多自定义的风格，上图是一个顶部提示框带底部箭头的悬浮框。代码如下：styles.css 中新增：.toolt...

php导出excel表格超链接【代码】

//导出的数据源二维数组$data = [[‘name‘ => ‘1‘,‘phone‘ =>‘1的电话‘,‘pic_url‘ =>[]],[‘name‘ => ‘2‘,‘phone‘ =>‘2的电话‘,‘pic_url‘ =>[]]];//设置参数$indexKey = [‘name‘, ‘phone‘, ‘pic_url‘];//与表头对应的要导出的二维数组的键$thValue = ["姓名", ‘电话‘, ‘图片‘];//表头$fileName = "测试导出表";//表名$table = ‘‘;//需要特殊处理的单元格，对应二维数组的键$urlArr = [‘pic_url‘]...

php使用js对表格进行排序【代码】【图】

<!DOCTYPE> <html> <head><meta http-equiv="Content-type" content="text/html" charset="utf-8"><title>sort table</title><style>*{margin:0px;padding:0px;}body{background:#ccc; }table{width:350px;margin:0 auto;background-color:#eee; }table th{cursor:hand;padding:5px 0;background-color:#999; }table td{background-color:#fff;font-size:16px;font-weight:normal;text-align:center;line-hei...

PHP入门-摘要表格处理问题【图】

几天来学习下来.PHP和C/C++有太多的阶段似系.所以，简单的入门现在看来已经没有问题.然而，由于所选择的条目是一个高速书籍,难免有些粗糙知识.例如，下面的两个问题让我吃了一些损失.1. 文件标签的形式不能得到的文件名.在书籍里面了解到,表单<form>有三个属性,method, action,name .当中那么标记表单的名字,method表示使用哪种方式提交表达,可选get/post.action指定处理表单的动作.能够指定一个php页面或者干脆就在当前页面处理.这...

PHP：引用PhpExcel导出数据到excel表格【代码】【图】

我使用的是tp3.2框架（下载地址：http://www.thinkphp.cn/topic/38123.html）1.首先要下载PhpExcel类库，放在如下图目录下2.调用方法public function exportExcel($expTitle,$expCellName,$expTableData){ $xlsTitle = iconv(‘utf-8‘, ‘gb2312‘, $expTitle);//文件名称 $fileName = $_SESSION[‘account‘].date(‘_YmdHis‘);//or $xlsTitle 文件名称可根据自己情况设定 $cellNum = count($expCellName); $dataNu...

phpStudy6——php导出可以设置样式的excel表格【代码】

前言：一般的后台管理页面肯定少不了excel表格导出的功劳，尤其是那些电商平台的订单导入导出，用户列表的导入导出等，那么本文就介绍php是如何导出excel表格的。php导出excel方法有很多，网上介绍比较多的是php默认的设置header的方法，以及使用phpexcel库。本文以php默认的方法为例进行演示，有感兴趣的可以去了解下phpexcel库的使用。示例代码：输出静态内容的表格： 1 <style>2/*设置表格样式*/ 3table {4 border-top: 1px...

Thinkphp5+PHPExcel实现批量上传表格数据【代码】【图】

1.首先要下载PHPExcel放到vendor文件夹下，我的路径是：项目/vendor/PHPExcel/,把下载的PHPExcel文件放在这里2.前端代码<!DOCTYPE html><html><head><title>批量导入数据</title></head><body><form action="{:url(‘/index/index/importExcel‘)}" method="post" enctype="multipart/form-data"><input type="file" name="myfile"><br/><input type="submit" value="批量的导入"></form></body></html>3.后台代码/*** 导入表格数据...

php – 如何在浏览器中显示html电子邮件,而不更改我的bg颜色和更改我的表格【代码】

在一个新的应用程序中,我正在构建,我想在浏览器的表格中显示一个HTML电子邮件. 问题是html电子邮件正在改变我的网页的背景颜色,有时会结束我用来显示多个电子邮件的html表. 电子邮件通常包含完整的html,body,div和table标签.正常情况是身体bgcolor“ff0000”,它将我的整个应用程序的背景变为红色. 有没有办法打击这个或我必须编码它取出html标签. 此外,我尝试在iframe中显示电子邮件代码,但无济于事.它实际上根本没有显示代码,只是...

拆分长PHP生成的HTML表格？【代码】

我使用MySql查询从我的数据库中选择数据,然后以HTML表格的形式打印它.它工作得很好,很好,但有时表包含数百行,网页看起来非常难看.有没有办法将桌子并排分成2或3个半部分.Present OutputDesired outputPHP<?php .... echo "<h3>Classes attended :</h3>"; echo "<table class='dates' border='1'>";foreach ($results as $dates) {echo "<tr><td width='50%'>";echo $dates->db_date;echo "</td>";echo "<td width='50%'>";echo $da...

php-特定于HTML表格的抓取【代码】

我正在尝试使用PHP刮取一个表,但事实是我设法刮了它,但是我在网页的表上得到了所有东西.我不确定如何指定要抓取的TD和/或TR. 这是PHP代码<?php include("simple_html_dom.php"); $html=file_get_html("http://www.premierleague.com/en-gb/matchday/league-table.html"); $html=new simple_html_dom($html);foreach($html->find('table tr') as $row) { $cell = $row->find('td', 0); echo $row; } ?>我想要得到的(如果您查看the w...

PHP - 技术教程分类

PHP 教程 PHP 简介 PHP 安装 PHP 语法 PHP 变量 PHP echo/print PHP EOF(heredoc) PHP 数据类型 PHP 类型比较 PHP 常量 PHP 字符串 PHP 运算符 PHP If...Else PHP Switch PHP 数组 PHP 数组排序 PHP 超级全局变量 PHP While 循环 PHP For 循环 PHP 函数 PHP 魔术常量 PHP 命名空间 PHP 面向对象 PHP 测验 PHP 表单 PHP 表单验证 PHP 表单 - 必需字段 PHP 完整表单实例 PHP $_GET 变量 PHP $_POST 变量 PHP 多维数组 PHP 日期 PHP 包含 PHP 文件 PHP 文件上传 PHP Cookie PHP Session PHP E-mail PHP Error PHP Exception PHP 过滤器 PHP 7 新特性 PHP MySQL 简介 PHP MySQL 连接 PHP MySQL 创建数据库 PHP MySQL 创建数据表 PHP MySQL 插入数据 PHP MySQL 插入多条数据 PHP MySQL 预处理语句 PHP MySQL 读取数据 PHP MySQL Where PHP MySQL Order By PHP MySQL Update PHP MySQL Delete PHP ODBC AJAX 简介 AJAX PHP AJAX 数据库 AJAX 实时搜索 AJAX 投票 PHP Array PHP Calendar PHP cURL PHP Date PHP Directory PHP Error PHP Filesystem PHP Filter PHP FTP PHP HTTP PHP Mail PHP Math PHP Misc PHP MySQLi PHP PDO PHP String PHP Zip PHP Timezones PHP 图像处理 PHP RESTful PHP PCRE PHP 可用的函数 PHP Composer php 全部

PHP - 最热教程

php如何取出数组的前几个元素 PHP变量什么时候释放 PHP如何实现在数据库随机获取几条记录如何解决php base64解码乱码 php主要用于哪些领域 Laravel 批量插入(insert)数据六款国内优秀免费wordpress主题推荐 React如何从后端获取数据并渲染到前端？纯PHP实现定时器任务（Timer），php实现...php该如何安装pdo_mysql扩展

Supplier Signature Carrier Signature 供应商签字 _____________ 承运商签字 _____________	Supplier Confirm Time 供应商确认时间 13-09-10 09:01
Receiver Signature 收货人签字 _______________	Date 日期 ______________
* END OF PAGE *

首页 / PHP / 网页表格信息抓取

网页表格信息抓取

内容导读

内容图文

回复讨论(解决方案)

内容总结

内容备注

内容手机端

【网页表格信息抓取】教程文章相关的互联网学习教程文章

php JS 导出表格特殊处理

PHP Smarty 模板 section函数输出表格【代码】【图】

PHP 导出Excel表格【代码】

PHP简单导出Excel表格

PHP 简易输出CSV表格文件的方法详解

php+html表格内容悬浮提示功能的实现【代码】【图】

php导出excel表格超链接【代码】

php使用js对表格进行排序【代码】【图】

PHP入门-摘要表格处理问题【图】

PHP：引用PhpExcel导出数据到excel表格【代码】【图】

phpStudy6——php导出可以设置样式的excel表格【代码】

Thinkphp5+PHPExcel实现批量上传表格数据【代码】【图】

php – 如何在浏览器中显示html电子邮件,而不更改我的bg颜色和更改我的表格【代码】

拆分长PHP生成的HTML表格？【代码】

php-特定于HTML表格的抓取【代码】

PHP - 技术教程分类

PHP - 最新教程

PHP - 最热教程