实现思路:1.使用Java.net.URL对象,绑定网络上某一个网页的地址2.通过java.net.URL对象的openConnection()方法获得一个HttpConnection对象3.通过HttpConnection对象的getInputStream()方法获得该网络文件的输入流对象InputStream4.循环读取流中的每一行数据,并由Pattern对象编译的正则表达式区配每一行字符,取得email地址关键代码: package cn.bdqn;import java.io.BufferedReader;
import java.io.InputStreamReader;import j...
从页面中抓取页面中所有的链接,当然使用PHP正则表达式是最方便的办法。要写出正则表达式,就要先总结出模式,那么页面中的链接会有几种形式呢?下面一起来看看。前言链接也就是超级链接,是从一个元素(文字、图片、视频等)链接到另一个元素(文字、图片、视频等)。网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径;另一种是相对URL超链接,一般都链接到同一网站的其他页面;还有一种是页面内的超链接,...
代码出处:jUnion适用平台:Windows, Linux(Ubuntu),php-5.2.5+,Apache功能:抓取整个站点的图片,暂无借助php的curl插件开发, 后期完善配置:config目录下 domain_name:域名(默认:bizhibar.com) request_site:网站网址(默认:http://www.bizhibar.com/) request_url:从网站的哪个页面开始(默认:http://www.bizhibar.com/) accept_type: 图片类型(默认:gif, bmp, png, ico, jpg, jpeg) sav...
代码出处:jUnion适用平台:Windows, Linux(Ubuntu),php-5.2.5+,Apache功能:抓取整个站点的图片,暂无借助php的curl插件开发, 后期完善配置:config目录下domain_name:域名(默认:bizhibar.com)request_site:网站网址(默认:http://www.bizhibar.com/)request_url:从网站的哪个页面开始(默认:http://www.bizhibar.com/)accept_type: 图片类型(默认:gif, bmp, png, ico, jpg, jpeg)save_path:图片保存路径(默认...
本帖最后由 liuser_cn 于 2013-08-12 21:25:48 编辑 前言:我的面向对象基础一般。。 我是抓的一个模块(鬼话)。 它的下一页是用时间戳来搞的。 我就想,在抓取第一页的所有标题URL之后,顺便抓取下一页的地址(‘可以抓取’); 现在是,第一页的所有标题的URL抓完了,下一页的URL也抓了, 我想递归100次,抓100页的所有标题的URL。 看代码吧。 public function getAllPage($url){ /** * c...
正则抓取土豆视频如题. http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.html 求高手抓出此链接的视频地址------解决方案--------------------你只要用tudou的播放播放就会有广告。
------解决方案--------------------
PHP code
$s=file_get_contents(http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.htm);
preg_match_all(/iid:(\d+)\s+,kw:"(.*?)"\s+.*?icode:"(.*?)"/s,$s,$matches);foreach($matches[1] a...
正则抓取土豆视频如题. http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.html
求高手抓出此链接的视频地址------解决方案--------------------你只要用tudou的播放播放就会有广告。------解决方案--------------------$s=file_get_contents(http://www.tudou.com/listplay/Icl7UAlbQZs/6YFO9qJvtts.htm);
preg_match_all(/iid:(\d+)\s+,kw:"(.*?)"\s+.*?icode:"(.*?)"/s,$s,$matches);foreach($matches[1] as $k=>$v){$...
正则php爬虫 本人实习生小菜鸟一枚,公司让写个爬虫练练手,之前对这个完全没概念,刚才在网上看了一会,觉得大致思路是抓下来整个文件,用正则表达式处理文本似的根据文法抓取要抓的东西,然后再处理,想问问现在也是这个思路么,就拿最初级的表单里的数据来说,现在有没有更直接的抓取方法,另外希望给几个php爬虫的demo,公司服务器没有python环境,只能用php了,多谢。
前言
链接也就是超级链接,是从一个元素(文字、图片、视频等)链接到另一个元素(文字、图片、视频等)。网页中的链接一般有三种,一种是绝对URL超链接,也就是一个页面的完整路径;另一种是相对URL超链接,一般都链接到同一网站的其他页面;还有一种是页面内的超链接,这种一般链接到同一页面内的其他位置。
搞清楚了链接的种类,就知道要抓链接,主要还是绝对URL超链接和相对URL超链接。要写出正确的正则表达式,就必须要了解我...
<?php
//抓取页面图片的时候防止图片403(防止盗链)
echo "<meta name=referrer content=no-referrer>";
$list = file_get_contents($url);$k = preg_match_all(/<img [^>]* \/>/,$list,$data);
$m = preg_grep(/alt/,$data[0]);
foreach($m as $v){echo $v.<br>;
}
$cookie = "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1; qwqwqwxsewwewe123434dsw4e4d23 qw2323ss";preg_match('/csrftoken=(.*?);/', $cookie, $matches);//获取匹配的字符串 参数1,规则,2;获取的字符串 3,获得结果集$csrftoken = $matches[1];var_dump($matches);得到:
[ 0 => "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1;" 1=>"P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1"]