【发现云云的网页不能抓取,有什么步骤破解吗?】教程文章相关的互联网学习教程文章

在PHP中抓取网页时获取垃圾输出

我正在尝试使用file_get_html()从Amazon获取页面的内容,但是输出在回显时带有奇怪的字符.谁能解释我该如何解决这个问题? 我还在堆栈溢出中发现了以下两个相关问题,但它们没有解决我的问题.

php-抓取屏幕分辨率并根据大小显示结果【代码】

我试图显示基于屏幕分辨率大小的数据库结果.上周,我发布了一个有关如何获取宽度的问题,并借助此处的一些想法提出了这个jquery,但无法完成第二个方面,即根据尺寸显示结果:<script type="text/javascript"> $(document).ready(function() {var $window = $(window);function checkWidth() {var windowsize = $window.width();if (windowsize = 1600) {//**This is where I need to define the $maxresults value, but how?**}}// Ex...

用cURL php抓取图像【代码】

尝试使用cURL将图像保存到我的服务器.图像似乎下载.它显示正确的字节,但当我链接图像不起作用.我然后DL看到并且没有它的空白图像. 这是我的代码…问题是什么?$ch = curl_init("'. $image .'"); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_BINARYTRANSFER,1); $rawdata=curl_exec ($ch); curl_close ($ch);$fp = fopen("$rename.jpg",'w'); fwrite($fp, $rawda...

如何通过需要POST数据的PHP抓取网站?【代码】

我正在尝试抓取一个接收POST数据的网站以返回正确的页面(没有POST它返回15个结果,POST数据返回所有结果). 目前我的代码看起来像这样:$curl = curl_init(); curl_setopt($curl,CURLOPT_URL,"http://www.thisismyurl.com/awesome"); curl_setopt($curl, CURLOPT_POST, true); curl_setopt($curl, CURLOPT_POSTFIELDS, XXXXXX); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result= curl_exec($curl);我知道我需要将我的postfi...

PHP抓取一个使用cloudflare的网站

我想从网站(不是我自己的)抓取一些特定的值(例如,newstext). file_get_contents()无效,可被php.ini阻止. 所以我试着用curl做,问题是:我得到的只是来自cloudflare的重定向文本.我的爬虫应该做的事情如下:转到页面 – >等待5secs cloudflare重定向 – >卷曲页面. 有关如何在云端等待时间后抓取页面的任何想法? (在PHP中) 编辑:所以我尝试了很多东西,问题仍然是一样的..更具体:它只抓取cloudflare重定向页面. (所以我得到一个重定...

如何通过PHP识别google / yahoo / msn的网页抓取工具?

据我所知, $_SERVER [‘REMOTE_HOST’]应以“google.com”或“yahoo.com”结尾. 但它是最保证的方法吗? 还有其他出路吗?解决方法:您可以在user agent and IP address之前识别搜索引擎.更多信息可以在How to identify search engine spiders and webbots中找到.它也值得注意this list.您不应该将用户代理(甚至远程主机)视为必然的确定性.用户代理实际上只不过是另一端告诉你的东西,它当然可以自由地告诉你任何事情.编写代码假装成...

Google是否在PHP中抓取include / require文件?

我是php的新手,我正在使用带有导航栏的php的网站上工作.这个网站将相当大(超过30页),如果我发现需要更改它,我不想在每个页面上更改我的导航栏. 我也想让Google的蜘蛛跟随导航栏上的链接.如果我将导航栏放在包含文件中,Google是否会跟踪包含文件中的链接?包含文件是在每个页面上使用相同导航栏的正确方法吗?任何人都可以提供的任何帮助将不胜感激!解决方法:搜索引擎看不到您的PHP代码.他们看到其他人看到的内容,代码的最终HTML输...

php – 从HTML选择列表中抓取所有选项【代码】

我需要从一个非常大的HTML选择列表中创建一个php数组.我搜索了“下拉阵列”发生器和程序,但找不到任何东西.有人可以建议一个PHP代码,我可以用来从HTML下拉列表中获取所有选项并输出它们的数组? 更新:php或js.任何会输出我可以在我的脚本中复制和粘贴的数组的东西.解决方法:在选择名称中包括括号; PHP将接受您的选择作为数组:<?php print_r($_GET['cars']);?><form> <select name="cars[]" multiple="multiple" size="5"><option...

php – Facebook getSignedRequest并不总是抓取页面ID【代码】

我正在开发一个Facebook应用程序,我想将其用作页面选项卡.这个想法是它会根据使用标签的Facebook页面显示不同的内容.<?php require_once ("php-sdk/facebook.php"); $config = array(); $config['appId'] = 'xxxxx'; $config['secret'] = 'xxxxx'; $facebook = new Facebook($config); $signed_request = $facebook->getSignedRequest(); $page_id = $signed_request["page"]["id"]; ?>不幸的是,它只是偶尔有效.现在,我只是试图回应...

php – 抓取特定列中具有最高值的行【代码】

我有一个简单的表,存储与下载绑定的唯一ID.我要做的是生成创建的最新ID的CSV.每次生成密钥时(一次只能有1到100个密钥),UNIX时间戳与这些密钥一起存储. 我生成的CSV文件很好,但我无法使MAX功能正常工作.我的报告生成器如下:// output headers so that the file is downloaded rather than displayed header('Content-Type: text/csv; charset=utf-8'); header('Content-Disposition: attachment; filename=codes.csv');// create a...

php – 屏幕抓取JS页面【代码】

我正试图刮掉这个页面http://www.buddytv.com/trivia/game-of-thrones-trivia.aspx并且它无法正常工作. 我试过了$html = new simple_html_dom();$html->load_file($url);但是对于我想要抓住的问题(.trivia-question)是找不到的.谁能告诉我我做错了什么? 非常感谢! 我试过了<?php$Page = file_get_contents('http://www.buddytv.com/trivia/game-of-thrones-trivia.aspx');$dom_document = new DOMDocument();//errors suppress b...

PHP正则抓取字符串内某段字符【代码】

$cookie = "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1; qwqwqwxsewwewe123434dsw4e4d23 qw2323ss";preg_match('/csrftoken=(.*?);/', $cookie, $matches);//获取匹配的字符串 参数1,规则,2;获取的字符串 3,获得结果集$csrftoken = $matches[1];var_dump($matches);得到: [ 0 => "csrftoken=P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1;" 1=>"P7UBtv3lTNktgrqQglECF7Wj3MWUNJc1"]

PHP中的HTML注释抓取【代码】

我一直在环顾四周,但尚未找到解决方案.我正在尝试抓取HTML文档并在两条评论之间获取文本,但到目前为止还无法成功完成此操作. 我正在使用PHP,并尝试过多次推荐的PHP Simple DOM解析器,但似乎无法让它做我想做的事情. 这是我要解析的页面(的一部分):<div class="class"><!-- blah -->text<!-- end blah -->Text I want<!-- blah -->text<!-- end blah --> </div>谢谢解决方法:假设每个注释都不同(即“blah”在第一和第二部分中不相同...

在php中抓取安全页面https【代码】

我试图抓住一个安全的页面(https),如google卷曲 但我似乎没有从我的爬虫返回任何数据 php功能function getDOM($url){$ch = curl_init($url);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch, CURLOPT_RANGE, '0-100');$content = curl_exec($ch);curl_close($ch);echo $url."<br>";echo $content;$dom = new simple_html_dom();$dom->load($content);if($dom){return $dom;}return null; }getDOM("https://www.googl...

PHP网页抓取【代码】

我使用php web scraping,我希望在星期日得到价格(3.65)下面的html代码:<tr class="odd"><td ><b>Sunday</b> Info<div class="test">test</div></td><td>&euro; 3.65 *</td></tr>但我没有找到最好的正则表达式来做到这一点……我用这个PHP代码:<?php$data = file_get_contents('http://www.test.com/');preg_match('/<tr class="odd"><td ><b>Sunday</b> Info<div class="test">test<\/div><\/td><td>&euro; (.*) *<\/td><\/tr>/i...