更多【保存/镜像/抓取使用javascript生成内容的网页】教程文章相关的互联网学习教程文章

【保存/镜像/抓取使用javascript生成内容的网页】教程文章相关的互联网学习教程文章

JavaScript-使用Mocha和Chai测试抓取【代码】

我有以下示例测试：import { assert } from 'chai'function starWarsMovies () {fetch('http://swapi.co/api/films/').then((res) => {return res.json()}).then((res) => res.count) }describe('Get star war movies', () => {it('should get 7', () =>{assert.equal(starWarsMovies(), 7)}) })但是我得到ReferenceError: fetch is not defined为了测试提取请求,我必须使用什么. 更新我也尝试过：import { polyfill } from 'es6-...

javascript-使用Python,BeautifulSoup进行动态数据Web抓取【代码】

我试图从HTML中提取许多页面的数据(数字).每个页面的数据都不同.当我尝试使用soup.select(‘span [class =“ pull-right”]’)时,它应该给我数字,但是只有标签出现.我相信这是因为网页中使用了Javascript. 180,476是我要在许多页面上使用的特定HTML处的数据位置：<div class="legend-block--body"><div class="linear-legend--counts">Pageviews:<span class="pull-right">180,476</span></div><div class="linear-legend--counts"...

javascript-如何使用rangy从iframe抓取所选文本？

这是一个followup question.我一直在尝试使用rangy从iframe抓取所选文本.该代码似乎适用于非iframe内容.按照rangy’s doc,它应该可以工作. 这是演示：http://jsfiddle.net/codef0rmer/UuJ5G/解决方法:您的示例中的问题是iframe的文档与主文档来自不同的域,这意味着在主文档中运行的脚本根本无法访问iframe中的文档.如果文档来自同一域,则浏览器仅允许在它们之间编写脚本. 如果文档确实来自同一域,则可以使用rangy.getIframeSelecti...

javascript-用Python中的Java脚本抓取网页

我在Windows机器上使用python 3.2(newb)工作(尽管如果需要,我在虚拟机上有ubuntu 10.04,但我更喜欢在Windows机器上工作). 基本上,我可以使用http模块和urlib模块来抓取网页,但只能删除那些没有Java脚本document.write(“ 要处理这些类型的网站,我很确定我需要一个浏览器Java脚本处理器来处理该页面,并提供最终结果的输出,希望可以作为字典或文本. 我尝试编译python-spider猴子,但我了解它不适用于Windows,并且不适用于python 3.x：...

javascript – 如何围绕圆圈抓取和拖动元素？【代码】

到目前为止,我有一个带标记的圆圈. http://jsfiddle.net/x5APH/1/ 我想抓住并拖动圆圈周围的标记,但是当您点击它时,当前功能只会轻推标记. 我可以对代码进行哪些更改,以便在按住鼠标时可以将标记拖动到圆圈周围？注意如果您可以使用您的解决方案更新小提琴,我将非常感激.解决方法:改变了一些代码$(document).ready(function(){ $('#marker').on('mousedown', function(){$('body').on('mousemove', function(event...

python – Scrapy,在Javascript中抓取数据【代码】

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是：如何获取此类案例的值(文本值)？这是我试图筛选的网站：https://www.mcdonalds.com.sg/locate-us/ 我想要的属性：地址,联系方式,营业时间. 如果您在Chrome浏览器中执行“右键单击”,“查看源代码”,您将看到HTML中无法使用此类值. 编辑 Sry paul,我做了你告诉我的事情,找到了admin-ajax.php并看到了尸体但是,我现在真...

javascript – 从网上抓取数据并同时进行api调用的编程语言是什么？

我的项目涉及从没有API或调用API的站点中抓取大量数据(如果有的话).使用多个线程来提高速度和实时工作.哪个是更好的编程语言呢？我对Python很满意.但是,线程化是一个问题.因此,考虑在node.js中使用JS.因此,我应该选择哪个？解决方法:只有当你想并行计算多个东西时,线程才是python中的一个问题.如果你只是想做很多请求,那么解释器的限制(在一个点上只有一个线程解释python)就不会有问题. 实际上,要同时发出大量请求,您甚至不必使用大...

javascript – 保存使用casperjs抓取网页时获得的表格数据

哪个是保存使用casperjs抓取网页时获得的表数据的最佳方法？ >序列化后,使用json对象并将其存储为文件.>使用ajax请求到php然后将其存储在mysql数据库中.解决方法:为简单起见,将CasperJS视为一种获取数据的方法.用另一种语言处理它.我会选择#1选项 – 以JSON格式获取数据,并将其保存到文件中以便以后再进行操作. 为此,您可以使用PhantomJS提供的File System API.您还可以将其与CasperJS’s cli interface结合使用,以允许您将参数传递...

javascript – 与Puppeteer同时进行页面抓取【代码】

如何让puppeteer跟随新页面实例中的多个链接,以并发和异步方式评估它们？解决方法:几乎每个Puppeteer方法都返回一个Promise.所以你可以使用例如https://www.npmjs.com/package/es6-promise-pool包. 首先,您需要创建一个处理一个url的异步函数：const crawlUrl = async (url) => {// Open new tab.const page = await browser.newPage();await page.goto(url);// Evaluate code in a context of page and get your data.const resul...

使用javascript自动滚动定期从网站上抓取并下载所有图像【代码】

我发现一个网站上有很多高质量的免费图像托管在Tumblr上(它说你想用主题图片做任何事情：P) 我在Ubuntu 12.04LTS上运行.我需要编写一个定期运行的脚本(比如说每天)并只下载之前没有下载过的图像. 附加说明：它有一个javascript自动滚动器,当你到达页面底部时会下载图像.解决方法:The fantastic original script done by TMS不再适用于新的unsplash网站.这是一个更新的工作版本.#!/bin/bash mkdir -p imgs I=1 while true ; do # fo...

javascript – 尝试Python BeautifulSoup和Phantom JS：STILL无法抓取网站【代码】

在过去的几周里,你可能已经看到了我绝望的挫败感.我一直在抓一些等待时间数据,但我仍然无法从这两个站点获取数据 http://www.centura.org/erwait http://hcavirginia.com/home/ 起初我尝试使用BS4 for Python. HCA Virgina的示例代码如下from BeautifulSoup import BeautifulSoup import requestsurl = 'http://hcavirginia.com/home/' r = requests.get(url)soup = BeautifulSoup(r.text) wait_times = [span.text for span in so...

【JAVA系列】Google爬虫如何抓取JavaScript的？【图】

公众号：SAP Technical 本文作者：matinal 原文出处：http://www.cnblogs.com/SAPmatinal/ 原文链接：【JAVA系列】Google爬虫如何抓取JavaScript的？ ? 前言部分大家可以关注我的公众号，公众号里的排版更好，阅读更舒适。正文部分我们测试了谷歌爬虫是如何抓取 JavaScript，下面就是我们从中学习到的知识。认为 Google 不能处理 JavaScript ?再想想吧。Audette Audette 分享了一系列测试结果，他和他同事测试了什么类型的 J...

javascript后抓取一部分字符串. (点)【代码】

我无法阅读正则表达式. 假设我们有这个字符串：“mydomain.bu.pu”,我想抓住它的“.bu.pu”部分; 我正在考虑使用类似的东西： indexOf和后来的substr …但我承认我有点失落…… 有什么帮助吗？：d 提前致谢,MEM解决方法: var afterDot = str.substr(str.indexOf('.'));

javascript – 为AngularJS App创建用于搜索引擎抓取的HTML快照【代码】

首先让我告诉你我想做什么. 我想索引我在Angular JS中制作的网站,为此我已经阅读了谷歌出于此类目的的所有文档或文章. 而我发现的是：我需要使用html5Mode或hashbag模式将我的角度js url转换为友好的url. 例如：http：//www.example.com/#/关于http://www.example.com/#!/about或仅http://www.example.com/about 使用< meta name =“fragment”content =“！”> 因此,当我的网站上有任何抓取工具说Googlebot会来时它会看到我的网址...

javascript – 他们是如何做到这一点的？模态书签和即时抓取？【代码】

我希望用户从书签中打开弹出窗口,但页面加载的方式类似于jquery模式 – 这意味着没有丑陋的浏览器边框. 请参阅此处的示例,亚马逊如何做到这一点？ http://www.amazon.co.uk/wishlist/get-button 此外,他们显然是在抓取页面来获取信息,但页面加载几乎是即时的,他们是否缓存用户以某种方式读取的每个页面？他们怎么会实现这个目标呢？我尝试过简单的html-dom,但它远非即时这是JS Amazon使用的：javascript:(function(){var w=window...

上一页
1
...
1
2
3
4
5
6
7
下一页
共 7 页
共 97 条

【保存/镜像/抓取使用javascript生成内容的网页】教程文章相关的互联网学习教程文章

JAVASCRIPT - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程