【保存/镜像/抓取使用javascript生成内容的网页】教程文章相关的互联网学习教程文章

JavaScript-使用Mocha和Chai测试抓取【代码】

我有以下示例测试:import { assert } from 'chai'function starWarsMovies () {fetch('http://swapi.co/api/films/').then((res) => {return res.json()}).then((res) => res.count) }describe('Get star war movies', () => {it('should get 7', () =>{assert.equal(starWarsMovies(), 7)}) })但是我得到ReferenceError: fetch is not defined为了测试提取请求,我必须使用什么. 更新 我也尝试过:import { polyfill } from 'es6-...

javascript-使用Python,BeautifulSoup进行动态数据Web抓取【代码】

我试图从HTML中提取许多页面的数据(数字).每个页面的数据都不同.当我尝试使用soup.select(‘span [class =“ pull-right”]’)时,它应该给我数字,但是只有标签出现.我相信这是因为网页中使用了Javascript. 180,476是我要在许多页面上使用的特定HTML处的数据位置:<div class="legend-block--body"><div class="linear-legend--counts">Pageviews:<span class="pull-right">180,476</span></div><div class="linear-legend--counts"...

javascript-如何使用rangy从iframe抓取所选文本?

这是一个followup question.我一直在尝试使用rangy从iframe抓取所选文本.该代码似乎适用于非iframe内容.按照rangy’s doc,它应该可以工作. 这是演示:http://jsfiddle.net/codef0rmer/UuJ5G/解决方法:您的示例中的问题是iframe的文档与主文档来自不同的域,这意味着在主文档中运行的脚本根本无法访问iframe中的文档.如果文档来自同一域,则浏览器仅允许在它们之间编写脚本. 如果文档确实来自同一域,则可以使用rangy.getIframeSelecti...

javascript-用Python中的Java脚本抓取网页

我在Windows机器上使用python 3.2(newb)工作(尽管如果需要,我在虚拟机上有ubuntu 10.04,但我更喜欢在Windows机器上工作). 基本上,我可以使用http模块和urlib模块来抓取网页,但只能删除那些没有Java脚本document.write(“ 要处理这些类型的网站,我很确定我需要一个浏览器Java脚本处理器来处理该页面,并提供最终结果的输出,希望可以作为字典或文本. 我尝试编译python-spider猴子,但我了解它不适用于Windows,并且不适用于python 3.x:...

javascript – 如何围绕圆圈抓取和拖动元素?【代码】

到目前为止,我有一个带标记的圆圈. http://jsfiddle.net/x5APH/1/ 我想抓住并拖动圆圈周围的标记,但是当您点击它时,当前功能只会轻推标记. 我可以对代码进行哪些更改,以便在按住鼠标时可以将标记拖动到圆圈周围? 注意 如果您可以使用您的解决方案更新小提琴,我将非常感激.解决方法:改变了一些代码$(document).ready(function(){ $('#marker').on('mousedown', function(){$('body').on('mousemove', function(event...

python – Scrapy,在Javascript中抓取数据【代码】

我正在使用scrapy来筛选网站上的数据.但是,我想要的数据不在html本身内部,而是来自javascript.所以,我的问题是: 如何获取此类案例的值(文本值)? 这是我试图筛选的网站:https://www.mcdonalds.com.sg/locate-us/ 我想要的属性:地址,联系方式,营业时间. 如果您在Chrome浏览器中执行“右键单击”,“查看源代码”,您将看到HTML中无法使用此类值. 编辑 Sry paul,我做了你告诉我的事情,找到了admin-ajax.php并看到了尸体但是,我现在真...

javascript – 从网上抓取数据并同时进行api调用的编程语言是什么?

我的项目涉及从没有API或调用API的站点中抓取大量数据(如果有的话).使用多个线程来提高速度和实时工作.哪个是更好的编程语言呢?我对Python很满意.但是,线程化是一个问题.因此,考虑在node.js中使用JS.因此,我应该选择哪个?解决方法:只有当你想并行计算多个东西时,线程才是python中的一个问题.如果你只是想做很多请求,那么解释器的限制(在一个点上只有一个线程解释python)就不会有问题. 实际上,要同时发出大量请求,您甚至不必使用大...

javascript – 保存使用casperjs抓取网页时获得的表格数据

哪个是保存使用casperjs抓取网页时获得的表数据的最佳方法? >序列化后,使用json对象并将其存储为文件.>使用ajax请求到php然后将其存储在mysql数据库中.解决方法:为简单起见,将CasperJS视为一种获取数据的方法.用另一种语言处理它.我会选择#1选项 – 以JSON格式获取数据,并将其保存到文件中以便以后再进行操作. 为此,您可以使用PhantomJS提供的File System API.您还可以将其与CasperJS’s cli interface结合使用,以允许您将参数传递...

javascript – 与Puppeteer同时进行页面抓取【代码】

如何让puppeteer跟随新页面实例中的多个链接,以并发和异步方式评估它们?解决方法:几乎每个Puppeteer方法都返回一个Promise.所以你可以使用例如https://www.npmjs.com/package/es6-promise-pool包. 首先,您需要创建一个处理一个url的异步函数:const crawlUrl = async (url) => {// Open new tab.const page = await browser.newPage();await page.goto(url);// Evaluate code in a context of page and get your data.const resul...

使用javascript自动滚动定期从网站上抓取并下载所有图像【代码】

我发现一个网站上有很多高质量的免费图像托管在Tumblr上(它说你想用主题图片做任何事情:P) 我在Ubuntu 12.04LTS上运行.我需要编写一个定期运行的脚本(比如说每天)并只下载之前没有下载过的图像. 附加说明:它有一个javascript自动滚动器,当你到达页面底部时会下载图像.解决方法:The fantastic original script done by TMS不再适用于新的unsplash网站.这是一个更新的工作版本.#!/bin/bash mkdir -p imgs I=1 while true ; do # fo...

javascript – 尝试Python BeautifulSoup和Phantom JS:STILL无法抓取网站【代码】

在过去的几周里,你可能已经看到了我绝望的挫败感.我一直在抓一些等待时间数据,但我仍然无法从这两个站点获取数据 http://www.centura.org/erwait http://hcavirginia.com/home/ 起初我尝试使用BS4 for Python. HCA Virgina的示例代码如下from BeautifulSoup import BeautifulSoup import requestsurl = 'http://hcavirginia.com/home/' r = requests.get(url)soup = BeautifulSoup(r.text) wait_times = [span.text for span in so...

【JAVA系列】Google爬虫如何抓取JavaScript的?【图】

公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:【JAVA系列】Google爬虫如何抓取JavaScript的? ? 前言部分 大家可以关注我的公众号,公众号里的排版更好,阅读更舒适。 正文部分 我们测试了谷歌爬虫是如何抓取 JavaScript,下面就是我们从中学习到的知识。 认为 Google 不能处理 JavaScript ?再想想吧。Audette Audette 分享了一系列测试结果,他和他同事测试了什么类型的 J...

javascript后抓取一部分字符串. (点)【代码】

我无法阅读正则表达式. 假设我们有这个字符串:“mydomain.bu.pu”,我想抓住它的“.bu.pu”部分; 我正在考虑使用类似的东西: indexOf和后来的substr …但我承认我有点失落…… 有什么帮助吗? :d 提前致谢,MEM解决方法: var afterDot = str.substr(str.indexOf('.'));

javascript – 为AngularJS App创建用于搜索引擎抓取的HTML快照【代码】

首先让我告诉你我想做什么. 我想索引我在Angular JS中制作的网站,为此我已经阅读了谷歌出于此类目的的所有文档或文章. 而我发现的是: 我需要使用html5Mode或hashbag模式将我的角度js url转换为友好的url. 例如:http://www.example.com/#/关于http://www.example.com/#!/about或仅http://www.example.com/about 使用< meta name =“fragment”content =“!”> 因此,当我的网站上有任何抓取工具说Googlebot会来时它会看到我的网址...

javascript – 他们是如何做到这一点的?模态书签和即时抓取?【代码】

我希望用户从书签中打开弹出窗口,但页面加载的方式类似于jquery模式 – 这意味着没有丑陋的浏览器边框. 请参阅此处的示例,亚马逊如何做到这一点? http://www.amazon.co.uk/wishlist/get-button 此外,他们显然是在抓取页面来获取信息,但页面加载几乎是即时的,他们是否缓存用户以某种方式读取的每个页面?他们怎么会实现这个目标呢?我尝试过简单的html-dom,但它远非即时 这是JS Amazon使用的:javascript:(function(){var w=window...

JAVASCRIPT - 技术教程分类
JavaScript 教程 JavaScript 简介 JavaScript 用法 JavaScript Chrome 中运行 JavaScript 输出 JavaScript 语法 JavaScript 语句 JavaScript 注释 JavaScript 变量 JavaScript 数据类型 JavaScript 对象 JavaScript 函数 JavaScript 作用域 JavaScript 事件 JavaScript 字符串 JavaScript 运算符 JavaScript 比较 JavaScript 条件语句 JavaScript switch 语句 JavaScript for 循环 JavaScript while 循环 JavaScript break 和 continue 语... JavaScript typeof JavaScript 类型转换 JavaScript 正则表达式 JavaScript 错误 JavaScript 调试 JavaScript 变量提升 JavaScript 严格模式 JavaScript 使用误区 JavaScript 表单 JavaScript 表单验证 JavaScript 验证 API JavaScript 保留关键字 JavaScript this JavaScript let 和 const JavaScript JSON JavaScript void JavaScript 异步编程 JavaScript Promise JavaScript 代码规范 JavaScript 函数定义 JavaScript 函数参数 JavaScript 函数调用 JavaScript 闭包 DOM 简介 DOM HTML DOM CSS DOM 事件 DOM EventListener DOM 元素 HTMLCollection 对象 NodeList 对象 JavaScript 对象 JavaScript prototype JavaScript Number 对象 JavaScript String JavaScript Date(日期) JavaScript Array(数组) JavaScript Boolean(布尔) JavaScript Math(算数) JavaScript RegExp 对象 JavaScript Window JavaScript Window Location JavaScript Navigator JavaScript 弹窗 JavaScript 计时事件 JavaScript Cookie JavaScript 库 JavaScript 实例 JavaScript 对象实例 JavaScript 浏览器对象实例 JavaScript HTML DOM 实例 JavaScript 总结 JavaScript 对象 HTML DOM 对象 JavaScript 异步编程 javascript 全部