首页 / JAVASCRIPT / 利用Abot爬虫和visjs 呈现漫威宇宙

利用Abot爬虫和visjs 呈现漫威宇宙

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用Abot爬虫和visjs 呈现漫威宇宙，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6809字，纯文字阅读大概需要10分钟。

内容图文

1. 引言

最近接触Abot爬虫也有几天时间了，闲来无事打算从IMDB网站上爬取一些电影数据玩玩。正好美国队长3正在热映，打算爬取漫威近几年的电影并用vis这个JS库呈现下漫威宇宙的相关电影。

Abot是一个开源的C#爬虫，代码非常轻巧。可以参看这篇文章（利用Abot 抓取博客园新闻数据）入门Abot。

Vis 是一个JS的可视化库类似于D3。vis 提供了像Network 网络图的可视化，TimeLine 可视化等等。这里用到了network,只需要给vis传入简单的节点信息，边的信息就可以自动构建一个网络图。

2. 实现

首先从数据开始，得到漫威宇宙所有相关的电影名称，这个数据网上太多了：

从电影名称到IMDB的电影页面其实有个搜索过程，还好电影数目不多，这里偷个懒直接采用IMDB的电影链接作为种子Url

                    public
            static List<string> ImdbFeedMovies = new List<string>()
        {
            //Iron man 2008"http://www.imdb.com/title/tt1233205/",
            //hunk 2008"http://www.imdb.com/title/tt0800080/",
            //Iron man 2 2010"http://www.imdb.com/title/tt1228705/",
            //Thor 2011"http://www.imdb.com/title/tt0800369/",
            //Captain America"http://www.imdb.com/title/tt0458339/",
            //Averages"http://www.imdb.com/title/tt0848228/",
            //Iron man 3 "http://www.imdb.com/title/tt1300854/",
            //thor 2"http://www.imdb.com/title/tt1981115/",
            //Captain America 2"http://www.imdb.com/title/tt1843866/",
            //Guardians of the Galaxy;"http://www.imdb.com/title/tt2015381/",
            //Ultron"http://www.imdb.com/title/tt2395427/",
            //ant-man"http://www.imdb.com/title/tt0478970/",
            //Civil war"http://www.imdb.com/title/tt3498820/",
            //Doctor Strange"http://www.imdb.com/title/tt1211837/",
            //Guardians of the Galaxy 2;"http://www.imdb.com/title/tt3896198/",
            //Thor 3"http://www.imdb.com/title/tt3501632/",
            // Black Panther"http://www.imdb.com/title/tt1825683/",
            //Avengers: Infinity War - Part I"http://www.imdb.com/title/tt4154756/"
        };

有了种子Url 就可以利用Abot 爬取电影的数据，这里只爬取电影名称，电影图片以及演员。

这里定义一些需要用到的数据结构：

                public
            class
             MarvellItem
    {
        
            ///
            <summary>
            ///
            http://www.imdb.com/title/tt0800369/
            ///
            </summary>
            public
            string ImdbUrl { get; set; }
        publicstring Name { get; set; }
        publicstring Image { get; set; }
    }

    publicclass ImdbMovie
    {
        publicstring ImdbUrl { get; set; }
        publicstring Name { get; set; }
        publicstring Image { get; set; }
        public DateTime Date { get; set; }
 
        public List<MarvellItem> Actors { get; set; } 
    }

    publicstaticreadonly Regex MovieRegex = new Regex("http://www.imdb.com/title/tt\\d+", RegexOptions.Compiled);

Abot中爬取页面后最主要的处理函数就是PageCrawlCompletedAsync ，这里给出爬取每个电影页面后的complete Callback函数

                    private ConcurrentDictionary<string, ImdbMovie> movieResult; //爬取到的电影数据        publicvoid Moviecrawler_ProcessPageCrawlCompletedAsync(object sender, PageCrawlCompletedArgs e)
        {
            if (MovieRegex.IsMatch(e.CrawledPage.Uri.AbsoluteUri))
            {
                var csTitle = e.CrawledPage.CsQueryDocument.Select(".title_block > .title_bar_wrapper > .titleBar > .title_wrapper > h1");
                string title = HtmlData.HtmlDecode(csTitle.Text().Trim());

                var datetime =
                    e.CrawledPage.CsQueryDocument.Select(
                        ".title_block > .title_bar_wrapper > .titleBar > .title_wrapper > .subtext > a:last > meta");

                var year = datetime.Attr("content").Trim();

                var csImg = e.CrawledPage.CsQueryDocument.Select(".poster > a > img");
                string image = csImg.Attr("src").Trim();

                if (!string.IsNullOrEmpty(image))
                {
                    HttpWebRequest webRequest = (HttpWebRequest) WebRequest.Create(image);
                    webRequest.Credentials = CredentialCache.DefaultCredentials;
                    var stream = webRequest.GetResponse().GetResponseStream();
                    if (stream != null)
                    {
                        Image bitmap = new Bitmap(stream);
                        image = e.CrawledPage.Uri.AbsoluteUri.GetHashCode() + ".jpg";
                        bitmap.Save(image);
                    }
                }

                var csTable = e.CrawledPage.CsQueryDocument.Select("#titleCast > table");
                var csTrs = csTable.Select("tr", csTable);

                List<MarvellItem> actors = new List<MarvellItem>();
                foreach (var tr in csTrs)
                {
                    var csTr = new CsQuery.CQ(tr);
                    var cslink = csTr.Select("td > a", csTr);
                    if (cslink.Any())
                    {
                        string url = NormUrl(cslink.Attr("href").Trim());
                        string actorTitle = cslink.Select("img", cslink).Attr("title").Trim();
                        string actorImage = cslink.Select("img", cslink).Attr("src").Trim();

                        actors.Add(new MarvellItem()
                        {
                            Name = actorTitle,
                            ImdbUrl = url,
                            Image = actorImage
                        });
                    }
                }

                this.movieResult.TryAdd(e.CrawledPage.Uri.AbsoluteUri, new ImdbMovie()
                {
                    Name = title,
                    Image = image,
                    Date = DateTime.Parse(year),
                    ImdbUrl = e.CrawledPage.Uri.AbsoluteUri,
                    Actors = actors
                });
            }
        }

该函数的主要功能就是解析电影页面，得到电影名字电影图片和演员信息。这里面还有一个小trick ,由于IMDB的限制，需要把爬到的图片下载下来，否则在生产环境下<img src=””/> 图片是无法显示的.

更多这个trick的细节可以参看关于img 403 forbidden的一些思考

对于所有的电影链接，可以采用Task 并行执行：

           Task[] movieTasks = new Task[ImdbFeedMovies.Count];

            System.Console.WriteLine("Start crawl Movies");

            for (var i = 0; i < ImdbFeedMovies.Count; i++)
            {
                var url = ImdbFeedMovies[i];
                movieTasks[i] = new Task(() =>
                {
                    System.Console.WriteLine("Start crawl:" + url);
                    var crawler = GetManuallyConfiguredWebCrawler();
                    ConfigMovieCrawl(crawler);

                    crawler.Crawl(new Uri(url));
                    System.Console.WriteLine("End crawl:" + url);
                });

                movieTasks[i].Start();
            }

            Task.WaitAll(movieTasks);

            System.Console.WriteLine("End crawl Movies");

结束后我们得到一堆JSON 数据

把它传到前端：

@model List<ImdbMovie><div class="clearfix" style="background-color: black; position: relative"><div id="marvel-graph"></div></div>

@section PostScripts{
    <script type="text/javascript">
        $(function () {
            var nodes = [];
            var edges = [];

            @for (int i =0; i < Model.Count; i++)
            {
                var film = Model[i];
                <text>
                nodes.push({
                    id: ‘@film.ImdbUrl‘,
                    title: ‘@film.Name‘,
                    borderWidth: 4,
                    shapeProperties: {useBorderWithImage: true},
                    shape: "image",
                    image: ‘@(string.IsNullOrEmpty(film.Image) ? "" : (film.Image.StartsWith("http") ? film.Image : Href("../../Images/marvel/"+film.Image)))‘,
                    color: { border: ‘#4db6ac‘, background: ‘#009688‘ }
                });

                @if (i != Model.Count -1)
                {
                    <text>
                    edges.push({
                        from: ‘@film.ImdbUrl‘,
                        to: ‘@Model[i+1].ImdbUrl‘,
                        arrows: { to: true },
                        width: 4,
                        length:360,
                        color: "red"
                    });
                    </text>                }

                @foreach (var actor in film.Actors)
                {
                    <text>
                    nodes.push({
                        id: ‘@film.ImdbUrl‘+‘@actor.ImdbUrl‘,
                        title: ‘@actor.Name‘,
                        borderWidth: 4,
                        shapeProperties: { useBorderWithImage: true },
                        shape: "circularImage",
                        image: ‘@(string.IsNullOrEmpty(actor.Image) ? "" : (actor.Image.StartsWith("http") ? actor.Image : Href("../../Images/marvel/"+actor.Image)))‘,
                    });

                    edges.push({
                        from: ‘@film.ImdbUrl‘,
                        to: ‘@film.ImdbUrl‘+‘@actor.ImdbUrl‘,
                        arrows: { to: true }
                    });
                    </text>                }
                
                    </text>            }

            var container = document.getElementById("marvel-graph");
     
            var visNodes =new vis.DataSet(nodes);
            var data = {
                nodes: visNodes,
                edges: edges
            };

            var options = {
                layout: { improvedLayout: false },
                nodes: {
                    borderWidth: 3,
                    font: {
                        color: ‘#000000‘,
                        size: 12,
                        face: ‘Segoe UI‘
                    },
                    color: { background: ‘#4db6ac‘, border: ‘#009688‘ }
                },
                edges: {
                    color: ‘#c1c1c1‘,
                    width: 2,
                    font: {
                        color: ‘#2d2d2d‘,
                        size: 12
                    },
                    smooth: {
                        enabled: false,
                        type: ‘continuous‘
                    }
                }
            };

            var network =new vis.Network(container, data, options);
        });
    </script>
}

vis network 主要就是 new Network(container, data, options); 传入节点和边即可。

最终的效果如图：

欢迎访问我的个人主页 51zhang.net 网站还在不断开发中…..

原文：http://www.cnblogs.com/VectorZhang/p/5492735.html

内容总结

以上是互联网集市为您收集整理的利用Abot爬虫和visjs 呈现漫威宇宙全部内容，希望文章能够帮你解决利用Abot爬虫和visjs 呈现漫威宇宙所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1292455.html

来源：【匿名】

【上一篇】js、html中的单引号、双引号及其转义使用【下一篇】javascript 怎么调用php方法

更多 ►

【利用Abot爬虫和visjs 呈现漫威宇宙】教程文章相关的互联网学习教程文章

selenium模块跳过用户名密码验证码输入，加载浏览器标签和cookie，进行翻页爬虫多页动态加载的数据（js)【代码】

能解决登陆一次后，之后不需要二次登陆的动态加载数据，网页保存的cookie和标签，加入到selenium自动化测试浏览器中 1from selenium import webdriver2import re3from time import sleep4 5def willbill():6‘‘‘点击翻页，获取下一页数据，进行正则匹配‘‘‘ 7 driver.find_element_by_xpath(‘//*[@id="upPage"]/li[5]/a‘).click()8 sleep(3)9 data = driver.page_source 10 results_list = ‘class="limingc...

javascript-python写网页爬虫爬取登录后可见信息【图】

一个网页上的源代码如图： 2.用 phantomJS selenium 获取后用BeautifulSoup 解析后的代码如图： 3.曾尝试用session获取cookies：在登录页面获得的cookies都不一样：请问各位神应该如何将在源代码里看到的信息爬下来？谢谢！！！回复内容：一个网页上的源代码如图： 2.用 phantomJS selenium 获取后用BeautifulSoup 解析后的代码如图： 3.曾尝试用session获取cookies：在登录页面获得的cookies都不一样：请问各位神应该如何将在...

关于用爬虫程序爬那些js渲染数据的动态页面？

关于用爬虫程序爬那些js渲染数据的动态页面？采用js渲染数据的动态页面如何用爬虫进行爬数据啊求解惑？

PHP+HTML+JavaScript+Css实现简单爬虫开发，javascriptcss_PHP教程【图】

PHP+HTML+JavaScript+Css实现简单爬虫开发，javascriptcss开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。按照个人习惯，我首先要写一个界面，理清下思路。1、去不同网站。那么我们需要一个url输入框。2、找特定关键字的文章。那么我们需要一个文章标题输入框。3、获取文章链接。那么我们需要一个搜索结果的显示容器。文章URL抓取文章标题网...

javascript-php爬虫ajax请求地址怎么获取？【图】

用php爬虫抓取网页，网页上有个信息需要登录后才显示在页面中，是一个ajax请求的信息。按F12找到了这个ajax请求地址，javascript生成的，那么，如何获取这个地址呢？补充：ajax请求的jquery代码： $(document).ready(function(){var id="100";var tsTimeStamp= new Date().getTime();$.get("http://www.xxxx.com/extra/ajax_contact.php", { "id": id,"time":tsTimeStamp,"act":"locations_contact"},function (data,textStatus){...

javascript-Python逐行读取txt中的url文件并进行爬虫

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx回复内容：毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课...

PHP+HTML+JavaScript+Css实现简单爬虫开发_PHP【图】

开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。按照个人习惯，我首先要写一个界面，理清下思路。1、去不同网站。那么我们需要一个url输入框。2、找特定关键字的文章。那么我们需要一个文章标题输入框。3、获取文章链接。那么我们需要一个搜索结果的显示容器。文章URL抓取文章标题网站URL抓取文章URL直接上代码，然后加上自己的一些样式调整...

PHP+HTML+JavaScript+Css实现简单爬虫开发_php技巧

PHP+HTML+JavaScript+Css实现简单爬虫开发【图】

开发一个爬虫，首先你要知道你的这个爬虫是要用来做什么的。我是要用来去不同网站找特定关键字的文章，并获取它的链接，以便我快速阅读。按照个人习惯，我首先要写一个界面，理清下思路。 1、去不同网站。那么我们需要一个url输入框。 2、找特定关键字的文章。那么我们需要一个文章标题输入框。 3、获取文章链接。那么我们需要一个搜索结果的显示容器。 <div class="jumbotron" id="mainJumbotron"><div class="panel...

如何使用Python爬虫来进行JS加载数据网页的爬取

这次给大家带来如何使用Python爬虫来进行JS加载数据网页的爬取，使用Python爬虫来进行JS加载数据网页爬取的注意事项有哪些，下面就是实战案例，一起来看一下。比如简书:Paste_Image.png我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计程序运行统计的结果见文章:我统计了彭小六简书360篇文章中使用的词语需要的Python包包名作用selenium用于和phantomjs合作模拟浏览器访问网页lxml用于对html页面的解...

Google爬虫如何抓取JavaScript的？【图】

我们知道国内的浏览器以及搜索工具都是用爬虫来抓取网页信息的，那么google爬虫是如何抓取Javascript的呢？今天就和大家深入研究探讨一下。我们测试了谷歌爬虫是如何抓取 JavaScript，下面就是我们从中学习到的知识。认为 Google 不能处理 JavaScript ？再想想吧。Audette Audette 分享了一系列测试结果，他和他同事测试了什么类型的 JavaScript 功能会被 Google 抓取和收录。长话短说1. 我们进行了一系列测试，已证实 Google 能以...

js逆向解密之网络爬虫【图】

1 引言数月前写过某网站（请原谅我的掩耳盗铃）的爬虫，这两天需要重新采集一次，用的是scrapy-redis框架，本以为二次爬取可以轻松完成的，可没想到爬虫启动没几秒，出现了大堆的重试提示，心里顿时就咯噔一下，悠闲时光估计要结束了。仔细分析后，发现是获取店铺列表的请求出现问题，通过浏览器抓包，发现请求头参数中相比之前多了一个X-Shard和x-uab参数，如下图所示：X-Shard倒是没什么问题，一看就是兴趣点的经纬度，但x-uab看...

Google 爬虫如何抓取 JavaScript 的内容【图】

我们测试了谷歌爬虫是如何抓取 JavaScript，下面就是我们从中学习到的知识。认为 Google 不能处理 JavaScript ？再想想吧。Audette Audette 分享了一系列测试结果，他和他同事测试了什么类型的 JavaScript 功能会被 Google 抓取和收录。长话短说 1. 我们进行了一系列测试，已证实 Google 能以多种方式执行和收录 JavaScript。我们也确认 Google 能渲染整个页面并读取 DOM，由此能收录动态生成的内容。 2. DOM 中的 SEO 信号(页面标...

图文详解Python爬虫破解JS加密的Cookie步骤【图】

前言　　在GitHub上维护了一个代理池的项目，代理来源是抓取一些免费的代理发布网站。上午有个小哥告诉我说有个代理抓取接口不能用了，返回状态521。抱着帮人解决问题的心态去跑了一遍代码。发现果真是这样。　　通过Fiddler抓包比较，基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521。发现问题　　打开Fiddler软件，用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) 。可以发现浏览器对这个页面加载了...

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容【图】

1，引言在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二部分，第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式。留下了一个问题：javascript管理的动态内容怎样提取？那么本文就回答这个问题。2，提取动态内容的技术部件在上一篇python使用xslt提取网页数据中，要提取的内容是直接从网页的source co...

首页 / JAVASCRIPT / 利用Abot爬虫和visjs 呈现漫威宇宙

利用Abot爬虫和visjs 呈现漫威宇宙

内容导读

内容图文

1. 引言

2. 实现

内容总结

内容备注

内容手机端

【利用Abot爬虫和visjs 呈现漫威宇宙】教程文章相关的互联网学习教程文章

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程