【python实现爬虫统计学校BBS男女比例(一)】教程文章相关的互联网学习教程文章

用scrapy 爬虫框架读取统计局网站的行政区划(备忘记录)【代码】【图】

不知不觉养成了一个习惯:完成一个工作或学习新知识后,要及时整理,否则过一段时间就忘记了。下面是用scrapy 爬虫框架读取行政区划的记录1. SelectorGadget 是个好东西,下载和安装可以网上查 安装后,会在crome浏览器右上角有个图标。 点击 右上角这个图标后,进入css选取模式, (1)点击网页内容,被选取内容显示黄色,同时css选择器会显示在控制面板上。(2)再点击黄色内容,会变红色,表示排除这一项标签。如图: 表...

python爬虫——京东评论、jieba分词、wordcloud词云统计【代码】【图】

接上一章,抓取京东评论区内容。url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv399&productId=4560435&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1’重点是productId——产品id、page——页码、pageSize:指定每一页展示多少评论#coding:utf-8import requests import json,timedef get_detail(url):wbdata = requests.get(url).textwbdata = wbdata[25:-2]data ...

python实现爬虫统计学校BBS男女比例之数据处理(三)【图】

本文主要介绍了数据处理方面的内容,希望大家仔细阅读。 一、数据分析得到了以下列字符串开头的文本数据,我们需要进行处理二、回滚 我们需要对httperror的数据进行再处理 因为代码的原因,具体可见本系列文章(二),会导致文本里面同一个id连续出现几次httperror记录://httperror265001_266001.txt 265002 httperror 265002 httperror 265002 httperror 265002 httperror 265003 httperror 265003 httperror 265003 httperror 2...

python实现爬虫统计学校BBS男女比例之多线程爬虫(二)

接着第一篇继续学习。 一、数据分类 正确数据:id、性别、活动时间三者都有 放在这个文件里file1 = ruisi\\correct%s-%s.txt % (startNum, endNum) 数据格式为293001 男 2015-5-1 19:17 没有时间:有id、有性别,无活动时间放这个文件里file2 = ruisi\\errTime%s-%s.txt % (startNum, endNum) 数据格式为2566 女 notime 用户不存在:该id没有对应的用户放这个文件里file3 = ruisi\\notexist%s-%s.txt % (startNum, endNum) 数据格式...

python实现爬虫统计学校BBS男女比例(一)【图】

一、项目需求 前言:BBS上每个id对应一个用户,他们注册时候会填写性别(男、女、保密三选一)。 经过检查,BBS注册用户的id对应1-300000,大概是30万的用户 笔者想用Python统计BBS上有多少注册用户,以及这些用户的性别分布 顺带可以统计最近活动用户是多少,其中男、女、保密各占多少 活动用户的限定为“上次活动时间”为 2015年 二、最终结果 性别信息保存在文本里,一行表示一个用户的信息,各列分别表示 【行数,id(涂掉了)...