首页 / PYTHON / 如何编写Python程序爬取新浪军事论坛？

如何编写Python程序爬取新浪军事论坛？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了如何编写Python程序爬取新浪军事论坛？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2154字，纯文字阅读大概需要4分钟。

内容图文

回复内容：

context_re = r'<div.*?class=\"cont f14\".*?id=\"(.*?)\">(.*?)
'

你准备的这个正则表达式啊，truncated！断在了
这里，所以只能爬第一段。

爬取新浪军事论坛需要做三件事：

一、

上CSDN汪海老师的专栏，http://blog.csdn.net/column/details/why-bug.html，学习一个。

二、

按F12看一下前端。
如何编写Python程序爬取新浪军事论坛？ - 文章图片

三、

from bs4 import BeautifulSoup
import requests

response = requests.get("http://club.mil.news.sina.com.cn/thread-666013-1-1.html?retcode=0") #硬点网址
response.encoding = 'gb18030' #中文编码
soup = BeautifulSoup(response.text, 'html.parser') #构建BeautifulSoup对象


divs = soup('div', 'mainbox')
 #每个楼层

for div in divs:
    comments = div.find_all('div','cont f14') #每个楼层的正文
        
    with open('Sina_Military_Club.txt','a') as f:
        f.write('\n'+str(comments)+'\n')

刚好几个小时前就在写一个爬取网站会员（公司）资料的小程序
具体的编程问题就不回答了，跟用什么语言写代码无关，关键是你要分析好这个页面的html代码结构，写出合适的正则表达式来进行匹配，如果想简化的话，可以进行分次匹配（比如先得到<div class="class="main_l"">里面的第一个

里面的内容就是原帖的地址，然后再进一步处理）
大数据分析就不会了，还请赐教。

import requests
from bs4 import BeautifulSoup

r = requests.get("http://club.mil.news.sina.com.cn/thread-666013-1-1.html")
r.encoding = r.apparent_encoding
soup = BeautifulSoup(r.text)
result = soup.find(attrs={"class": "cont f14"})
print result.text

用beautifulSoup吧,正则太多了看着都头疼. 先用了BeautifulSoup爬取数据

# -*- coding:utf-8 -*-

import re, requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

url = "http://club.mil.news.sina.com.cn/viewthread.php?tid=666013&extra=page%3D1&page=1"

req = requests.get(url)
req.encoding = req.apparent_encoding
html = req.text

soup = BeautifulSoup(html)

file = open('sina_club.txt', 'w')
x = 1
for tag in soup.find_all('div', attrs = {'class': "cont f14"}):
    word = tag.get_text()
    line1 = "---------------评论" + str(x) + "---------------------" + "\n"
    line2 = word + "\n"
    line = line1 + line2
    x += 1
    file.write(line)
file.close()

哎，扒就扒吧，发了paper能不能告诉我刊号页数让我看一下？我们自己都没做大数据分析…… 建议用一下正则测试工具你需要pyquery，可以使用jquery一样的语法。你值得拥有。
https://pythonhosted.org/pyquery/

内容总结

以上是互联网集市为您收集整理的如何编写Python程序爬取新浪军事论坛？全部内容，希望文章能够帮你解决如何编写Python程序爬取新浪军事论坛？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/428599.html

来源：【匿名】

【上一篇】想从事运维开发，有什么好的自学CentOS和Python学习方案？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【如何编写Python程序爬取新浪军事论坛？】教程文章相关的互联网学习教程文章

Python程序设计《集美大学各省成绩分析》【代码】

分析文件‘集美大学各省录取分数.xlsx’，完成以下功能：1）集美大学2015-2018年间不同省份在本一批的平均分数，柱状图展示排名前10的省份，2）分析福建省这3年各批次成绩情况，使用折线图展示结果，并预测2019年录取成绩3）分析其他省份数据。用热力图，地图方式绘制所有省份数据情况。4）根据输入省份动态显示省份分数线的分析图导入库1import xlrd 23from pyecharts import Line, Bar, Radar 4from flask import Flask, jsonif...

python列表生成式和生成器表达式小程序【代码】

列表表达式程序一：常规写法：egg_list=[]for i in range(100):egg_list.append(‘egg%s‘ %i) print(egg_list) 列表表达式写法：l=[‘egg%s‘ %i for i in range(100) if i > 0] print(l) 程序二：常规写法：l=[1,2,3,4] s=‘hello‘ l1=[] for num in l:for s1 in s:t=(num,s1)l1.append(t) print(l1) 列表表达式写法：l1=[(num,s1) for num in l if num > 2 for s1 in s] print(l1) 程序三：常规写法：import os g=os.walk(‘...

python 有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？程序分析：可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去掉不满足条件的排列。(用列表推导式)【代码】

count = 0 #计数器for x in range(1,5):for y in range(1,5):for z in range(1,5):if x!=y and x!=z and y!=z:num=x*100+y*10+zprint(num,end=‘‘)count += 1 print() print(‘无重复数字的三位数的个数：‘+str(count)) #列推导式 num1 =[x*100+y*10+z for x in range(1,5) for y in range(1,5) for z in range(1,5) if x!=y and x!=z and y!=z] print(num1) 原文：https://www.cnblogs.com/xyg-zyx/p/9795371.html

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

考核题目中涉及到多线程编程，于是复习了一下系统编程里面的各种概念。首先，程序是代码，没有活动。通过编译连接之后被加载到内存里运行时，内存活动的就是进程，这里的进程不仅仅是代码段，还包括涉及的数据等。而线程是在同一个进程下的小程序，它们可以“同时”地运行，其中会有一个主线程来控制。接下来是多线程或着多进程的实现，两者原理基本一样，都是把CPU的时间分片然后进行分配给某个进程或者线程，也就是说在同...

使用Python打造一款间谍程序【代码】【图】

知识点这次我们使用python来打造一款间谍程序程序中会用到许多知识点，大致分为四块　　win32API 此处可以在MSDN上查看　　Python基础重点在cpytes库的使用，使用方法请点击此处　　C语言基础　　Hook?程序的基本原理在于通过注册Hook，记录系统事件那么什么是Hook呢Hook 技术又叫做钩子函数，系统在调用函数之前，钩子程序就先捕获该消息，钩子函数先得到控制权，这时钩子函数既可以加工处理（改变）该函数的执行行为，还可以强制...

winfrom桌面程序调用python解释器【代码】【图】

Winfrom桌面程序调用python解释器执行py脚本后台执行完成具体的功能，为什么要这样处理呢？因为我现在的大部分过项目都是后台的脚本处理，界面基本的输入完成之后，将参数按照规则传入到脚本的入口，根据参数的不同执行不同的脚本流程，如果要修改某一个处理过程或者添加新的模块，不需要修改前台的任何代码，只需要在脚本中修改就可以达到需求的效果，简单、方便，风险较小，影响可控等优点。　　因此，我做了一个demo，仅供参考，...

day03_05 Python程序文件执行和与其他编程语言对比【代码】

python在windows操作系统上是没有的,但是在linux上默认就有python执行python程序的方式有两种:1.交互器,缺点程序不能永久保存,主要用于简单的语法测试2.文件执行对比下其他语言的hello worldC++#include <iostream> int main(void) { std::cout<<"Hello world!"; } C#include <studio.h> int main(void) { printf("\nhello world!"); return 0; } JAVApublic class HelloWorld{//程序的入口public static void mian(String args...

python对外部程序的调用【代码】

#导入模块import os#操作os.system("ipconfig") #os.system默认打印执行结果#subprocess.check_output不默认打印#subprocess.check_call默认打印#subprocess.Popen(["ping","www.jiepei.com"])非阻塞式调用import subprocess#subprocess.check_call("ping www.baidu.com")#不会默认打印，且需要转码out_bytes=subprocess.check_output(["ping","www.baidu.com"])print(out_bytes.decode("gbk")) 原文：https://www.cnblogs.com/py...

一个python程序

a = [[0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3], [0, 1, 2, 3]]目前通过a可以获取如下格式： [0,1,2,3] [0,1,2,3] [0,1,2,3] [0,1,2,3]现在想要通过a得到如下格式： [0,0,0,0] [1,1,1,1] [2,2,2,2] [3,3,3,3]如何实现上面的要求？本文出自 “长街听风人” 博客，请务必保留此出处http://kevinhao.blog.51cto.com/5204735/1793399原文：http://kevinhao.blog.51cto.com/5204735/17933...

Python程序员鲜为人知但你应该知道的17个问题

一、不要使用可变对象作为函数默认值复制代码代码如下:In [1]: def append_to_list(value, def_list=[]): ...: def_list.append(value) ...: return def_list ...: In [2]: my_list = append_to_list(1)In [3]: my_listOut[3]: [1]In [4]: my_other_list = append_to_list(2)In [5]: my_other_listOut[5]: [1, 2] # 看到了吧，其实我们本来只想生成[2] 但是却把第一次运行的效果页带了进来In [6]: import t...

Python图形编程探索系列-07-程序登录界面设计【代码】【图】

设计任务初步设计程序登录界面，详细分析设计步骤。程序详细分析基本框架设计import tkinter as tk import tkinter.messagebox root = tk.Tk() # 创建应用程序窗口 root.title("用户登录界面设计") root.geometry("230x100") # --------功能块代码开始-------# --------功能块代码结束------ root.mainloop()设计标签用于提示用户labelName = tk.Label(root, text='用户姓名：', justify=tk.RIGHT, width=80) labelPwd = tk...

用Python和MD5实现网站挂马检测程序

一、程序测试复制代码代码如下:# python check_change.py Usage: python check_change.py update /home/wwwroot python check_change.py check /home/wwwroot# python check_change.py update /data/www #生成站点的md5值# echo ‘ ‘ > /data/www/sitemap.html #测试清空文件# rm -rf /data/www/sitemap.xml #测试删除文件# python check_change.py check /data/www #查找那些文件被篡改/data/www/sitemap.xml/da...

python小程序 atm模拟【代码】

包含启动程序start.py和atm.py模块用户数据通过字典序列化存入userdata.pkl 用户操作记录文件userid.record（为每个用户保存一个记录文件）商品价格文件goods_list 功能包含：取现存钱转账购物打印清单其他说明：没有包含管理端程序（用于添加用户账号，商品上下架），密码验证用户可以自己开发。 start.py如下： #!/usr/bin/python # -*- coding: utf-8 -*- import sys import getpass import pickle from atm import * ...

nginx+uwsgi+flask搭建python-web应用程序【代码】

Flask本身就可以直接启动HTTP服务器，但是受限于管理、部署、性能等问题，在生产环境中，我们一般不会使用Flask自身所带的HTTP服务器。从现在已有的实践来看，对于Flask，比较好的部署方式是使用uWSGI做WSGI容器，Nginx做前端服务器。这样做的好处在于：1. uWSGI性能好，提供的功能也很多，运维方便。2. Nginx对于静态文件处理较好，而且默认支持uWSGI协议，在负载均衡和压力控制上都可以很方便的实现。现在说一下具体的部署步骤：...

Python | PyQt5编写计时器与倒计时应用程序【代码】

参考链接：用Python开发计时器程序 python自制定时器小例子及time模块详解原文：https://www.cnblogs.com/xdd1997/p/13126959.html

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / 如何编写Python程序爬取新浪军事论坛？

如何编写Python程序爬取新浪军事论坛？

内容导读

内容图文

回复内容：

内容总结

内容备注

内容手机端

【如何编写Python程序爬取新浪军事论坛？】教程文章相关的互联网学习教程文章

Python程序设计《集美大学各省成绩分析》【代码】

python列表生成式和生成器表达式小程序【代码】

python 有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？程序分析：可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列后再去掉不满足条件的排列。(用列表推导式)【代码】

14-08-07 关于程序、进程、线程，以及python中实现多线程的办法【代码】【图】

使用Python打造一款间谍程序【代码】【图】

winfrom桌面程序调用python解释器【代码】【图】

day03_05 Python程序文件执行和与其他编程语言对比【代码】

python对外部程序的调用【代码】

一个python程序

Python程序员鲜为人知但你应该知道的17个问题

Python图形编程探索系列-07-程序登录界面设计【代码】【图】

用Python和MD5实现网站挂马检测程序

python小程序 atm模拟【代码】

nginx+uwsgi+flask搭建python-web应用程序【代码】

Python | PyQt5编写计时器与倒计时应用程序【代码】

PYTHON - 相关标签

程序 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程