首页 / PYTHON / python实现的一个火车票转让信息采集器

python实现的一个火车票转让信息采集器

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python实现的一个火车票转让信息采集器，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3007字，纯文字阅读大概需要5分钟。

内容图文

好吧，我承认我是对晚上看到一张合适的票转让但打过电话去说已经被搞走了这件事情感到蛋疼。直接上文件吧。

#coding: utf-8
'''
春运查询火车票转让信息
Author: piglei2007@gmail.com
Date: 2011.01.25
'''
import re
import os
import time
import urlparse
import datetime
import traceback
import urllib2
import socket
socket.setdefaulttimeout(20)

BLANK_RE = re.compile(r"\s+")

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
opener.addheaders = [
  ("User-agent", "Mozilla/5.0 (X11; U; FreeBSD i386; en-US; rv:1.9.1) Gecko/20090704 Firefox/3.5"),
  ("Accept", "*/*"),
]
urllib2.install_opener(opener)

from BeautifulSoup import BeautifulSoup

SOURCE = {
  "58": "http://bj.58.com/huochepiao/?Num=%(train)s&StartTime=%(date)s00",
  "ganji": "http://bj.ganji.com/piao/cc_%(train)s/%(date)s/",
}
RECORD_FILE = "/tmp/ticket_records.txt"

def parse_record():
  try:
    return set([x.strip() for x in open(RECORD_FILE, "r").readlines()])
  except IOError:
    open(RECORD_FILE, "w")
    return set()

def flush_record(records):
  open(RECORD_FILE, "w").write("\n".join(records))

def main(config):
  """
  开始抓取
  """
  existed = parse_record()
  to_email = []

  for train in config["trains"]:
    for date in config["dates"]:
      for type, _url in SOURCE.items():
        url = _url % dict(train=train, date=date)
        content = urllib2.urlopen(url).read()
        soup = BeautifulSoup(content)
        result = parse_content(type, soup, train)
        for url, text in result:
          url = urlparse.urljoin(_url, url)
          # 只要卧铺！
          if url not in existed and u"卧" in text:
            to_email.append([text, url])
          existed.add(url)
  if to_email:
    content = "".join(
      [x for x in [" | ".join(y) for y in to_email]]
    ).encode("utf-8")
    simple_mail(config["people"], content)
  flush_record(existed)

def parse_content(type, soup, train):
  """
  获得车次信息
  """
  result = []
  if type == "58":
    info_table = soup.find("table", id="infolist")
    if info_table:
      for x in info_table.findAll("tr", text=re.compile(ur"%s(?!时刻表)" % train, re.I)):
        a = x.parent
        _text = BLANK_RE.sub("", a.text)
        result.append([a["href"], _text])
  if type == "ganji":
    for x in soup.findAll("dl", {"class": "list_piao"}):
      a = x.dt.a
      result.append([a["href"], a.text])
  return result

EMAIL_HOST = 'smtp.sohu.com'
EMAIL_HOST_USER = 'yourname@sohu.com'
EMAIL_HOST_PASSWORD = 'yourpassword'
EMAIL_PORT = 25

def simple_mail(to, content):
  """
  发送邮件
  """
  import smtplib
  from email.mime.text import MIMEText

  msgRoot = MIMEText(content, 'html', 'UTF-8')
  msgRoot['Subject'] = "[%s]有票来啦！！！！" % datetime.datetime.today().isoformat(" ")
  msgRoot['From'] = EMAIL_HOST_USER
  msgRoot['To'] = ", ".join(to)

  s = smtplib.SMTP(EMAIL_HOST, EMAIL_PORT)
  s.login(EMAIL_HOST_USER, EMAIL_HOST_PASSWORD)
  s.sendmail(EMAIL_HOST_USER, to, msgRoot.as_string())
  s.close()

def switch_time_zone():
  """
  切换时区
  """
  os.environ["TZ"] = "Asia/Shanghai"
  time.tzset()

switch_time_zone()

if __name__ == '__main__':
  config = {
    "trains": ("k471",),
    "dates": ("20110129",),
    "people": (
      "youremail@sohu.com",
    )
  }
  try:
    main(config)
    print "%s: ok" % datetime.datetime.today()
  except Exception, e:
    print traceback.format_exc()

然后放入cron，你懂的。

内容总结

以上是互联网集市为您收集整理的python实现的一个火车票转让信息采集器全部内容，希望文章能够帮你解决python实现的一个火车票转让信息采集器所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/435536.html

来源：【匿名】

【上一篇】python生成日历实例解析【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python实现的一个火车票转让信息采集器】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

一、需求编写一个用于验证员工登录并采集员工信息的接口员工尝试登录次数为3次，超过三次被锁定员工输入个人信息并存档，可重复输入两次，若两次输入个人信息错误，则程序结束二、代码#!/usr/bin/env python #_*_coding:utf-8_*_ import sys from imaplib import Continuation username = ‘mangguo‘ password = ‘json‘ try_time = 0 while try_time < 3: username_input = raw_input(‘input your username:‘) if use...

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

目录前言准备分析（x0）分析（x1）分析（x2）分析（x3）分析（x4）总结我有话说前言大家好，我叫善念。不说漂亮话，直接开始今天要采集的目标：某宝数据今天要采用的方式是selenium自动化工具。简单说下selenium的原理——利用网页元素控制浏览器。准备安装selenium模块： pip install selenium 我采用的是利用selenium控制Chrome浏览器，所以咱们需要下载一个selenium与Chrome的桥梁——Chromedriver插件下载地...

杂记使用Python采集网页内容【代码】

BeautifulSoup 一个分析、处理DOM树的类库。采集所有img标签的title属性的内容# -*- coding: utf-8 -*- from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoupurl = "http://qa.beloved999.com/category/view?id=2" url = "http://beloved.finley.com/category/view?id=24" html = urlopen(url) bs = BeautifulSoup(html.read(),"html.parser")...

Python网络数据采集

Python网络数据采集（高清版）PDF百度网盘链接：https://pan.baidu.com/s/16c4GjoAL_uKzdGPjG47S4Q提取码：febb复制这段内容后打开百度网盘手机App，操作更方便哦内容简介 · · · · · ·本书采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与...

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。小的时候心中总有十万个为什么类似的问题，今天带大家爬取一个问答类的网站，本堂课使用正则表达式对文本类的数据进行提取，正则表达式是数据提取的通用方法。适合人群：Python零基础、对爬虫数据采集感兴趣的同学！环境介绍：python 3.6pycharmrequestsrejson爬虫的一般思路1、确定爬取的url路径，heade...

Python天气预报采集器实现代码(网页爬虫)

爬虫简单说来包括两个步骤：获得网页文本、过滤得到数据。 1、获得html文本。　　python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def getHtml(url): page = urllib.urlopen(url) html = page.read() page.close() return html 这么几行代码相信不用注释都能大概知道它的意思。 2、根据正则表达式等获得需要的内容。　　使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则...

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

适合爬虫入门的书籍《Python网络数据采集》，采用简洁强大的Python语言，介绍了网络数据采集，并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理：如何用Python从网络服务器请求信息，如何对服务器的响应进行基本处理，以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站，自动化处理，以及如何通过更多的方式接入网络。《Python网络数据采集》高清中文PDF，224页...

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据 by:授客 QQ：1033553122 实现功能测试环境环境搭建使用前提使用方法运行程序效果展示实现功能无需在被监控主机上安装代理，一键对Linux远程服务器不同主机执行性能监控、性能数据采集命令，并实时展示支持跨堡垒机收集实时性能数据(注：定制化开发，非通用) 支持docker容器(因为程序实现是从docker容器内部获取性能数据，所以目前仅支持 CPU,内存,I/O) 使...

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集，列表里面能够取得每个文章的id，而每个文章又是通过一个统一的接口（参数带上那个文章id即可获取到对应的json）里面又有一部分数据需要采集然后进行数据分析。目前有什么比较成熟的框架或者轮子能够实现我的需求吗？（要多线程，而且可以7x24小时稳定运行，因为采集数量巨大）另外问一下，采集到的内容如何存储（百万到千万），数据里面有一些数字数据，...

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！回复内容：简单说下Python采集和其它语言采集的优势？除了方便以外，考虑到速度，性能，占CPU率以及批量循环采集等。最好也提供建议，应该要使用什么语言做采集要比Python好的多！虽然知道php不是和采集，但是还一直在用php，因为其他的不会。。。优势就是库...

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

写在前面的话接下来的这个月要忙着应付期末的各种事情了, 可能不太有时间写博客了. 看过我博客的, 对于我博客的”又长又臭”可能有所了解, 平均一篇都要花费我2.5天时间. 这次, 我先把之前做的笔记放出来, 美其名曰: 先睹为快, 算作以后的一个系列吧. 稍后应该可能也许大概会有修订版, 对笔记的内容作进一步的梳理总结. 笔记之Python网络数据采集非原创即采集一念清净, 烈焰成池, 一念觉醒, 方登彼岸 ...

Python实时数据采集-新型冠状病毒【代码】【图】

Python实时数据采集-新型冠状病毒源代码来源：https://github.com/Programming-With-Love/2019-nCoV疫情数据时间为：2020.2.1项目相关截图：全国数据展示国内数据展示国外数据展示查看指定区域详细数据源代码，注意安装所需模块（例如 pip install 模块名）import requests import re from bs4 import BeautifulSoup from time import sleep import json from prettytable import ALL from prettytable import PrettyTablehubei =...

Python采集--数据的储存【图】

Python网络数据采集3-数据存到CSV以及MySql先热热身，下载某个页面的所有图片。import requestsfrom bs4 import BeautifulSoupheaders = {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.16193}start_url = https://www.pythonscraping.comr = requests.get(start_url, headers=headers) soup = BeautifulSoup(r.text, lxml)# 获取...

用python写的一个wordpress的采集程序【图】

在学习python的过程中，经过不断的尝试及努力，终于完成了第一个像样的python程序，虽然还有很多需要优化的地方，但是目前基本上实现了我所要求的功能，先贴一下程序代码：具体代码如下:#! /usr/bin/pythonimport os,urllib2,re,time,MySQLdb,sysreTitle = re.compile(<font[^>]*>(.*?)<\/font><font[^>]*)reNeiron = re.compile([1-9|A-Z|a-z].*)retiqu = re.compile(^(?!MARGINWIDTH|BR).*.[^>|}]$)re...

PYTHON - 技术教程分类

Python3 教程 Python3 简介 Python3 环境搭建 Python3 基础语法 Python3 基本数据类型 Python3 解释器 Python3 注释 Python3 运算符 Python3 数字(Number) Python3 字符串 Python3 列表 Python3 元组 Python3 字典 Python3 集合 Python3 编程第一步 Python3 条件控制 Python3 循环语句 Python3 迭代器与生成器 Python3 函数 Python3 数据结构 Python3 模块 Python3 输入和输出 Python3 File Python3 OS Python3 错误和异常 Python3 面向对象 Python3 命名空间/作用域 Python3 标准库概览 Python3 实例 Python3 CGI编程 Python3 MySQL(PyMySQL) Python3 网络编程 Python3 SMTP发送邮件 Python3 多线程 Python3 日期和时间 Python3 内置函数 Python3 MongoDB Python3 urllib python 全部

PYTHON - 最热教程

python如何统计字符串中字母个数？使用Python进行微信公众号开发（三）回...Python+PyQT5的子线程更新UI界面的实例 python时间戳怎么获得？如何获得当前时...vscode调试python时提示无法将“conda”...python接口自动化全局变量access_token...python收取邮件(腾讯企业邮箱)python如何绘制降水图详解python并发获取snmp信息及性能测试...怎么卸载Python3.6？

首页 / PYTHON / python实现的一个火车票转让信息采集器

python实现的一个火车票转让信息采集器

内容导读

内容图文

内容总结

内容备注

内容手机端

【python实现的一个火车票转让信息采集器】教程文章相关的互联网学习教程文章

python练习之员工信息采集程序接口与判断【代码】

【Python】完美采集某宝数据，到底A和B哪个是YYDS?（附完整源代码和视频教程）【代码】【图】

杂记使用Python采集网页内容【代码】

Python网络数据采集

爬虫小案例：适合Python零基础、对爬虫数据采集感兴趣的同学！【代码】

Python天气预报采集器实现代码(网页爬虫)

学习爬虫:《Python网络数据采集》中英文PDF+代码【图】

性能测试基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据【图】

java-PHP或者python进行数据采集和分析，有什么比较成熟的框架？

PHP或者python进行数据采集和分析，有什么比较成熟的框架？

简单说下Python采集和其它语言采集的优势？

[先睹为快]Python网络数据采集那些事儿_html/css_WEB-ITnose

Python实时数据采集-新型冠状病毒【代码】【图】

Python采集--数据的储存【图】

用python写的一个wordpress的采集程序【图】

PYTHON - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程