首页 / 日志 / 今晚九点|如何使用 Python 分析 web 访问日志？

今晚九点|如何使用 Python 分析 web 访问日志？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了今晚九点|如何使用 Python 分析 web 访问日志？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2671字，纯文字阅读大概需要4分钟。

内容图文

主题：如何使用 Python 分析 Web 访问日志

内容

Python 基础
- 字符串、字典、文件、时间
- Web 访问日志
实战
提问

主讲师：KK

多语言混搭工程师，热爱开源技术，喜欢GET新技能，5年 PHP、Python 项目开发经验，带领团队完成多个中、小型项目开发，对安全、云等多个领域富有浓厚兴趣，擅长于 WEB 安全开发、性能优化、分布式应用开发&设计等多方面，做事认真负责，乐于分享技能，现任 51Reboot.com Python 实战班讲师

技术分享图片

任何语言都有使用场景，只有合适和不合适，没有好坏。语言是工具，用来描述让计算机如何工作，想法(思路&算法)是基础，也是重点。

字符串

像姓名、一句话描述这样的文

使用单引号、双引号、三个单引号或三个双引号引起来的一些字符
技术分享图片

字符串有哪些函数

技术分享图片

split分隔字符串为list

技术分享图片

format 格式化字符串

技术分享图片

字典定义

定义
- 使用大括号包含
- 每个元素为key:value的格式
- 元素之间使用逗号分隔

练习

一、统计 list 中每个元素出现的次数

languages = [‘python‘, ‘java‘, ‘python‘, ‘c‘, ‘c++‘, ‘go‘, ‘c#‘, ‘c++‘, ‘lisp‘, ‘c‘, ‘javascript‘, ‘java‘, ‘python‘, ‘matlab‘, ‘python‘, ‘go‘, ‘java‘]

提示：

统计结果为 element:count 的形式，统计结果采用 dict 从左到右依次遍历 list 中元素，判断是否在 dict 中，如果不在则将 element 存入 dict 并设置 count 为 1，否则将 dict中element 对应的 count 加 1 后再存储到dict中。
技术分享图片

二、统计文章中每个英文字母出现的次数

article = ‘I was not delivered unto this world in defeat, nor does failure course in my veins. I am not a sheep waiting to be prodded by my shepherd. I am a lion and I refuse to talk, to walk, to sleep with the sheep. I will hear not those who weep and complain, for their disease is contagious. Let them join the sheep. The slaughterhouse of failure is not my destiny.‘
提示：判断是否为英文单词
if (element > ‘a’ and element < ‘z’) or (element > ‘A’ and element < ‘Z’)

技术分享图片

字典的 Key

Key 必须为不可变数据类型
数字
整数
浮点数
字符串
布尔类型
列表 X
元组
子元素必须也不可变(“a”, “b”)
("a", ["b“]) X
字典 X

字典有哪些函数

技术分享图片

文件

自己在电脑上打开 word 文件的操作顺序
在计算机盘符中找到对应的文件
鼠标双击打开文件（选择查阅的工具）
查阅文件内容/编辑文件内容
如果有编辑文件内容保存文件
关闭文件

文件操作

打开文件
fhandler = open(path, mode, …)
path 为文件路径
mode 为打开文件方式及文件类型

mode	打开文件方式
r	读(默认)
w	写
x	创建并写
a	追加
r+	读写
w+	写读
x+	创建并写读
a+	追加读

关闭文件
fhandler.close()

mode	文件类型
t	文本(默认)
b	二进制

遍历文件内容

时间

技术分享图片

Web 访问日志

Web 访问日志是 Web 服务器记录的网站被访问的过程日志
日志属性
- 什么时候
- 什么人
- 通过什么工具
- 以什么方式
- 访问了什么资源
- 结果是什么（状态/返回数据大小）

Web 访问日志日志格式

通用日志格式

127.0.0.1 - - [14/May/2017:12:45:29 +0800] "GET /index.html HTTP/1.1" 200 4286

远程 - - 主机 IP 请求时间时区方法资源协议状态码发送字节

组合日志格式

127.0.0.1 - - [14/May/2017:12:51:13 +0800] "GET /index.html HTTP/1.1" 200 4286 "http://127.0.0.1/" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36“

远程主机 IP - - 请求时间时区方法资源协议状态码发送字节 referer 字符浏览器信息

Web访问日志日志示例

技术分享图片

实战

统计以下数据
- 需要根据IP获取地理位置
- 每天的日志中每行流量之和、总的流量之和（每天流量之和）
- 每种状态码出现的次数
- 每天的不重复的IP的数量、总的不重复的IP数量（每天不重复的IP数量之和？？？）
- 每天的日志行数、日志的总行数（每天的日志行数之和）
- 统计每天的点击量、总点击数量
- 统计每天的浏览者数量、总浏览者数量
- 统计总状态码分布
- 统计每天流量大小、总的流量大小
- 统计访问地域分布及访问次数 TOP20

运行

技术分享图片

分析

按天统计
- 每天日志行数
- 每天浏览每个 IP 的访问次数
- 每天访问者数量 = 每天出现 IP 组成集合的数量
- 每天状态码出现次数
- 每天流量总数
总统计
- 总日志行数 = 每天日志行数之和
- 总访问者数量 = 所有出现 IP 组成的集合数量
地域分布
- 所有出现 IP 的访问次数排序取 TOP20
- 根据 IP 查找地理位置

代码

统计每天信息
技术分享图片

统计总数据

技术分享图片

统计区域数据
技术分享图片

打印结果

技术分享图片

还可以做哪些？

统计每天每个 url 访问的次数?
最近 24 小时访问/流量趋势图（每 5-10 分钟粒度）
每天浏览器分布图
每天访问文档分布图
每天 js、css、图片等静态文档流量统计
……
web 饼状图、曲线图、柱状图、地图
……
通过机器学习监督学习方法对访问进行攻击检测

网络直播分享
报名方式：加小助手（小月）微信：1902433859 备注公开课进入直播分享群

原文：http://blog.51cto.com/51reboot/2087109

内容总结

以上是互联网集市为您收集整理的今晚九点|如何使用 Python 分析 web 访问日志？全部内容，希望文章能够帮你解决今晚九点|如何使用 Python 分析 web 访问日志？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1193742.html

来源：【匿名】

【上一篇】spy日志【下一篇】php错误日志怎么看

更多 ►

【今晚九点|如何使用 Python 分析 web 访问日志？】教程文章相关的互联网学习教程文章

使用Pig对手机上网日志进行分析【图】

在成功安装Pig的基础上，本文将使用Pig对手机上网日志进行分析，具体步骤如下：写在前面：手机上网日志文件phone_log.txt，文件内容及字段说明部分截图如下需求分析显示每个手机号的上网流量情况。依次完成以下步骤：1、将Linux本地文件phone_log.txt上传到HDFS执行命令dump C; 查看经过以上步骤处理后的结果查看经过以上步骤处理后的结果OK，齐活！原文：http://blog.csdn.net/aaronhadoop/article/details/26804589

今晚九点|如何使用 Python 分析 web 访问日志？【图】

主题：如何使用 Python 分析 Web 访问日志内容Python 基础字符串、字典、文件、时间Web 访问日志实战提问主讲师：KK多语言混搭工程师，热爱开源技术，喜欢GET新技能，5年 PHP、Python 项目开发经验，带领团队完成多个中、小型项目开发，对安全、云等多个领域富有浓厚兴趣，擅长于 WEB 安全开发、性能优化、分布式应用开发&设计等多方面，做事认真负责，乐于分享技能，现任 51Reboot.com Python 实战班讲师任何语言都有使用场景，只...

基于logstash+elasticsearch+kibana的日志收集分析方案（Windows）【代码】【图】

一方案背景通常，日志被分散的储存不同的设备上。如果你管理数十上百台服务器，你还在使用依次登录每台机器的传统方法查阅日志。这样是不是感觉很繁琐和效率低下。开源实时日志分析ELK平台能够完美的解决日志收集和日志检索、分析的问题，ELK就是指ElasticSearch、Logstash和Kiabana三个开源工具。因为ELK是可以跨平台部署，因此非常适用于多平台部署的应用。二环境准备 1. 安装JDK1.8环境 2. 下载ELK软件包logsta...

JVM垃圾回收日志结构分析【图】

我们在我们Server的gc log上经常看到下面的这个日志：总结一下各个字段表达的是什么意思： Young GCFull GC:原文：http://www.cnblogs.com/moonandstar08/p/4934548.html

Windows系统下Log4Net+FileBeat+ELK日志分析系统问题总结【图】

问题如下：1.FileBeat日志报 "dial tcp 127.0.0.1:5544: connectex: No connection could be made because the target machine actively refused it"解决过程：A：修改FileBeat文件夹中filebeat.yml文件，直接输出结果到elasticsearch中，经测试elasticsearch中可以查看到数据，排除FileBeat问题B：控制台中输入以下内容，启动logstash程序，看是否能启动成功，经测试logstash无法启动，提示输入控件beats问题C：控制台中继续输入p...

网站日志实时分析工具GoAccess使用

网站日志实时分析工具GoAccess使用系统环境CentOS release 5.5 (Final) GoAccess是一款开源的网站日志实时分析工具。 GoAccess 的工作方式就是读取和解析 Apache/Nginx/Lighttpd 的访问日志文件 access log，然后以更友好的方式把统计信息显示出来。统计的内容包括：访问概况、动态页面请求、静态页面请求（如图片、样式表、脚本等）、访客排名，访客使用的操作系统，访客使用的浏览器，来路域名，404 错误，搜索爬虫，搜索关键词等...

ELK-Logstash Nginx 日志分析

logstash配置文件# nginx_log.confinput { file { type => "nginx_log" path => "/opt/nginx/logs/access.log" }} filter { if [type] == "nginx_log" { grok { match => { "message" => "%{NGINXACCESS}" } } if ([message] =~ "^*launcher*|^*favicon*") { drop {} } geoip { source => "remote_addr" target => "geoip" database => "/op...

分析rails日志，计算响应率【代码】

chmod +x analyse_log copy_log （1）拷贝脚本到本地脚本内容如下：#!/usr/bin/env bash LOG_PATH=/opt/logs LOCAL_LOG_PATH=~/Documents/logs/8-15 PROJECTS=(m-cms-for-tudou-tv m-cms-for-tv)if [[ $1 == "--debug" ]]; thenset -x fi# Create local directoriesfor project in ${projects[@]}; domkdir -p $SAVE_TO/$project done# Copy m-cms-for-tv project=m-cms-for-tv remote_log_dir=$LOG_PATH/$projectfor server in {1...

使用AWSTATS自动分析Nginx日志【代码】【图】

环境说明：Nginx安装目录：/usr/local/nginxNginx配置文件存放目录：/usr/local/nginx/conf/nginx.confNginx日志目录：/usr/local/nginx/logsAwstats安装目录：/usr/local/awstatsAwstats配置文件存放目录：/etc/awstats日志切割脚本存放目录：/usr/local/nginx/nginx_log.sh一、Nginx日志切割1、修改nginx.conf配置文件，使AWSTATS支持分析日志格式# vim /usr/local/nginx/conf/nginx.conf //去掉前面的#号 log_format main ...

nginx web日志介绍和分析【代码】

nginx web日志介绍和分析Nginx访问日志打印的格式可以自定义，例如Nginx日志打印格式配置如下，Log_format 用来设置日志格式，Name(模块名) Type(日志类型)，可以配置多个日志模块，分别供不同的虚拟主机日志记录所调用：log_formatlog_format main ‘$remote_addr - $remote_user [$time_local] "$request" ‘ ‘$status $body_bytes_sent "$http_referer" ‘ ‘"$http_user_agent" $request_...

5.7.17版本mysqlbinlog实时拉取的二进制日志不完整的原因分析【代码】【图】

问题描述：同事使用mysqlbinlog工具的--read-from-remote-server --raw选项，从远程实例实时拉取二进制日志时，发现得到的二进制日志文件大小与远程实例上的源文件大小不相同，并且使用mysqlbinlog解析时会报错。测试环境版本信息如下：MySQL版本：5.7.17 log MySQL Community Server (GPL) 通用tar包安装Mysqlbinlog版本：5.7.17 自带版本，mysqlbinlog Ver 3.4 for linux-glibc2.5 at x86_64操作系统版本：CentOS Linux release...

python分析nginx日志的ip,url,status【代码】

Python 脚本如下：#!/usr/bin/env python #_*_coding:utf-8 _*_ __author__ = ‘lvnian‘#!/usr/bin env python # coding: utf-8 import MySQLdb as mysql import sys, osdb = mysql.connect(user="root",passwd="xxxxx@2015",db="intest",host="192.168.10.12") #数据库连接信息 db.autocommit(True) cur = db.cursor() cur.execute(‘set names utf8‘)dict_list = {} with open(‘access.log‘) as logfin: for line in log...

ELK7.4.0分析nginx json日志【代码】

ELK7.4.0单节点部署环境准备安装系统,数据盘设置为/srv内核优化参考我们需要创建elk专用的账号,并创建所需要的目录并授权useradd elk; mkdir /srv/{app,data,logs}/elk chown -Rf elk:elk /srv/{app,data,logs}/elk修改/etc/security/limits.conf* soft nofile 65536 * hard nofile 65536 * soft nproc 65536 * hard nproc 65536elk soft nofile 65536 elk hard nofile 65536 elk soft nproc 65536 elk hard np...

AWStats日志分析系统【代码】

1.什么是AWStatsAWStats是一款功能强大且功能强大的免费工具，可以图形方式生成高级Web，流媒体，ftp或邮件服务器统计信息。此日志分析器用作CGI或命令行，并在几个图形网页中显示您的日志包含的所有可能信息。它使用部分信息文件来经常快速地处理大型日志文件。它可以分析来自所有主要服务器工具的日志文件，如Apache日志文件（NCSA组合/ XLF / ELF日志格式或通用/ CLF日志格式），WebStar，IIS（W3C日志格式）以及许多其他Web，...

Rsyslog介绍以及结合loganalyzer进行日志分析【代码】【图】

1.syslog介绍：日志服务在CentOS 5上默认为syslog，而6上全部升级为rsyslog。Rsyslog是syslog的增强版，提供了很多高级的特性。syslog由两个进程构成，klogd和syslogd，klogd记录Kernel产生的日志信息，而syslogd是普通的日志信息。除了一些高级特性，Rsyslog和syslog的整体框架基本一致。2.Rsyslog的特性：支持选择UDP|TCP协议传送日志文件；支持SSL加密；多线程模型工作；可以将日志放入关系型数据库中；可以作为日志...

首页 / 日志 / 今晚九点|如何使用 Python 分析 web 访问日志？

今晚九点|如何使用 Python 分析 web 访问日志？

内容导读

内容图文

主讲师：KK

字符串

字符串有哪些函数

字典定义

练习

字典的 Key

字典有哪些函数

文件

文件操作

时间

Web 访问日志

Web 访问日志日志格式

Web访问日志日志示例

实战

运行

分析

代码

还可以做哪些？

内容总结

内容备注

内容手机端

【今晚九点|如何使用 Python 分析 web 访问日志？】教程文章相关的互联网学习教程文章

日志 - 相关标签

分析 - 相关标签

日志 - 最新教程

日志 - 最热教程