首页 / 更多教程 / 用户收视习惯聚类分析

用户收视习惯聚类分析

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用户收视习惯聚类分析，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4776字，纯文字阅读大概需要7分钟。

内容图文

数据挖掘测试实例

用户收视习惯聚类分析

用户收视习惯在不同的小时段，不同的星期，会呈现不一样的特色，我们现在要做的就是将用户IPTV数据按照每小时收视时长进行聚类分析

测试样本：

2013 年 6 月 6 日（星期四，非假日）南京地区当天观看过 IPTV 的用户

用户数： 269745 人

数据准备：

1. 创建临时表

select s_userid,s_hour,s_timeleninto tmp_user_hour_len from tst_fct_d20130606_4 where s_city_id=1

2 、生成目标表

select s_userid,

(case when s_hour=‘00‘ then s_timelen else 0 end)as hour00 ,

(case when s_hour=‘01‘ then s_timelen else 0 end)as hour01 ,

(case when s_hour=‘02‘ then s_timelen else 0 end)as hour02 ,

(case when s_hour=‘03‘ then s_timelen else 0 end)as hour03 ,

(case when s_hour=‘04‘ then s_timelen else 0 end)as hour04 ,

(case when s_hour=‘05‘ then s_timelen else 0 end)as hour05 ,

(case when s_hour=‘06‘ then s_timelen else 0 end)as hour06 ,

(case when s_hour=‘07‘ then s_timelen else 0 end)as hour07 ,

(case when s_hour=‘08‘ then s_timelen else 0 end)as hour08 ,

(case when s_hour=‘09‘ then s_timelen else 0 end)as hour09 ,

(case when s_hour=‘10‘ then s_timelen else 0 end)as hour10 ,

(case when s_hour=‘11‘ then s_timelen else 0 end) ashour11 ,

(case when s_hour=‘12‘ then s_timelen else 0 end)as hour12 ,

(case when s_hour=‘13‘ then s_timelen else 0 end)as hour13 ,

(case when s_hour=‘14‘ then s_timelen else 0 end)as hour14 ,

(case when s_hour=‘15‘ then s_timelen else 0 end)as hour15 ,

(case when s_hour=‘16‘ then s_timelen else 0 end)as hour16 ,

(case when s_hour=‘17‘ then s_timelen else 0 end)as hour17 ,

(case when s_hour=‘18‘ then s_timelen else 0 end)as hour18 ,

(case when s_hour=‘19‘ then s_timelen else 0 end)as hour19 ,

(case when s_hour=‘20‘ then s_timelen else 0 end)as hour20 ,

(case when s_hour=‘21‘ then s_timelen else 0 end)as hour21 ,

(case when s_hour=‘22‘ then s_timelen else 0 end)as hour22 ,

(case when s_hour=‘23‘ then s_timelen else 0 end)as hour23 into user_hour_len_nj_20130606

from tmp_user_hour_len

3 、在 211 服务器上导出文件到本地

bcp user_hour_len_nj_20130606 outuser_hour_len_nj_20130606.txt -UXXX -PXXX -SXXX -c -t ‘|‘ -r ‘\n‘

4 、提取前 200 个实例进行测试

分析方法：

采用 k 均值算法进行聚类分析

数据源格式：

属性集：

属性集包含 24 个时段的详细信息，格式如下 ( 这里 real 也可以为 numeric) ：

@relation cluster

@attribute H00 real

@attribute H01 real

@attribute H02 real

@attribute H03 real

@attribute H04 real

@attribute H05 real

@attribute H06 real

@attribute H07 real

@attribute H08 real

@attribute H09 real

@attribute H10 real

@attribute H11 real

@attribute H12 real

@attribute H13 real

@attribute H14 real

@attribute H15 real

@attribute H16 real

@attribute H17 real

@attribute H18 real

@attribute H19 real

@attribute H20 real

@attribute H21 real

@attribute H22 real

@attribute H23 real

数据集：

数据集包含每个用户的订购信息，格式如下：

@data

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,12,0

0,0,0,0,0,0,0,0,0,0,0,0,26,59,16,0,0,0,50,55,56,58,59,10

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,59,59,18,0

57,35,0,0,0,0,20,0,0,0,0,0,0,0,15,59,59,59,59,59,59,58,54,35

.....

测试过程：

打开 weka explorer ， open file 打开特征文件 ( 如 example_cluster_ID_H24_200.arff) ，然后选择 cluster ，选择算法 SimpleKmeans ，选择距离方法 Euclidean distance (orsimilarity) function. 迭代次数 maxIterations=500, 类数目 numcluster=5 （或 3,4 都可以）， seed=10,start

numcluster=5 时，得出如下结果

1 ）

技术分享 650) this.width=650;" width="206" height="163" src="/e/u261/themes/default/images/spacer.gif" />

这里代表所聚的各个类中的样本条数、数量占整个样本集的百分比。

2 ）

技术分享 650) this.width=650;" width="541" height="472" src="/e/u261/themes/default/images/spacer.gif" />

Number of iterations: 7

Within cluster sum of squared errors:228.6644541918032

Within cluster sum of squared errors ，代表簇内距离，这个值越小，聚类效果越好（当然聚类数越多这个值越小）。在不改变聚类数量的前提下，调整 seed 值可以改变上面 squared errors 值的大小，使得簇内距离越小，聚类效果越好。

参数说明：

参数选择窗口如下：

技术分享 650) this.width=650;" width="448" height="459" src="/e/u261/themes/default/images/spacer.gif" />

参数说明：

displayStdDevs 是否显示数字属性标准差和名词属性个数
distanceFunction 用于比较实例的距离函数，包括马氏距离、欧氏距离、明氏距离等（默认 :weka.core.EuclideanDistance ）。
dontReplaceMissingValues 是否不使用 mean/mode 替换全部丢失的值。
maxIterations 最大迭代次数
numClusters 所聚的类数
preserveInstancesOrder 是否预先排列实例的顺序
seed 设定的随机种子值

QuestionS ：

1 、如何找出哪个 ID 聚到了哪一类中；

A: 针对训练样本，在聚类结果右击点击 “Visualizecluster assignments” ，在弹出的窗口中点击 save ，则可保存一个 arff 文件，在这个文件中每个样本最后一个属性值即 (“@attributeCluster”) 给出了详细划入的簇类别；

另外，第一个数值为训练样本的标号。

以文件的部分数据为例 (save_file_ID2Class.arff) ，如下：

----------------------------------------------------------------------------------------------------------------

@attributeH22 numeric

@attributeH23 numeric

@attributeCluster {cluster0,cluster1,cluster2,cluster3}

@data

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,12,0,cluster1

1,0,0,0,0,0,0,0,0,0,0,0,0,26,59,16,0,0,0,50,55,56,58,59,10,cluster2

2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,59,59,18,0,cluster2

3,57,35,0,0,0,0,20,0,0,0,0,0,0,0,15,59,59,59,59,59,59,58,54,35,cluster3

----------------------------------------------------------------------------------------------------------------

本文出自 “用户流失统计” 博客，谢绝转载！

原文：http://9309062.blog.51cto.com/9299062/1652804

内容总结

以上是互联网集市为您收集整理的用户收视习惯聚类分析全部内容，希望文章能够帮你解决用户收视习惯聚类分析所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1197750.html

来源：【匿名】

【上一篇】测试人员提高业务掌握度的方案【下一篇】关于IE的RegExp.exec的问题

更多 ►

【用户收视习惯聚类分析】教程文章相关的互联网学习教程文章

精尽MyBatis源码分析 - MyBatis初始化（四）之 SQL 初始化（下）

摘自：https://www.cnblogs.com/lifullmoon/p/14015075.html该系列文档是本人在学习 Mybatis 的源码过程中总结下来的，可能对读者不太友好，请结合我的源码注释（Mybatis源码分析 GitHub 地址、Mybatis-Spring 源码分析 GitHub 地址、Spring-Boot-Starter 源码分析 GitHub 地址）进行阅读 MyBatis 版本：3.5.2 MyBatis-Spring 版本：2.0.3 MyBatis-Spring-Boot-Starter 版本：2.1.4MyBatis的初始化在MyBatis初始化过程中，大致会有...

xxl-job源码分析【代码】【图】

xxl-job 系统说明安装安装部署参考文档：分布式任务调度平台xxl-job 功能定时调度、服务解耦、灵活控制跑批时间（停止、开启、重新设定时间、手动触发） XXL-JOB是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用概念 1、执行器列表：一个执行器是一个项目 2、任务：一个任务是一个项目中的 JobHandler 3、一个xxl-job服务可以有多个执...

分享一款用于通信测量的实时频谱分析仪：安诺尼SPECTRAN V6【图】

德国AARONIA安诺尼 V6实时频谱分析仪采用新一代实时频谱技术研发，随着V6的上市，使德国安诺尼的实时频谱仪产品从V5升级到了V6。德国AARONIA安诺尼 V6实时频谱分析仪具有高达245MHz实时带宽，双USB真实I / Q流高达784MBytes/s、具备捕获极短信号的能力（10ns的POI）。除此此外，安诺尼实时频谱分析仪SPECTRAN V6 X还集成了矢量信号发生器/跟踪发生器，其调制带宽高达120MHz。 SPECTRAN V6 X实时频谱分析仪是德国AARONIA安诺尼研发...

CAN控制器总线错误分析之CAN节点BusOff恢复过程分析与测试【图】

总线关闭（bus off）是CAN节点比较重要的错误处理机制。那么，在总线关闭状态下，CAN节点的恢复流程是怎样的？又该如何理解节点恢复流程的“快恢复”和“慢恢复”机制？本文将为大家详细分析总线关闭及恢复的机制和原理。一、故障界定与总线关闭状态为了避免X某个设备因为自身原因（例如硬件损坏）导致无法正确收发报文而不断的破坏总线的数据帧，从而影响其它正常节点通信，CAN网络具有严格的错误诊断功能，CAN通用规范中规定每...

一文看懂效果广告渠道追踪能力搭建与分析【图】

本文根据神策数据业务咨询师唐予轩《效果广告渠道追踪能力搭建与分析方法》的演讲整理，主要内容如下：量化广告数据源，明确流量分层明确推广方案搭建渠道评估体系今天投放的广告效果要等到明天早上才能获取…… 获客成本居高不下，该如何优化广告计划？如何判断不同素材/关键词对最终投放效果的影响？本次演讲将会基于以上问题，从三大方面进行解答。一、量化广告数据源，明确流量分层我们常用的增长指标有：APP 激活成本、激...

北京大学数学分析习题集参考解答03.03中间值性质03.04初等函数的连续性

Dubbo 源码分析 - 集群容错之 Router【代码】

1. 简介上一篇文章分析了集群容错的第一部分 – 服务目录 Directory。服务目录在刷新 Invoker 列表的过程中，会通过 Router 进行服务路由。上一篇文章关于服务路由相关逻辑没有细致分析，一笔带过了，本篇文章将对此进行详细的分析。首先，先来介绍一下服务目录是什么。服务路由包含一条路由规则，路由规则决定了服务消费者的调用目标，即规定了服务消费者可调用哪些服务提供者。Dubbo 目前提供了三种服务路由实现，分别为条件路由...

Mybaits源码分析九之sql执行流程【代码】

SubjectDao subjectDao=sqlSession.getMapper(SubjectDao.class);对应的源码为：1 @Override 2 public <T> T getMapper(Class<T> type) { 3 return configuration.<T>getMapper(type, this); 4 }1 public <T> T getMapper(Class<T> type, SqlSession sqlSession) { 2 return mapperRegistry.getMapper(type, sqlSession); 3 } 1 @SuppressWarnings("unchecked")2 public <T> T getMapper(Class<T> type, SqlSess...

用户收视习惯聚类分析

数据挖掘测试实例用户收视习惯聚类分析用户收视习惯在不同的小时段，不同的星期，会呈现不一样的特色，我们现在要做的就是将用户IPTV数据按照每小时收视时长进行聚类分析测试样本：2013年6月6日（星期四，非假日）南京地区当天观看过IPTV的用户用户数：269745 人数据准备：1.创建临时表select s_userid,s_hour,s_timeleninto tmp_user_hour_len from tst_fct_d20130606_4 where s_city_id=1 2、生成目标表select s_userid,(c...

性能分析（2）- 应用程序 CPU 使用率过高案例【代码】【图】

性能分析小案例系列，可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 系统架构背景其中一台用作 Web 服务器，来模拟性能问题另一台用作 Web 服务器的客户端，来给 Web 服务增加压力请求使用两台虚拟机（均是 Ubuntu 18.04）是为了相互隔离，避免交叉感染 VM2 运行 ab 命令，初步观察 Nginx 性能简单介绍 ab 命令ab（apache bench）是一个常用的 HTTP 服务性能测试工具可以向目标服务器并发发...

五、对比分析

一、内容 1. 同比：不同周期、同一时间点。比如说：今年四月和去年四月。环比：同一周期、相邻时间段对比。比如：今年四月和3月比环比主要能帮你看短期内的变化同比主要能帮你看长期的趋势 2. 假如你是某运营总监，你现在要提升用户的下单转化率，需要对自己的官网进行升级。升级完后，你发现：新版的用户转化率，不如旧版，这时候你应该怎么办？思路：你刚得出的结论是单一类型的，所以你这时候应该再使用别的因素对比一下...

dubbo的spi机制分析和实战案例【代码】【图】

本文同步更新到CSDN： https://me.csdn.net/Danny_idea 推荐阅读SpringBoot 整合篇手写一套迷你版HTTP服务器记住：永远不要在MySQL中使用UTF-8Springboot启动原理解析java里面提供了一种内置的服务提供和发现机制，可以通过配置让一个程序在运行的时候动态加载该类的具体实现。这样子我们可以在调用某个相应接口的时候，同时达到调用某些具体类的实现功能。具体的代码案例如下所示：首先定义一个接口和两个接口的实现类接口/** ...

spring boot启动源码分析 afterRefresh【代码】

1 protected void afterRefresh(ConfigurableApplicationContext context,2 ApplicationArguments args) {3 callRunners(context, args);4 }5 6 private void callRunners(ApplicationContext context, ApplicationArguments args) {7 List<Object> runners = new ArrayList<Object>();8 runners.addAll(context.getBeansOfType(ApplicationRunner.class).values());9 ru...

一、dubbo源码分析【图】

一、整体设计dubbo整体设计以及调用用链路参照官网?http://dubbo.apache.org/zh-cn/docs/dev/design.html 二、dubbo的注册中心1、注册中心参照官网 ?http://dubbo.apache.org/zh-cn/docs/user/references/registry/introduction.html；2、zk注册中心详解2.1、目录结构+- dubbo+- com.demo.service.HelloService+- consumers+- consumer://192.168.1.102/com.demo.service.HelloService?application=dubbo-demo-annotation-consumer...

试卷生成程序优缺点分析【图】

程序说明队友的个人项目完成了项目的所有功能要求。他使用了如下函数来实现需求： void kuohao(int B[] ,int numA); //预定公式在括号中的位置 string Pschooltext(int A[],int numA); //生成一条小学的试题 string Jschooltext(int A[],int numA); //生成一条初中的试题 string Sschool(int A[],int numA); //生成一条高中的试题 int searchtext(string a[],string strname); //打开文件夹读取所有的历...

分析 - 相关标签

分析工具

首页 / 更多教程 / 用户收视习惯聚类分析

用户收视习惯聚类分析

内容导读

内容图文

测试样本：

数据准备：

分析方法：

数据源格式：

测试过程：

内容总结

内容备注

内容手机端

【用户收视习惯聚类分析】教程文章相关的互联网学习教程文章

精尽MyBatis源码分析 - MyBatis初始化（四）之 SQL 初始化（下）

xxl-job源码分析【代码】【图】

分享一款用于通信测量的实时频谱分析仪：安诺尼SPECTRAN V6【图】

CAN控制器总线错误分析之CAN节点BusOff恢复过程分析与测试【图】

一文看懂效果广告渠道追踪能力搭建与分析【图】

北京大学数学分析习题集参考解答03.03中间值性质03.04初等函数的连续性

Dubbo 源码分析 - 集群容错之 Router【代码】

Mybaits源码分析九之sql执行流程【代码】

用户收视习惯聚类分析

性能分析（2）- 应用程序 CPU 使用率过高案例【代码】【图】

五、对比分析

dubbo的spi机制分析和实战案例【代码】【图】

spring boot启动源码分析 afterRefresh【代码】

一、dubbo源码分析【图】

试卷生成程序优缺点分析【图】

分析 - 相关标签

更多教程 - 最新教程

更多教程 - 最热教程