首页 / PYTHON / python-使用SMOTE时验证集性能不佳

python-使用SMOTE时验证集性能不佳

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python-使用SMOTE时验证集性能不佳，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1560字，纯文字阅读大概需要3分钟。

内容图文

我想用2个类别进行分类.
当我没有SMOTE进行分类时,我得到(交叉验证的10倍平均值)：

Precision       Recall            f-1
0,640950987     0,815410434       0,714925374

当我使用smote时：(在200％且k = 5时对少数类进行了过度采样)(也是10次交叉验证),这意味着我的测试和训练集中存在综合数据.

Precision        Recall           f-1
0,831024643      0,783434343      0,804894232

如您所见,这很好.

但是,当我在验证数据(没有任何综合数据,也没有用于构造综合数据点)上测试此训练好的模型时,

Precision        Recall           f-1
0,644335755      0,799044453      0,709791138

太可怕了我使用随机决策森林进行分类.

有谁知道为什么会这样&解决此问题的解决方案？任何有关额外测试的有用技巧,我都可以尝试以获取更多见解,也欢迎您.

更多信息：我不会碰多数派.我使用scikit-learn和this algorithm for SMOTE在Python中工作.

测试数据(具有综合数据)上的混淆矩阵：

验证集中的混淆矩阵(既没有任何综合数据,也没有被用作创建综合数据的基础)：

编辑：我读到问题可能在于创建了Tomek Links.因此为I wrote some code to remove the Tomek links.尽管这不能提高分类分数.

Edit2：我读到问题可能在于存在太多重叠的事实.一种解决方案是更智能的合成样本生成算法.因此我实现了

ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning

.可以找到我的实现here.它的性能比冒充还差.

解决方法:

重叠可能是原因.如果在给定变量的情况下类之间存在重叠,则SMOTE将生成影响可分离性的综合点.正如您所指出的,可能会生成Tomek链接以及其他损害分类的点.我建议您尝试使用SMOTE的其他变体,例如Safe-SMOTE或Bordeline-SMOTE.您可以在以下位置找到他们的描述：

http://link.springer.com/chapter/10.1007/11538059_91

http://link.springer.com/chapter/10.1007/978-3-642-01307-2_43

内容总结

以上是互联网集市为您收集整理的python-使用SMOTE时验证集性能不佳全部内容，希望文章能够帮你解决python-使用SMOTE时验证集性能不佳所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/676608.html

来源：【匿名】

【上一篇】如何查看Python3对象的字节？【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python-使用SMOTE时验证集性能不佳】教程文章相关的互联网学习教程文章

python性能分析——insert()【代码】

我们在list中插入数据时，经常使用这两个函数：append()：在列表的末尾增加一个数据insert()：在某个特定位置前加一个数据Python内的list实现是通过数组实现的，而不是链表的形式，所以每当执行insert()操作时，都要将插入位置的元素向后移动才能在相应的位置插入元素，执行append()操作时，如果分配的空间还足够大的话那么就可以直接插到最后，如果空间不够的话就需要将已有的数据复制到一片更大的空间后再插入新元素，insert()空...

Python脚本性能分析【代码】【图】

来自：http://www.cnblogs.com/btchenguang/archive/2012/02/03/2337112.htmldef foo():sum = 0for i in range(10000):sum += isumA = bar()sumB = bar()return sumdef bar():sum = 0for i in range(100000):sum += ireturn sumif__name__ == "__main__":import cProfile#直接把分析结果打印到控制台cProfile.run("foo()")#把分析结果保存到文件中,不过内容可读性差...需要调用pstats模块分析结果cProfile.run("foo()", "result")#...

Python学习笔记_字典(Dict)_遍历_不同方法_性能测试对比【代码】【图】

今天专门把python的字典各种方法对比测试了一下性能效果. 测试代码如下: 1def dict_traverse():2from time import clock3 my_dict = {‘name‘: ‘Jim‘, ‘age‘: ‘20‘, ‘height‘: ‘180cm‘, ‘weight‘: ‘60kg‘}4 5 t_start = clock()6for key in my_dict: # 性能最差写法.无优化 7print‘Type01.01: %s --- %s‘ % (key, my_dict[key])8 t1 = clock()910for key in my_dict: # 性能较上优,可见get()方...

Python性能分析【代码】

%prun -l 7 -s cumulative function（）一.基本性能分析1.cProfile模块，输出结果按函数名排序.cProfile记录的是各函数调用的起始和结束时间，并依次计算总时间python -m cProfile XX.py-s指定排序规则：python -m cProfile -s cumulative xx.py利用%run -p %run -p -s cumulative xx.py2.cProfile还可以分析任意代码块的内容1）%prun 分析的是python语句，-l +整数是指定输出几行的意思%prun -l 7 -s cumulative f...

Python 使用 PyMysql、DBUtils 创建连接池，提升性能【代码】【图】

转自：https://blog.csdn.net/weixin_41287692/article/details/83413775Python 编程中可以使用 PyMysql 进行数据库的连接及诸如查询/插入/更新等操作，但是每次连接 MySQL 数据库请求时，都是独立的去请求访问，相当浪费资源，而且访问数量达到一定数量时，对 mysql 的性能会产生较大的影响。因此，实际使用中，通常会使用数据库的连接池技术，来访问数据库达到资源复用的目的。解决方案：DBUtilsDBUtils 是一套 Python 数据库连接...

python 数据较大性能分析【图】

前提：若有一个几百M的文件需要解析，某个函数需要运行很多次（几千次），需要考虑性能问题性能分析模块：cProfile使用方法：cProfile.run("func()")，其中func()是进行性能分析的函数测试结果：结果会显示每个自己写的函数运行的时间，以及内置函数运行的时间分析运行次数比较多且耗时大的函数，进行优化，如：正则表达式匹配比较耗时，可以将多个正则合并为一个原文：http://www.cnblogs.com/heiao10duan/p/6853439.html

使用由 Python 编写的 lxml 实现高性能 XML 解析

lxml 简介Python 从来不出现 XML 库短缺的情况。从 2.0 版本开始，它就附带了 xml.dom.minidom 和相关的 pulldom 以及 Simple API for XML (SAX) 模块。从 2.4 开始，它附带了流行的 ElementTree API。此外，很多第三方库可以提供更高级别的或更具有 python 风格的接口。尽管任何 XML 库都足够处理简单的 Document Object Model (DOM) 或小型文件的 SAX 解析，但开发人员越来越多碰到更加大型的数据集，以及在 Web 服务上下文中实时...

python性能测定02【代码】

方法01：##利用python的标准库cProfile##nova/api/openstack/wsgi.pyimport time import cProfile, pstats, StringIO from oslo_middleware import request_idpr = cProfile.Profile() pr.enable() start_time = time.time()doSomething()end_time = time.time() pr.disable() s = StringIO.StringIO() sortby = ‘cumulative‘ ps = pstats.Stats(pr, stream=s).sort_stats(sortby) ps.print_stats() req_id = request.environ.ge...

使用 profile 进行python代码性能分析【代码】【图】

定位程序性能瓶颈对代码优化的前提是需要了解性能瓶颈在什么地方，程序运行的主要时间是消耗在哪里，对于比较复杂的代码可以借助一些工具来定位，python 内置了丰富的性能分析工具，如 profile,cProfile 与 hotshot 等。其中 Profiler 是 python 自带的一组程序，能够描述程序运行时候的性能，并提供各种统计帮助用户定位程序的性能瓶颈。Python 标准模块提供三种 profilers:cProfile,profile 以及 hotshot。profile 的使用非常简单...

关于python性能相关测试cProfile库【代码】

http://blog.csdn.net/gzlaiyonghao/article/details/1483728 收藏一个大神对这个问题的介绍。我就不多做污染了。另外还有两个增强库可以针对cProfile输出的.prof文件生成带图的分析一个是snakeviz 一个是gprof2dot 第二个图生成的东西非常酷炫。。。但是并没有第一个实用。在使用这两者的过程中其实都有使用到一个自定义报表模块。pstatsimport cProfile from pstats import Stats cProfile.run(‘xxx()‘, "xxx.prof"‘) p = ...

基于python的性能负载测试Locust－1 简介【代码】【图】

官网： http://locust.io/GitHub: https://github.com/locustio/locust简介Locust 是一个开源负载测试工具。使用 Python 代码定义用户行为，也可以仿真百万个用户。Locust 是非常简单易用，分布式，用户负载测试工具。Locust 主要为网站或者其他系统进行负载测试，能测试出一个系统可以并发处理多少用户。Locust 是完全基于时间的，因此单个机器支持几千个并发用户。相比其他许多事件驱动的应用，Locust 不使用回调，而是使用轻量级...

Python性能优化方案【代码】

Python性能优化方案从编码方面入手，代码算法优化，如多重条件判断有限判断先决条件(可看《改进python的91个建议》)使用Cython (核心算法, 对性能要求较大的建议使用Cython编写) 是python & c++的结合, 性能有数量级的提升使用ast抽象语法树根据python CAPI扩展, 编写c++ python加载器 (即使用加载器将python 代码转为c++执行) 如开源模块 py2c推荐使用Cython进行核心算法的编写注: cython 编译环境，需要vc++14.0 需要安装visua...

Python 函数调用性能记录【代码】

之前用 JS 写项目的时候，项目组用的组件模式，一直感觉很不错。最近用 Python 做新项目，项目结构也延续了组件模式。一直没有对函数调用的性能作了解，今天突发奇想测试了一下，写了一些测试代码首先定义了几个 class ：class A(object):def test(self):passclass B(object):def__init__(self):self.a = A()def test(self):passclass C(object):def__init__(self):self.b = B()def test(self):passclass D(object):def__init__(s...

Python的GIL是什么鬼，多线程性能究竟如何【代码】【图】

本文转载地址: http://cenalulu.github.io/python/gil-in-python/GIL是什么首先需要明确的一点是GIL并不是Python的特性，它是在实现Python解析器(CPython)时所引入的一个概念。就好比C++是一套语言（语法）标准，但是可以用不同的编译器来编译成可执行代码。有名的编译器例如GCC，INTEL C++，Visual C++等。Python也一样，同样一段代码可以通过CPython，PyPy，Psyco等不同的Python执行环境来执行。像其中的JPython 就没有GIL。然而...

6个Python性能优化技巧【代码】【图】

ython是一门非常酷的语言，因为很少的Python代码可以在短时间内做很多事情，并且，Python很容易就能支持多任务和多重处理。Python的批评者声称Python性能低效、执行缓慢，但实际上并非如此：尝试以下6个小技巧，可以加快Python应用程序。 1、关键代码可以依赖于扩展包Python使许多编程任务变得简单，但是对于很关键的任务并不总是提供最好的性能。使用C、C++或者机器语言扩展包来执行关键任务能极大改善性能。这些包是依赖于平台的...

首页 / PYTHON / python-使用SMOTE时验证集性能不佳

python-使用SMOTE时验证集性能不佳

内容导读

内容图文

内容总结

内容备注

内容手机端

【python-使用SMOTE时验证集性能不佳】教程文章相关的互联网学习教程文章

python性能分析——insert()【代码】

Python脚本性能分析【代码】【图】

Python学习笔记_字典(Dict)_遍历_不同方法_性能测试对比【代码】【图】

Python性能分析【代码】

Python 使用 PyMysql、DBUtils 创建连接池，提升性能【代码】【图】

python 数据较大性能分析【图】

使用由 Python 编写的 lxml 实现高性能 XML 解析

python性能测定02【代码】

使用 profile 进行python代码性能分析【代码】【图】

关于python性能相关测试cProfile库【代码】

基于python的性能负载测试Locust－1 简介【代码】【图】

Python性能优化方案【代码】

Python 函数调用性能记录【代码】

Python的GIL是什么鬼，多线程性能究竟如何【代码】【图】

6个Python性能优化技巧【代码】【图】

PYTHON - 相关标签

性能 - 相关标签

验证 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程