首页 / PYTHON / python学习笔记第二十三天--------特征抽取实例

python学习笔记第二十三天--------特征抽取实例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了python学习笔记第二十三天--------特征抽取实例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5921字，纯文字阅读大概需要9分钟。

内容图文

文章目录

特征

特征抽取
字典特征抽取
文本特征抽取
TF-IDF

特征

特征抽取

# 特征抽取，特征抽取针对非连续型数据和对文本等进行特征值化
# 1. 导入Scikit-learn库
# sklearn特征抽取API
from sklearn.feature_extraction.text import CountVectorizer

# 2.实例化CountVectorizer

vector = CountVectorizer()
# 3. 调用fit_transform
res = vector.fit_transform(["life is short, i like python","life is too long ,i dislike python"])
# 4. 打印结果
print(vector.get_feature_names())

print(res.toarray())

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]

字典特征抽取

# 导入包 
# DictVectorizer：对字典数据进行特征值化
from sklearn.feature_extraction import DictVectorizer


def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化
    dict = DictVectorizer(sparse=False)
    # 调用
    data = dict.fit_transform([{'city': '北京','temperature':100},{'city': '上海','temperature':60},{'city': '深圳','temperature':30}])
    print(dict.get_feature_names())
    print(dict.inverse_transform(data))
    print(data)
    
    return None
if __name__ == "__main__":
    dictvec()

['city=上海', 'city=北京', 'city=深圳', 'temperature']
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]

文本特征抽取

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction import DictVectorizer

def Countvec():
    """
    对文本进行特征值化
    ：return: None
    """
    
    cv = CountVectorizer()
    data = cv.fit_transform(["life is short, i like python","life is too long ,i dislike python"])
    print(data)
    print(data.toarray())
    print(cv.get_feature_names())
    return None
if __name__ == "__main__":
    Countvec()

  (0, 5)	1
  (0, 3)	1
  (0, 6)	1
  (0, 1)	1
  (0, 2)	1
  (1, 0)	1
  (1, 4)	1
  (1, 7)	1
  (1, 5)	1
  (1, 1)	1
  (1, 2)	1
[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

import jieba

def cutword():

    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")

    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")

    con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 吧列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3

    
def hanzivec():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)

    cv = CountVectorizer()

    data = cv.fit_transform([c1, c2, c3])

    print(cv.get_feature_names())

    print(data.toarray())

    return None

if __name__ == "__main__":
    hanzivec()

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.829 seconds.
Prefix dict has been built successfully.


今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
[[0 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 1]
 [1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0]]

TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer

def tfidfvec():
    """
    中文特征值化
    :return: None
    """
    c1, c2, c3 = cutword()

    print(c1, c2, c3)

    tf = TfidfVectorizer()

    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())

    print(data.toarray())

    return None
if __name__ == "__main__":
    tfidfvec()

今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']
[[0.         0.         0.21821789 0.         0.         0.
  0.43643578 0.         0.         0.         0.         0.
  0.21821789 0.         0.21821789 0.         0.         0.
  0.         0.21821789 0.21821789 0.         0.43643578 0.
  0.21821789 0.         0.43643578 0.21821789 0.         0.
  0.         0.21821789 0.21821789 0.         0.         0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.         0.2410822
  0.55004769 0.         0.         0.         0.         0.2410822
  0.         0.         0.         0.         0.48216441 0.
  0.         0.         0.         0.         0.2410822  0.2410822 ]
 [0.15698297 0.15698297 0.         0.         0.62793188 0.47094891
  0.         0.         0.         0.         0.15698297 0.15698297
  0.         0.15698297 0.         0.15698297 0.15698297 0.
  0.1193896  0.         0.         0.15698297 0.         0.
  0.         0.15698297 0.         0.         0.         0.31396594
  0.15698297 0.         0.         0.15698297 0.         0.        ]]

点赞
收藏
分享
- 文章举报

曾鸿举发布了47 篇原创文章 · 获赞 27 · 访问量 8650 私信关注

内容总结

以上是互联网集市为您收集整理的python学习笔记第二十三天--------特征抽取实例全部内容，希望文章能够帮你解决python学习笔记第二十三天--------特征抽取实例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/640313.html

来源：【匿名】

【上一篇】深入理解Python中range和xrange的区别【下一篇】浅谈PHP运行Python脚本的方法

更多 ►

【python学习笔记第二十三天--------特征抽取实例】教程文章相关的互联网学习教程文章

Python 学习笔记（第1课）

从今天起，我将开启python学习模式，并用博客记录学习的过程和相关知识点1.Python下载安装可以在官网：https://www.python.org/downloads/ 中下载各种版本的Python （目前我安装的版本是2.7.6）2.语法要点记录代码注释，使用#号符： >>> a=1 #value of a>>> b=2 #value of b>>> a+b #a add b3>>>字符串可以跨多个行，可以使用反斜杠：\ 或三个双引号：""" """或者三个单引号：‘‘‘ ‘‘‘>>> print """helloJack"""helloJack>...

Python学习之==>有依赖关系的接口开发【代码】

一、接口需求1、登录接口　　（1）登录成功后将session信息存入redis数据库并设置失效时间为600秒　　（2）构造返回结果的对象flask.make_response()　　（3）产生cookie，失效时间同样设定为600秒2、发帖接口　　（1）根据登录接口成功写入的cookie来判断用户是否登录　　（2）判断用户传过来的session和redis数据库中存入的session是否一致　　（3）如果一致的话则进行发帖操作二、代码实现 1import flask,time,json2from lib.to...

python学习笔记（一）【代码】

来源：极客学院一、单引号、双引号和三引号看下面的例子c1="hello world" c2=‘hello world‘ c3=‘It is a "dog"‘ c4="It‘s a ‘dog‘" c5=‘It\‘s a \‘dog\‘‘ c6="It‘s a \"dog\""c7=‘‘‘peng dong lin 163‘‘‘c8="""peng dong lin 163 """print(c1) print(c2) print(c3) print(c4) print(c5) print(c6) print(c7) print(c8)下面是运行结果C:\Python27\python.exe D:/MY_Documents/Python/demo/yinhao.py hello world...

Python学习笔记（三）【图】

1.字符串和编码　　1）最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。　　2）要处理中文至少需要两个字节，而且还不能和ASCII编码冲突，所以，中国制定了GB2312编码，用来把中文编进去。　　3）Unicode把所有语言都统一到一套编码里。Unicode标准最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个...

Python学习：raw_input【图】

一：先上图是不是raw_input判断出错了呢？其实不是这样的二：分析 raw_input()读取的内容永远以字符串的形式返回，把字符串和整数比较就不会得到期待的结果，必须先用int()把字符串转换为我们想要的整型：原文：http://blog.csdn.net/u013628152/article/details/42921903

【Python学习之旅】---线程的调用以及join方法【图】

执行结果：原文：https://www.cnblogs.com/chenyuxia/p/12305400.html

Python学习【第六篇】运算符【代码】【图】

运算符算数运算： 1 a = 212 b = 103 c = 04 5 c = a + b6print ("1 - c 的值为：", c)7 8 c = a - b9print ("2 - c 的值为：", c) 1011 c = a * b 12print ("3 - c 的值为：", c) 1314 c = a / b 15print ("4 - c 的值为：", c) 1617 c = a % b 18print ("5 - c 的值为：", c) 1920# 修改变量 a 、b 、c21 a = 2 22 b = 3 23 c = a**b 24print ("6 - c 的值为：", c) 2526 a = 10 27 b = 5 28 c = a//b 29print ("7 - c 的值为："...

Python 学习问题汇总【代码】

1.print 输出（默认print 是自带换行）# 换行输出print(a)print(b)print(a, end="\n")print(b, end="\n")# 不换行输出print(a, end="")print(b, end="") 原文：https://www.cnblogs.com/gaoting/p/13080646.html

Linux下Python学习笔记 2：条件判断、循环【代码】【图】

一、条件判断if 语句比如，输入用户年龄，根据年龄打印不同的内容，在Python程序中，可以用if语句实现：注意: Python代码的缩进规则。具有相同缩进的代码被视为代码块，上面的3行 print 语句就构成一个代码块（但不包括第4行的print）。如果 if 语句判断为 True，就会执行这个代码块。缩进请严格按照Python的习惯写法：4个空格，不要使用Tab，更不要混合Tab和空格，否则很容易造成因为缩进引起的语法错误。在ubuntu下的vim中需要设...

Python学习-函数初识、函数参数使用【代码】

记录下python中函数的使用入门，函数就相当于java中的方法，想法都是减少重复代码，将公共部分抽取出来并可反复调用，只是用法有些差别。函数初识假如python中没有len方法，如果需要计算字符串字符个数，或者列表长度，可以分别用如下方式实现。如计算字符串长度。s=‘hgoahgohgohgogog‘ # 假设python没有len方法，如何计算上面字符串的字符个数？ count=0 for item in s:count+=1 print(count) 如计算列表长度。li=[1,2,3,4,5,6]...

Selenium2 Python 学习笔记1---浏览器版本匹配

最近开始学习selenium，按照书上编写一个自动化脚本： from selenium import webdriverbrowser = webdriver.Firefox browser.get("http://www.baidu.com")browser.find_element_by_id("kw").send_keys("selenium")browser.find_element_by_id("su").click() browser.quit() 执行后提示“浏览器在建立连接前已关闭”，通过度娘看到很多解决办法，最终验证发现是Firefox版本太高，将Firefox版本降低后问题解决！原文：http://www.cnb...

python学习笔记-面向对象设计【代码】

1、类的定义分为经典类和新式类 #经典类：class 类名：pass#新式类：class 类名(父类): # class 类名(object)pass大前提：1、只有在python2中才分新式类和经典类，python3中统一都是新式类2、新式类和经典类声明最大不同在于，所有新式类必须继承至少一个父类3、所有类不管是否显式声明父类，都有一个默认继承object父类2、类的属性2.1划分类是用来描述一类事物，类的对象是指这一类事物的一个个体。是事物就有属性，属性分为1、数...

20200116--python学习第十天【代码】

今日内容　　1.参数　　2.作用域　　3.函数嵌套内容回顾　　　　线上操作系统：centos　　py2和py3的区别？　　每种数据类型，列举你了解的方法。　　3 or 9 and 8　　字符串的反转　　is 和 == 的区别？　　v1 = (1) / v2 = 1　　深浅拷贝　　文件操作，大文件如何读取内容 [ 50G的日志文件2.1知识点回顾　　a.函数基本结果def func(name,age,email): # 函数体(保持缩进一致) a=123 print(a) return 1111 b=456 ...

Python学习---网页爬虫[下载图片]【代码】【图】

爬虫学习--下载图片1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确，下载的越多 4.利用urllib.urlretrieve()下载图片，并且可以重新命名，利用%S 5.应该是运营商有所限制，所以未能下载全部的图片，不过还是OK的URL分析：源码：#coding=utf-8 import re import urllib def getHtml(url):page=urllib.urlopen(url)html=page.read();return html def getImage(html)...

python学习笔记(十二) - 常用内建模块

一.collections1. namedtuplenamedtuple是一个函数，它用来创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素。from collections import namedtuple Point = namedtuple('Point', ['x', 'y']) p = Point(1, 2) print p.x print p.y2.dequedeque是为了实现高效插入和高效删除操作的双向列表，适合用于队列和栈from collections import deque q = deque(['a', 'b', 'c']) q.appen...

首页 / PYTHON / python学习笔记第二十三天--------特征抽取实例

python学习笔记第二十三天--------特征抽取实例

内容导读

内容图文

文章目录

特征

特征抽取

字典特征抽取

文本特征抽取

TF-IDF

内容总结

内容备注

内容手机端

【python学习笔记第二十三天--------特征抽取实例】教程文章相关的互联网学习教程文章

Python 学习笔记（第1课）

Python学习之==>有依赖关系的接口开发【代码】

python学习笔记（一）【代码】

Python学习笔记（三）【图】

Python学习：raw_input【图】

【Python学习之旅】---线程的调用以及join方法【图】

Python学习【第六篇】运算符【代码】【图】

Python 学习问题汇总【代码】

Linux下Python学习笔记 2：条件判断、循环【代码】【图】

Python学习-函数初识、函数参数使用【代码】

Selenium2 Python 学习笔记1---浏览器版本匹配

python学习笔记-面向对象设计【代码】

20200116--python学习第十天【代码】

Python学习---网页爬虫[下载图片]【代码】【图】

python学习笔记(十二) - 常用内建模块

PYTHON - 相关标签

实例 - 相关标签

PYTHON - 技术教程分类

PYTHON - 最新教程

PYTHON - 最热教程