首页 / JAVA / bag-of-words model的java实现

bag-of-words model的java实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了bag-of-words model的java实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4980字，纯文字阅读大概需要8分钟。

内容图文

为了验证paragraphVector的优势，需要拿bag-of-words model来对比。

实验数据：京东的评论，经人工挑选，分为“正面评论”和“负面评论”，中性的去掉。

分别拿这两个模型，来对每段“评论”做特征抽取，然后拿SVM来分类。

实验结果：400条训练，254条测试。bag-of-words模型的准确率是0.66，paraVector模型的准确率是0.84.

下面给出bag-of-words model的实现。其实很简单，原理之前在《数学之美》看过。具体可以参考http://www.cnblogs.com/platero/archive/2012/12/03/2800251.html。

训练数据：

1 文件good：正面评论

2 文件bad：负面评论

3 文件dict：其实就是good+bad，把正面评论和负面评论放在一起，主要遍历这个文件，找出所有词汇，生成词典。

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.UnsupportedEncodingException;
import java.util.StringTokenizer;

public class BowModel 
{

	
	Dict dict;
	DocFeatureFactory dff;
	
	public BowModel(String path) throws Throwable
	{
		dict = new Dict();
		dict.loadFromLocalFile(path);		
		dff = new DocFeatureFactory(dict.getWord2Index());
	}
	
	

	
	
	double[][] featureTable;
	private void generateFeature(String docsFile,int docNum) throws IOException
	{
		featureTable = new double[docNum][];
		int docIndex=0;
		File file = new File(docsFile);
		BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file),"utf-8"));
		while(true)
		{
			String line=br.readLine();
			if(line == null)
				break;
			featureTable[docIndex++] = dff.getFeature(line);
		}
		br.close();		
	}
	
	private void nomalizeFeature()
	{
		double sum=0;
		double var =0;
		for(int col=0;col<featureTable[0].length;col++)//一列代表一个维度
		{
			sum =0;
			for(int row=0;row<featureTable.length;row++)
			{
				sum+= featureTable[row][col];
			}
			sum/=featureTable.length;//均值
			var =0;
			for(int row=0;row<featureTable.length;row++)
			{
				var+= (featureTable[row][col]-sum)*(featureTable[row][col]-sum);
			}
			var = Math.sqrt(var/featureTable.length);//标准差
			if(var == 0) continue;
			for(int row=0;row<featureTable.length;row++)
			{
				featureTable[row][col] = (featureTable[row][col] -sum)/var;
			}
		}
	}
	
	private void saveFeature(String path,String label) throws IOException
	{
		File file=new File(path);
		BufferedWriter br= new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)));
		for(int i=0;i<featureTable.length;i++)
		{
			br.append(label+" ");
			for(int j=0;j<featureTable[0].length;j++)
			{
				br.append(Integer.toString(j+1)+":"+featureTable[i][j]+" ");
			}
			br.append("\n");
		}
		br.close();
	}
	
	public void train() throws IOException
	{
		generateFeature("/media/linger/G/sources/comment/test/good",340);
		nomalizeFeature();
		saveFeature("svm_good","1");
		
		generateFeature("/media/linger/G/sources/comment/test/bad",314);
		nomalizeFeature();
		saveFeature("svm_bad","-1");
	}
	
	
	public static void main(String[] args) throws Throwable 
	{
		// TODO Auto-generated method stub
		BowModel bm = new BowModel("/media/linger/G/sources/comment/test/dict");
		bm.train();
	}

}

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Hashtable;
import java.util.StringTokenizer;

public class Dict 
{
	HashMap<String,Integer> word2Index =null;
	Hashtable<String,Integer> word2Count = null;
	void loadFromLocalFile(String path) throws IOException
	{
		word2Index = new HashMap<String,Integer>();
		word2Count = new Hashtable<String,Integer>();
		int index = 0;
		File file = new File(path);
		BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file),"utf-8"));
		while(true)
		{
			String line=br.readLine();
			if(line == null)
				break;
			StringTokenizer tokenizer=new StringTokenizer(line," ");
			while(tokenizer.hasMoreElements())
			{
				String term=tokenizer.nextToken();
				if(word2Count.containsKey(term))
				{
					
					int freq=word2Count.get(term)+1;
					word2Count.put(term, freq);
					
				}
				else
				{
					word2Count.put(term, 1);
					word2Index.put(term, index++);
				}
			}
		}
		br.close();
	}
	
	public HashMap<String,Integer> getWord2Index() throws Throwable
	{
		if(word2Index==null)
			throw new Exception("has not loaded file!");
		return word2Index;
	}
	
	public static void main(String[] args) 
	{
		// TODO Auto-generated method stub

	}

}

import java.util.HashMap;
import java.util.StringTokenizer;

public class DocFeatureFactory 
{
	HashMap<String,Integer> word2Index;
	double[] feature;
	int dim;
	public DocFeatureFactory(HashMap<String,Integer> w2i)
	{
		word2Index = w2i;
		dim = w2i.size();
	}
	
	double[] getFeature(String doc)
	{
		feature = new double[dim];
		StringTokenizer tokenizer=new StringTokenizer(doc," ");
		while(tokenizer.hasMoreElements())
		{
			String term =tokenizer.nextToken();
			feature[word2Index.get(term)]++;
		}	
		return feature;
	}
	
	public static void main(String[] args) 
	{
		// TODO Auto-generated method stub

	}

}

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/38333687

原文：http://blog.csdn.net/lingerlanlan/article/details/38333687

内容总结

以上是互联网集市为您收集整理的bag-of-words model的java实现全部内容，希望文章能够帮你解决bag-of-words model的java实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1196829.html

来源：【匿名】

【上一篇】java contains 解析【下一篇】JAVA/JSP学习系列之五

更多 ►

【bag-of-words model的java实现】教程文章相关的互联网学习教程文章

javascript实现图片预加载【代码】

JAVA SE 多态的实现机制【代码】

面向对象的三大特征：封装，继承和多态。多态是面向程序设计中代码重用的一个重要机制，它表示当同一操作作用在不同对象时，会有不同的语义。　　Java 多态主要有以下两种表现方式：　　1)方法重载(overload)。重载是指同一类中有多个同名方法，但是这些方法必须在参数列表上加以区分，要么参数个数不同，要么在相同位置上的参数类型不同。　2)方法的覆盖(override)。子类可以覆盖父类的方法。父类的引用不但可以指向其实例对象，...

Javascript实现求小数点后100位数值

function num(a,b){　　let list=[]　　let n1=a%b; //求余　　while(list.length<100){ //100位　　　　let n2 =Math.floor(n1*10/b)　　　　list.push(n2)　　　　n1=n1*10%b //继续求余　　}　　return list.join(‘‘)}num(40,13)//"0769230769230769230769230769230769230769230769230769230769230769230769230769230769230769230769230769"原文：https://www.cnblogs.com/coolFQ/p/11772183.html

LRU (Least Recently Used) 算法的Java实现

实现代码如下：import java.util.LinkedHashMap; import java.util.Map;/*** LRU (Least Recently Used) 算法的Java实现* @param <K>* @param <V>* @author 杨尚川*/ public class LRUCache<K, V> extends LinkedHashMap<K, V> {//缓存大小private int cacheSize;public LRUCache(int cacheSize) {//第三个参数true是关键super(10, 0.75f, true);this.cacheSize = cacheSize;}/*** 缓存是否已满的判断* @param eldest* @return*/@O...

JavaScript创建按钮，实现数字自加1！！【代码】

大致步骤：1、写一个p标签，指定一个id选择器，输入数字！2、写一个input标签，指定type属性的属性值为button，创建一个按钮，加入onclick事件！3、为p标签和input标签指定相关的CSS样式（可以省略）4、用js创建一个自加的函数，在函数中用document对象的getElementById()方法，选中p标签。5、通过innerHTML获取p标签的内容，实现自加！！实现代码如下：<!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><title>自加<...

Java使用ffmpeg实现本地视频的Rtsp推流【代码】【图】

Java使用ffmpeg实现本地视频的Rtsp推流1、需要的工具（1）ffmpeg，免费且强大的音视频转换、录制、流化工具，此处使用版本：ffmpeg-4.2-win64-static可以直接在官网下载，http://ffmpeg.org/（2）EasyDarwin，开源流媒体服务器，启动exe直接搭建完成视频服务器，方便测试，官网：http://www.easydarwin.org/，点下载跳转到github，easyDarwin下面有release包的下载image.png（3）vlc media player流媒体播放器2、代码启动EasyDarwi...

java 线程池socket实现简单http服务器【代码】

---恢复内容开始---要点：1.只需回应Get请求，将本地的lena.jpg返回给客户端2.使用最基本的socket编程3.使用线程池进行线程管理4.将lena.jpg读入内存中，减少IO次数　　5.MyHttpServer作为服务器类，ServerThread作为服务处理线程类 1.加入线程池ExecutorService pool = Executors.newFixedThreadPool(MaxClientNums); 2.有客户访问则开启服务线程并将其加入线程池while(true){try {Socket client=server.accept();if(client.isCon...

用java实现“钉钉微应用，免登进入某H5系统首页“功能”【代码】【图】

一、前言哈哈，这是我的第一篇博客。先说一下这个小功能的具体场景：用户登录钉钉app，点击微应用，获取当前用户的信息，与H5系统的数据库的用户信息对比，如果存在该用户，则点击后直接进入H5系统的首页，否则显示“您无权限”。补充：又加了一个小需求，就是免登成功，会给该用户发条消息我是参考钉钉开发文档实现的这个小功能，文档地址：https://ding-doc.dingtalk.com/doc#/serverapi2/clotub二、准备工作需要创建一个微应用...

十二、双向链表的java实现【图】

原理图：运行结果： Node代码：public class Node { int data; Node next; Node previous; //前向指针 public Node(int value) { // TODO Auto-generated constructor stub this.data = value; } public void display() { System.out.print(data+ " "); }} doubleLinklist:public class doubleLinklist { private Node first; private Node last; //尾结点 public doubleLinklist(...

Java服务器热部署的实现原理【图】

今天发现早年在大象笔记中写的一篇笔记，之前放在ijavaboy上的，现在它已经访问不了了。前几天又有同事在讨论这个问题。这里拿来分享一下。在web应用开发或者游戏服务器开发的过程中，我们时时刻刻都在使用热部署。热部署的目的很简单，就是为了节省应用开发和发布的时间。比如，我们在使用Tomcat或者Jboss等应用服务器开发应用时，我们经常会开启热部署功能。热部署，简单点来说，就是我们将打包好的应用直接替换掉原有的应用，不...

Javascript闭包深入解析及实现方法【代码】【图】

1、什么是闭包闭包，官方对闭包的解释是：一个拥有许多变量和绑定了这些变量的环境的表达式（通常是一个函数），因而这些变量也是该表达式的一部分。闭包的特点：1. 作为一个函数变量的一个引用，当函数返回时，其处于激活状态。2. 一个闭包就是当一个函数返回时，一个没有释放资源的栈区。简单的说，Javascript允许使用内部函数—即函数定义和函数表达式位于另一个函数的函数体内。而且，这些内部函数可以访问它们所在的外部函数中...

java实现全排列输出【代码】【图】

java实现全排列输出转自：http://easonfans.iteye.com/blog/517286最近在找工作，面试java程序员或者软件工程师，在笔试的时候常常见到这么一道题：全排列的输出数组（常常要求是整数），其实这道题不难，主要是递归调用，在baidu或者google上已经有很多人提出了解法，但是大部分可读性很差，让我们莘莘学子根本就记不住。我来简单的说一下：其实这个问题的解法基本思路是这样的：递归但是我们在使用递归的时候要注意结束条件，...

用Java实现生产者和消费者的多线程例子【代码】

任务说明：生产者(Productor)将产品交给店员(Clerk)，而消费者(Customer)从店员处取走产品，店员一次只能持有固定数量的产品(比如:20），如果生产者试图生产更多的产品，店员会叫生产者停一下，如果店中有空位放产品了再通知生产者继续生产；如果店中没有产品了，店员会告诉消费者等一下，如果店中有产品了再通知消费者来取走产品。使用Runnable接口完成该任务，代码如下：package testThread;/*共享数据*/ class Clerk{int produc...

JWT(二)：使用 Java 实现 JWT【代码】【图】

JWT(一)：认识 JSON WebTokenJWT(二)：使用 Java 实现 JWT介绍原理在上篇《JWT(一)：认识 JSON Web Token》已经说过了，实现起来并不难，你可以自己写一个 jwt 工具类（如果你有兴趣的话）当然了，重复造轮子不是程序员的风格，我们主张拿来主义！JWT 官网提供了多种语言的 JWT 库，详情可以参考 https://jwt.io/#debugger 页面下半部分建议使用 jjwt库，它的github地址 https://github.com/jwtk/jjwtjjwt 版本 0.10.7，它和 0.9....

Javascript高级程序设计——面向对象之实现继承【代码】

原型链：　　构造函数中都有一个prototype属性指针，这个指针指向原型对象，而创建的实例也有指向这个原型对象的指针__proto__。当实例查找方法时先在实例上找，找不到再通过__proto__到原型对象上查找。如果原型对象是另一个类型的实例，那么原型对象包含一个指向另一个原型对象的指针、另一个原型对象中也包含指向另一个构造函数的指针。原型连继承function superValue(){this.superValue = "superValue"; }superValue.prototype...

JAVA - 技术教程分类

Java 教程 Java 简介 Java 开发环境配置 Java 基础语法 Java 对象和类 Java 基本数据类型 Java 变量类型 Java 修饰符 Java 运算符 Java 循环结构 Java 条件语句 Java switch case Java Number & Math 类 Java Character 类 Java String 类 Java StringBuffer Java 数组 Java 日期时间 Java 方法 Java Stream、File、IO Java Scanner 类 Java 异常处理 Java 继承 Java Override/Overload Java 多态 Java 抽象类 Java 封装 Java 接口 Java 枚举 Java 包(package) Java 数据结构 Java 集合框架 Java ArrayList Java LinkedList Java HashSet Java HashMap Java Iterator Java Object Java 泛型 Java 序列化 Java 网络编程 Java 多线程编程 Java Applet 基础 Java 文档注释 Java 实例 Java 8 新特性 Java MySQL 连接 Java 9 新特性 Java 测验 java 全部

JAVA - 最热教程

Java在运行项目时候，点击右键的弹框，...nacos配置中心超时问题：java.net.Conn...Java的设计模式（7）— 生产者-消费者模...基于DOM4j和POI实现的XML文件转换为XLS...如何在Java中创建一些变量类型别名使用java8的Stream统计字符串数组中每一...idea插件篇之java内存分析工具(JProfil...cannot cast 'java.lang.Integer' to '...java – Bootstrap.properties中Spring...Java8利用stream流实现数字排序和中文排...

首页 / JAVA / bag-of-words model的java实现

bag-of-words model的java实现

内容导读

内容图文

内容总结

内容备注

内容手机端

【bag-of-words model的java实现】教程文章相关的互联网学习教程文章

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程