Java实现的词频统计——功能改进

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Java实现的词频统计——功能改进，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4447字，纯文字阅读大概需要7分钟。

内容图文

　　本次改进是在原有功能需求及代码基础上额外做的修改，保证了原有的基础需求之外添加了新需求的功能。

功能：

　　1. 小文件输入——从控制台由用户输入到文件中，再对文件进行统计；

　　2.支持命令行输入英文作品的文件名；

　　3.支持命令行输入存储有英文作品文件的目录名，批量统计；

　　4.从控制台读入英文单篇作品，重定向输入流。

实现：

　　1.判断输入方式，如果从命令行传递参数则直接对文件进行统计；如果未传递参数，其方式同控制台相同，由用户从标准输入流输入到文件，再对文件进行词频统计。这里如果传入文件路径时会对其是否是文件夹进行判断，如果是文件夹，则对其目录中的文件进行统计。

             1
            if (args.length == 0) {
 2             Scanner in = new Scanner(System.in);
 3             FileWriter out = new FileWriter("Content.txt");
 4 5             System.out.println("请输入内容，最后以Q结束：");
 6 7while (in.hasNext()) {
 8                 out.write(in.nextLine()+"\r\n");
 9            }
10            out.close();
11            in.close();
1213new FileProccessing("Content.txt");
14        }
15for (int i = 0; i < args.length; i++) {
16             String FileName = args[i];
17             File fs = new File(FileName);
18if (fs.isDirectory()) {
19                 File[] filelist = fs.listFiles();
20for (int n = 0; n < filelist.length; n++) {
21new FileProccessing(filelist[n].getAbsolutePath());
22                }
2324             } else {
25new FileProccessing(FileName);
26            }
27         }

　　2.对ByValueComparator类做了修改，使其能够按词频降序排列的同时，对同频率的单词进行升序排列。

             1
            public
            class ByValueComparator implements Comparator<Entry<String,Integer>> {
 2     Map<String, Integer> hashmap;
 3public ByValueComparator(Map<String, Integer> hm) {
 4this.hashmap = hm;
 5    }
 6 7    @Override
 8publicint compare(Entry<String, Integer> o1, Entry<String, Integer> o2) {
 9// TODO Auto-generated method stub1011if (o1.getValue().compareTo(o2.getValue()) == -1) {
12return 1;
13         } elseif (o1.getValue().compareTo(o2.getValue()) == 0) {
14return o1.getKey().compareTo(o2.getKey());　　//单次出现频率相同时，对单词进行升序排列
15         } else {
16return -1;
17        }
18    }
19 }

　　3.与上一次相比，为了方便调用，将对文件进行统计操作的代码归入新的类FileProccessing。同时将readline()改为read(char[] c)，解决了当一行字符过多时报错的问题。当进行统计的文件过大时，原本输出到屏幕会自动改为输出到文件中，避免了因输出而占用了大部分时间，同时方便用户查阅（默认输出到工程目录下）。

　　其中有个小细节：程序中char数组默认大小为64，当读到最后一块时，字符不足64个时，多余未读入字符的数组元素默认为‘\0‘，拆分之后输出结果中会多出一项“ ——1”。因此，在StringTokenizer方法中要录入"\0"作为分隔字符。

　　读入文件并进行统计，结果存入到hashmap中：

             1
            int i = 0;
 2char[] c = newchar[64];
 3         String thelast = "";
 4         String wordpart = "";
 5while ((i = br.read(c)) > 0) {
 6             wordpart = "";
 7 8int m = i - 1;
 9while (Character.isLetter(c[m])) {
10                 wordpart = String.valueOf(c[m]) + wordpart;
11                 c[m] = ‘ ‘;
12                 m--;
13            }
14             String s = thelast + String.valueOf(c);
15             StringTokenizer st = new StringTokenizer(s, " ,.!?\"\‘;:0123456789\n\r\t“”‘’·——-=*/()[]{}…（）【】｛｝\0"); // 用于切分字符串1617while (st.hasMoreTokens()) {
18                 String word = st.nextToken();
19if (hm.get(word) != null) {
20int value = ((Integer) hm.get(word)).intValue();
21                     value++;
22                     hm.put(word, new Integer(value));
23                 } else {
24                     hm.put(word, new Integer(1));
25                }
26            }
27             thelast = wordpart;
28        }
29if (!wordpart.isEmpty()) {
30if (hm.get(wordpart) != null) {
31int value = ((Integer) hm.get(wordpart)).intValue();
32                 value++;
33                 hm.put(wordpart, new Integer(value));
34             } else {
35                 hm.put(wordpart, new Integer(1));
36            }
37         }

　　判断输出内容多少，自动匹配标准输出还是文件输出。其中运用了正则替换，用来打印当前文件名。同时还对总单词量及词汇量进行了统计：

             1
            int NumofWord = 0;
 2         Iterator iter = hm.entrySet().iterator();
 3while (iter.hasNext()) {
 4             Map.Entry entry = (Map.Entry) iter.next();
 5             NumofWord += (Integer) entry.getValue();
 6        }
 7         String reg = ".*\\\\(.*)";
 8         String name = filename.replaceAll(reg, "$1");
 9if (hm.size() > 100) {
1011             FileWriter result = new FileWriter("Result.txt", true);
1213             result.write("~~~~~~~~~~~~~~~~~~~~\r\n");
14             result.write(name.substring(0, name.lastIndexOf(".")) + "\r\n");
15             result.write("number of the words:" + NumofWord + "\r\n");
16             result.write("totals:" + hm.size() + "\r\n");
17for (Map.Entry<String, Integer> str : ll) {
18                 result.write(str.getKey() + "——" + str.getValue() + "\r\n");
19            }
2021             result.write("~~~~~~~~~~~~~~~~~~~~\r\n");
2223             System.out.println("由于" + name.substring(0, name.lastIndexOf(".")) + "文件过大，输出到文件Result中。");
24            result.close();
25         } else {
26             System.out.println("~~~~~~~~~~~~~~~~~~~~");
27             System.out.println(name.substring(0, name.lastIndexOf(".")));
28             System.out.println("number of the words:" + NumofWord);
29             System.out.println("totals:" + hm.size());
30for (Map.Entry<String, Integer> str : ll) {
31                 System.out.println(str.getKey() + "——" + str.getValue());
32            }
3334             System.out.println("~~~~~~~~~~~~~~~~~~~~");
35         }

运行结果：

　　1.命令行标准输入界面：

技术分享

　　2.执行结果：

技术分享

　　3.控制台界面：

技术分享

　　4.命令行传入文件：

技术分享

　　5.同时传入大文件及文件夹：

　　技术分享

　　6.重定向输入：

技术分享

代码地址：

　　HTTPS https://coding.net/u/regretless/p/WordFrequencyCount/git

　　SSH git@git.coding.net:regretless/WordFrequencyCount.git

　　GIT git://git.coding.net/regretless/WordFrequencyCount.git

原文：http://www.cnblogs.com/regretless/p/5864907.html

内容总结

以上是互联网集市为您收集整理的Java实现的词频统计——功能改进全部内容，希望文章能够帮你解决Java实现的词频统计——功能改进所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1077121.html

来源：【匿名】

【上一篇】JAVA位运算【下一篇】JAVA/JSP学习系列之五

更多 ►

【Java实现的词频统计——功能改进】教程文章相关的互联网学习教程文章

package com.zy; import java.io.IOException;import org.apache.commons.lang.time.StopWatch; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.Delete; import org.apache.hadoop.hbase.client.Get; import org.apache.hadoop.hbase.client.HBaseAdmin; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Put; imp...

Java生成二维码实现扫描次数统计并转发到某个地址

需求:近几天某个项目需要用户录入个自己的网址,然后系统需要根据用户的的网址生成二维码,然后用户可以拿着它给别人扫描,访问到他录入的网址,在这个过程中.我需要知道用户的二维码被扫描的次数,也就是后面根据其可以做一些扫描排名之类的.思路:先生成二维码,csdn已经有前辈写了,那么我就直接拿过来用了. 将用户的id,和用户录入的网址处理之后作为http get参数封装到二维码中,然后用户扫描会自动跳转到我们系统的某个接口在接口中根据...

java-统计一段句子中各单词出现的次数

问题：统计一段句子中各单词出现的次数。思路：1、使用split方法将文章进行分割，我们这里以空格、逗号和句点为分隔符，然后存到一个字符串数组中。2、创建一个hashMap集合，key是字符串类型，保存单词；value是数字类型，保存该单词出现的次数。3、遍历思路1中的字符串数组，如果key（单词）没有出现过，map中增加一个元素，key为该单词，定义value为1；如果key（单词）出现过，那么value的值加1。4.遍历输入key及其对应的value值...

Java web 实现之 Filter分析ip统计网站的访问次数【代码】

统计工作需要在所有资源之前都执行，那么就可以放到Filter中了。我们这个过滤器不打算做拦截操作！因为我们只是用来做统计的。用什么东西来装载统计的数据。Map<String,Integer>整个网站只需要一个Map即可！Map什么时候创建（使用ServletContextListener，在服务器启动时完成创建，并只在到ServletContext中），Map保存到哪里！（Map保存到ServletContext中！！！） Map需要在Filter中用来保存数据Map需要在页面使用，打印Map中的数...

Java web 实现之 Filter分析ip统计网站的访问次数【代码】【图】

hdu 2017 字符串统计(java)【代码】

问题：本题主要是对字符串输入的处理：String a=cin.next();char [] s=a.toCharArray();字符串统计Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 51624 Accepted Submission(s): 28327Problem Description对于给定的一个字符串，统计其中数字字符出现的次数。 Input输入数据有多行，第一行是一个整数n，表示测试实例的个数，后面跟着n行，每行包括一个由字母和数...

java面试题：如果一串字符如"aaaabbc中国1512"要分别统计英文字符的数量，中文字符的数量，和数字字符的数量，假设字符中没有中文字符、英文字符、数字字符之外的其他特殊字符。【代码】【图】

package com.swift;publicclass TotalNumber_String {publicstaticvoid main(String[] args) {/** 如果一串字符如"aaaabbc中国1512"要分别统计英文字符的数量，中文字符的数量，和数字字符的数量，* 假设字符中没有中文字符、英文字符、数字字符之外的其他特殊字符。*/String str="aaaabbc中国1512";int engishCount = 0;int chineseCount = 0;int digitCount = 0;for(int i=0;i<str.length();i++){char ch = str.charAt(i);if(Cha...

Java统计文件中字母个数【代码】【图】

import java.text.DecimalFormat; import java.io.File; import java.io.FileReader; import java.io.BufferedReader; import java.io.IOException; import java.io.FileNotFoundException; public class zimu {private void HandleLetter(File file)throws IOException,FileNotFoundException{DecimalFormat df = new DecimalFormat("#0.00");if(file.length()>0){int[] iNum=new int[26];FileReader fr=new FileReader(file);Buf...

Java实验--统计字母出现频率及其单词个数【代码】【图】

本周的实验要求在之前实现统计单词的基础之上(可以见之前博客的统计单词的那个实验)，对其进行修改成所需要的格式，统计字母出现频率的功能，并按照一定的格式把最终结果的用特定的格式在文本中显示出来统计过程的实现并不太麻烦，在原来的基础上导入导出函数的基础上修改成通用的类型，统计单词的那一部分的单个字符读取那一段加上统计字母的情况，并加上判断把大小写字母统一起来。同时，在统计单词的那里加上一个无用字母的表格...

Java实现的词频统计——功能改进【代码】【图】

本次改进是在原有功能需求及代码基础上额外做的修改，保证了原有的基础需求之外添加了新需求的功能。功能：　　1. 小文件输入——从控制台由用户输入到文件中，再对文件进行统计；　　2.支持命令行输入英文作品的文件名；　　3.支持命令行输入存储有英文作品文件的目录名，批量统计；　　4.从控制台读入英文单篇作品，重定向输入流。实现：　　1.判断输入方式，如果从命令行传递参数则直接对文件进行统计；如果未传递参数，其方式同...

java 每日习题（七）统计字符串中字母、空格、数字和其它字符的个数【代码】

题目：输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数。先把String转化成array，再通过Character中的几个方法对每个char进行判断。下面是Character类的介绍：Character 类在对象中包装一个基本类型 char 的值。Character 类型的对象包含类型为 char 的单个字段。此外，该类提供了几种方法，以确定字符的类别（小写字母，数字，等等），并将字符从大写转换成小写，反之亦然。 package everyDay;import java...

javaEE之-------统计站点刷新量【代码】

每一个站点都有自己的统计訪问量，可是少不了server会出现意外情况，（如断电。。）所以就须要我们在站点挂机的前段时间将这个数据存起来。我们就须要用到站点最大的容器，application,我们採用观察者设计模式实现ServletContextListener接口。然后在销毁之前将这个数据存起来ps:属于点点知识。大牛请绕道。开发步骤：第一步：实现ServletContextListener接口。第二步：实现两个方法。contextInitializedcontextDestroyed 第三步：...

javaApi,mapreduce,awk,scala四种方式实现词频统计【代码】

awk方式实现词频统计：方式一： vi wordcount.awk {for (i = 1; i <=NF;i++) //NF 表示的是浏览记录的域的个数 freq[$i]++ } END{for(word in freq) //printf "%s%d\n",word,freq[word] // } 运行：awk -f wordcount.awk words.txt; ---------------------------------- 方式二：运行方式二： vi wordcount_awk.sh #!/bin/sh awk -F " " ‘{for (i = 1; i<=NF; i++) freq[$i]++ } END{for (word in freq)printf "%s%d\n",word,fr...

Java-Hadoop-工作统计

我使用hadoop在集群上运行map-reduce应用程序.这些工作大约需要10个小时才能每天完成.我想知道每项工作所花费的时间,以及最长的工作等所花费的时间.因此,我可以优化这些工作.是否有任何插件或脚本可以做到这一点？谢谢巴拉解决方法:看一下http：//：50030或http：//：50030 / jobhistory.jsp(在底部. 每个工作/任务/任务部分都有一个分析(映射,排序,缩小).很方便.您可以编写自己的日志-我只是“获取”所有Analysis-Pages,并将其通...

[原创]java WEB学习笔记92：Hibernate学习之路-- -QBC 检索和本地 SQL 检索：基本的QBC 查询，带 AND 和 OR 的QBC，统计查询，排序，分页【代码】【图】

内容难免出现问题，欢迎指正，交流，探讨，可以留言，也可以通过以下方式联系。本人互联网技术爱好者，互联网技术发烧友微博：伊直都在0221 QQ：951226918 ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 1...

首页 / JAVA / Java实现的词频统计——功能改进

Java实现的词频统计——功能改进

内容导读

内容图文

内容总结

内容备注

内容手机端

【Java实现的词频统计——功能改进】教程文章相关的互联网学习教程文章

Hbase Java API包括协处理器统计行数【代码】

Java生成二维码实现扫描次数统计并转发到某个地址

java-统计一段句子中各单词出现的次数

Java web 实现之 Filter分析ip统计网站的访问次数【代码】

Java web 实现之 Filter分析ip统计网站的访问次数【代码】【图】

hdu 2017 字符串统计(java)【代码】

java面试题：如果一串字符如"aaaabbc中国1512"要分别统计英文字符的数量，中文字符的数量，和数字字符的数量，假设字符中没有中文字符、英文字符、数字字符之外的其他特殊字符。【代码】【图】

Java统计文件中字母个数【代码】【图】

Java实验--统计字母出现频率及其单词个数【代码】【图】

Java实现的词频统计——功能改进【代码】【图】

java 每日习题（七）统计字符串中字母、空格、数字和其它字符的个数【代码】

javaEE之-------统计站点刷新量【代码】

javaApi,mapreduce,awk,scala四种方式实现词频统计【代码】

Java-Hadoop-工作统计

[原创]java WEB学习笔记92：Hibernate学习之路-- -QBC 检索和本地 SQL 检索：基本的QBC 查询，带 AND 和 OR 的QBC，统计查询，排序，分页【代码】【图】

统计 - 相关标签

功能 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程