java – 什么是最准确的编码检测器?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了java – 什么是最准确的编码检测器?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1001字,纯文字阅读大概需要2分钟。
内容图文
![java – 什么是最准确的编码检测器?](/upload/InfoBanner/zyjiaocheng/715/6219805b09684ac0b69c03de1f78e5b0.jpg)
经过一定的调查,我发现java世界中有一些编码检测项目,如果InputStreamReader中的getEncoding不起作用:
> juniversalchardet
> jchardet
> cpdetector
> ICU4J
但是,我真的不知道哪一个是最好的.任何有实践经验的人都可以告诉我哪一个是最好的Java?
解决方法:
我在一些CSV文件上检查了juniversalchardet和ICU4J,结果不一致:
juniversalchardet有更好的结果:
> UTF-8:都检测到了.
> Windows-1255:当它有足够的希伯来字母时检测到juniversalchardet,ICU4J仍然认为它是ISO-8859-1.随着更多的希伯来字母,ICU4J将其检测为ISO-8859-8,这是另一种希伯来语编码(因此文本没问题).
> SHIFT_JIS(日语):检测到juniversalchardet,ICU4J认为它是ISO-8859-2.
> ISO-8859-1:由ICU4J检测,juniversalchardet不支持.
因此,应该考虑他最有可能要处理的编码.
最后我选择了ICU4J.
请注意,仍然维护ICU4J.
另请注意,您可能希望使用ICU4J,并且如果它因为未成功而返回null,请尝试使用juniversalchardet.或者相反.
AutoDetectReader的AutoDetectReader就是这样 – 首先尝试使用HtmlEncodingDetector,然后使用UniversalEncodingDetector(基于juniversalchardet),然后尝试使用Icu4jEncodingDetector(基于ICU4J).
内容总结
以上是互联网集市为您收集整理的java – 什么是最准确的编码检测器?全部内容,希望文章能够帮你解决java – 什么是最准确的编码检测器?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。