js实现敏感词过滤算法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了js实现敏感词过滤算法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3562字，纯文字阅读大概需要6分钟。

内容图文

本文转载于:猿2048网站?https://www.mk2048.com/blog/blog.php?id=hkbk21i00j

大半个月没有更新了，因为最近有点忙（其实是懒）

最近弄了一个用户发表评论的功能，用户上传了评论，再文章下可以看到自己的评论，但作为社会主义接班人，践行社会主义核心价值观，所以给评论敏感词过滤的功能不可少，在网上找了资料，发现已经有非常成熟的解决方案。常用的方案用这么两种

全文搜索，逐个匹配。这种听起来就不够高大上，在数据量大的情况下，会有效率问题，文末有比较
DFA算法-确定有限状态自动机附上百科链接确定有限状态自动机

DFA算法介绍

DFA是一种计算模型，数据源是一个有限个集合，通过当前状态和事件来确定下一个状态,即?状态+事件=下一状态，由此逐步构建一个有向图，其中的节点就是状态，所以在DFA算法中只有查找和判断，没有复杂的计算，从而提高算法效率

参考文章?Java实现敏感词过滤

实现逻辑

构造数据结构

将敏感词转换成树结构，举例敏感词有着这么几个 ['日本鬼子','日本人','日本男人']，那么数据结构如下（图片引用参考文章）

每个文字是一个节点，连续的节点组成一个词，日本人对应的就是中间的那条链，我们可以使用对象或者map来构建树，这里的栗子采用map构建节点，每个节点中有个状态标识，用来表示当前节点是不是最后一个，每条链路必须要有个终点节点，先来看下构建节点的流程图

判断逻辑

先从文本的第一个字开始检查，比如你我是日本鬼子，第一个字 你，在树的第一层找不到这个节点，那么继续找第二个字，到了日的时候，第一层节点找到了，那么接着下一层节点中查找本，同时判断这个节点是不是结尾节点，若是结尾节点，则匹配成功了，反之继续匹配

代码实现

####构造数据结构

/**
* @description
* 构造敏感词map
* @private
* @returns
*/
private makeSensitiveMap(sensitiveWordList) {
    // 构造根节点
    const result = new Map();
    for (const word of sensitiveWordList) {
        let map = result;
        for (let i = 0; i < word.length; i++) {
            // 依次获取字
            const char = word.charAt(i);
            // 判断是否存在
            if (map.get(char)) {
                // 获取下一层节点
                map = map.get(char);
            } else {
                // 将当前节点设置为非结尾节点
                if (map.get('laster') === true) {
                    map.set('laster', false);
                }
                const item = new Map();
                // 新增节点默认为结尾节点
                item.set('laster', true);
                map.set(char, item);
                map = map.get(char);
            }
        }

    }
    return result;
}

最终map结构如下

查找敏感词

/**
* @description
* 检查敏感词是否存在
* @private
* @param {any} txt
* @param {any} index
* @returns
*/
private checkSensitiveWord(sensitiveMap, txt, index) {
    let currentMap = sensitiveMap;
    let flag = false;
    let wordNum = 0;//记录过滤
    let sensitiveWord = ''; //记录过滤出来的敏感词
    for (let i = index; i < txt.length; i++) {
        const word = txt.charAt(i);
        currentMap = currentMap.get(word);
        if (currentMap) {
            wordNum++;
            sensitiveWord += word;
            if (currentMap.get('laster') === true) {
                // 表示已到词的结尾
                flag = true;
                break;
            }
        } else {
            break;
        }
    }
    // 两字成词
    if (wordNum < 2) {
        flag = false;
    }
    return { flag, sensitiveWord };
}
/**
* @description
* 判断文本中是否存在敏感词
* @param {any} txt
* @returns
*/
public filterSensitiveWord(txt, sensitiveMap) {
    let matchResult = { flag: false, sensitiveWord: '' };
    // 过滤掉除了中文、英文、数字之外的
    const txtTrim = txt.replace(/[^\u4e00-\u9fa5\u0030-\u0039\u0061-\u007a\u0041-\u005a]+/g, '');
    for (let i = 0; i < txtTrim.length; i++) {
        matchResult = checkSensitiveWord(sensitiveMap, txtTrim, i);
        if (matchResult.flag) {
            console.log(`sensitiveWord:${matchResult.sensitiveWord}`);
            break;
        }
    }
    return matchResult;
}

效率

为了看出DFA的效率，我做了个简单的小测试，测试的文本长度为5095个汉字，敏感词词库中有2000个敏感词，比较的算法分别为 DFA算法和 String原生对象提供的 indexOfAPI做比较

// 简单的字符串匹配-indexOf
ensitiveWords.forEach((word) => {
    if (ss.indexOf(word) !== -1) {
        console.log(word)
    }
})

分别将两个算法执行100次，得到如下结果

可直观看出，DFA的平均耗时是在1ms左右,最大为5ms；indexOf方式的平均耗时在9ms左右,最大为14ms，所以DFA效率上还是非常明显有优势的。

内容总结

以上是互联网集市为您收集整理的js实现敏感词过滤算法全部内容，希望文章能够帮你解决js实现敏感词过滤算法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/671712.html

来源：【匿名】

【上一篇】JavaScript 比较浮点数的相等【下一篇】javascript 怎么调用php方法

更多 ►

【js实现敏感词过滤算法】教程文章相关的互联网学习教程文章

页面中实现录音需要使用浏览器提供的 Media?Recorder API，所以前提是需要浏览器支持 MediaStream Recording 相关的功能。以下代码默认工作在 Chrome 环境中。准备页面首先准备一个页面，其中内容很简单，两个按钮，一个用于录音，一个用于播放。<!DOCTYPE html> <htmllang="en"> <head><metacharset="UTF-8"><metaname="viewport"content="width=device-width, initial-scale=1.0"><metahttp-equiv="X-UA-Compatible"content="ie=...

Mongodb使用shell实现与javascript的动态交互【图】

关于利用mongodb的shell执行脚本，这点在以前的文章中有点遗漏；现在在此篇博客中做个补充；一、在命令行中传入脚本文件定义一个javasciprt文件，名称为：script1.js，内容如下： print("I am albert shao in the script1.js") 定义另一个javascript文件，名称为script2,内容如下：print("I like to read and study") 在命令窗口运行得到如下结果：备注：脚本文件必须放到mongo的同目录文件下如果希望使用指定的主机和端口的mon...

JavaScript继承的实现【代码】【图】

JavaScript继承有构造函数继承、原型继承、复制继承、构造函数/原型组合继承等方法，这些继承方法各有特点。眼下最经常使用的就是构造函数/原型组合继承。/*** 实现继承* @param subType {Function} 子类构造函数* @param superType {Function} 父类构造函数*/functioninherit(subType, superType){functionF(){}F.prototype = superType.prototype;var p = new F();p.constructor = subType;subType.prototype = p; }/***...

asp.net 实现动态显示当前时间(不用javascript不考虑开销)

Default.aspx页面：先拉一个ScriptManager控件到页面，然后拉一个UpdatePanel控件。UpdatePanel里面放一个Label用于显示时间，放一个timer控件用于控制时间的更新。注意Label与Label都要放到UpdatePanel控件里面。最后，timer控件的Interval属性设置为1000，让它每1秒执行一次即更新时间。 Default.aspx.cs页面：只需在 protected void Page_Load(object sender, EventArgs e) 里面输入 Label1.Text = DateTime.Now.ToString(); 即...

javascript实现简单的动画功能

//在第二个函数positionMessage中设置初始位置与终点，新建html文件是，元素ID为message。function addLoadEvent(func) { var oldonload = window.onload; if (typeof window.onload != ‘function‘) { window.onload=func;}else{ window.onload = function(){ oldonload(); func(); } }}function positionMessage() { if (!document.getElementById) {return false;} if (!document.get...

JavaScript如何实现继承【代码】【图】

// 原型方式的‘继承‘ function Person(name) { //定义一个Person的构造函数 this.name = name; //添加属性 } Person.prototype.showName=function () { //添加方法 return this.name; }; function Worker(name,job) { Person.apply(this,arguments); //属性的‘继承‘ this.job=job; } Worker.prototype=new Person(); //方法的‘继承‘ Worker.prototype.showJob=function () { return this.job; }; var p1=new Person(‘abc‘)...

iOS中使用JavaScriptCore实现Objective-C和JavaScript的相互调用【代码】【图】

最近看了一个对Github上面编程语言使用统计的排行榜，JavaScript真可以说是一枝独秀，很难想象20年前，这个语言只是浏览器中的装饰性语言，能做的事情也就是一点特效或者检查一下要提交给服务器的表单是否满足要求。今天的JavaScript已经是一个全栈语言，从客户端到服务器无所不在。很多编程语言都提供了跟JavaScript进行交互的接口，这一点在iOS开发中也不例外。 ??iOS7以前，在App中调用JavaScript的方式只有一种，就是通过UIWe...

javascript实现保留两位小数的多种方法

这篇文章主要介绍了javascript实现保留两位小数的多种方法，如果数字的原本小数位数不到两位，那么缺少的就自动补零，感兴趣的小伙伴们可以参考一下第一种方法：javascript实现保留两位小数一位自动补零代码实例:第一种方法介绍一下如何实现对数字保留两位小数效果，如果数字的原本小数位数不到两位，那么缺少的就自动补零，这个也是为了统一的效果，先看代码实例:?12345678910111213141516functionreturnFloat(value){ varvalue=M...

实现简单的网页登录注册功能 (使用html和css以及javascript技术) 没有美化的日后补全【代码】【图】

<!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>账号注册</title><style>select {width: 100px;padding: 5px;font-size:16px;}</style> </head> <body>  <form action="demo01.html"method="post"> <p>账号:<input type="text"name="userCode"required placeholder="请输入账号:...

实现JavaScript forEach【代码】

JavaScript图表库实现密度和抖动图【代码】【图】

Highcharts是一款纯JavaScript编写的图表库，为你的Web网站、Web应用程序提供直观、交互式图表。当前支持折线、曲线、区域、区域曲线图、柱形图、条形图、饼图、散点图、角度测量图、区域排列图、区域曲线排列图、柱形排列图、极坐标图等几十种图表类型。【慧都网】可免费高速下载Highcharts最新试用版在过去的文章中，我向您展示了如何创建具有抖动的密度图和箱形图以可视化数据分布。你猜怎么了？还有其他吸引人的方法可以显示数...

使用JavaScript实现使用鼠标画线的效果【代码】

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><title>Untitled 1</title><style type="text/css"> .style1 { font-size: x-small;}</style><script type="text/javascript">/**画点 */function makedot(x, y){ pointDi...

65行 JavaScript 代码实现 Flappy Bird 游戏

飞扬的小鸟（Flappy Bird）无疑是2014年全世界最受关注的一款游戏。这款游戏是一位来自越南河内的独立游戏开发者阮哈东开发，形式简易但难度极高的休闲游戏，很容易让人上瘾。　　这里给大家分享一篇这款游戏的 HTML5 版制作教程，借助 Phaser 框架，只需65行 JavaScript 代码即可实现。简单的不能再简单！这才是境界，这才是高手！编程也是一样，几行代码能实现就别去写几十行，显摆什么！到头来只会发现越来越不会...

Javascript实现图片的预加载的完整实现【代码】

图片预加载是web开发中一种应用相当广泛的技术，比如我们在做图片翻转显示等特效的时候，为了让图片在转换的时候不出现等待，我们最好是先让图片下载到本地，然后在继续执行后续的操作。今天我们将来实现一个完整的图片预加载和处理图片加载后执行后续操作的代码。下面的函数实现了一个我们想要的最基本的图片预加载效果 function preloadimages(arr){var newimages=[]var arr=(typeof arr!="object")? [arr] : arr //确保参数总...

Java8 Nashorn实现Java调用javascript代码【代码】

最近项目需要，利用java执行动态语言，首先想到的是支持js。1.从打印Hello World开始Java8 引入Nashorn实现javascript调用，比如使用java运行一段js实现“Hello World”打印：package com.iflytek.research.jsdemo;import javax.script.ScriptEngine; import javax.script.ScriptEngineManager; import javax.script.ScriptException;public class NashornTest {public static void main(String[] args) {// 加载nashorn执行引擎Sc...

首页 / JAVASCRIPT / js实现敏感词过滤算法

js实现敏感词过滤算法

内容导读

内容图文

DFA算法介绍

实现逻辑

构造数据结构

判断逻辑

代码实现

查找敏感词

效率

内容总结

内容备注

内容手机端

【js实现敏感词过滤算法】教程文章相关的互联网学习教程文章

JavaScript 实现页面中录音功能【代码】【图】

Mongodb使用shell实现与javascript的动态交互【图】

JavaScript继承的实现【代码】【图】

asp.net 实现动态显示当前时间(不用javascript不考虑开销)

javascript实现简单的动画功能

JavaScript如何实现继承【代码】【图】

iOS中使用JavaScriptCore实现Objective-C和JavaScript的相互调用【代码】【图】

javascript实现保留两位小数的多种方法

实现简单的网页登录注册功能 (使用html和css以及javascript技术) 没有美化的日后补全【代码】【图】

实现JavaScript forEach【代码】

JavaScript图表库实现密度和抖动图【代码】【图】

使用JavaScript实现使用鼠标画线的效果【代码】

65行 JavaScript 代码实现 Flappy Bird 游戏

Javascript实现图片的预加载的完整实现【代码】

Java8 Nashorn实现Java调用javascript代码【代码】

算法 - 相关标签

JAVASCRIPT - 技术教程分类

JAVASCRIPT - 最新教程

JAVASCRIPT - 最热教程