首页 / 算法 / php一元分词算法实例代码
php一元分词算法实例代码
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了php一元分词算法实例代码,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1986字,纯文字阅读大概需要3分钟。
内容图文
![php一元分词算法实例代码](/upload/InfoBanner/zyjiaocheng/143/f7322e82693745269040554a620467ba.jpg)
代码如下:
/** * 一元分词算法 * 可以使用mysql查询语句 show variables like '%ft%' 查看mysql全文搜索相关设置 * * @access global * @param string $str * @param boolean $unique 是否去除重复值 * @param boolean $merge 是否合并附加值 * @return array */ function seg_word($str,$unique=false,$merge=true) { $str = trim(strip_tags($str)); $strlen = strlen($str); if($strlen == 0) return array(); $spc = ' '; //按需增加需要过滤的字符 $search = array(',', '/', '\\', '.', ';', ':', '\'', '!', '~','"', '`', '^', '(', ')', '?', '-', "\t", "\n", '\'', '<', '>', "\r", "\r\n", '\$', '&', '%', '#', '@', '+', '=', '{', '}', '[', ']', ')', '(', '.', '。', ',', '!', ';', '“', '”', '‘', ''', '[', ']', '、', '—', ' ', '《', '》', '-', '…', '【', '】',':'); $numpairs = array('1'=>'一','2'=>'二','3'=>'三','4'=>'四','5'=>'五','6'=>'六','7'=>'七','8'=>'八','9'=>'九','0'=>'零'); $str = alab_num($str); $str = str_replace($search,' ',$str); $ord = $i = $k = 0; $prechar = 0;// 0-空白 1-英文和符号 2-中文 $result = array(); $annex = array(); while($ord = ord($str[$i])) { //1字节字符 if ($ord <= 0xC0 ) { //去除空字符串 if($ord < 33) { $prechar=0; $i++; $k++; continue; } //附加中文大写数字转换 if(isset($numpairs[$str[$i]])) { $annex[]=$numpairs[$str[$i]]; } //如果前面是中文 if( $prechar == 2 ){ $result[++$k] = $str[$i]; } else { $result[$k] .= $str[$i]; } $prechar = 1; $i++; } else //2-3字节字符(中文) { if($ord < 0xE0) $step = 2; else $step = 3; $c = substr($str,$i,$step); if(false !== $key = array_search($c,$numpairs)){ $annex[] = $key; } if ($prechar != 0) { $result[++$k] = $c; } else { $result[$k] .= $c; } $prechar = 2; $i+=$step; } } $result = $merge ? array_merge($result,$annex) : $result ; return $unique ? array_unique($result) : $result ; }
以上就是php 一元分词算法实例代码的详细内容,更多请关注Gxl网其它相关文章!
内容总结
以上是互联网集市为您收集整理的php一元分词算法实例代码全部内容,希望文章能够帮你解决php一元分词算法实例代码所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。