首页 / 正则 / PHP中使用正则表达式提取中文实现笔记_PHP

PHP中使用正则表达式提取中文实现笔记_PHP

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了PHP中使用正则表达式提取中文实现笔记_PHP，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2182字，纯文字阅读大概需要4分钟。

内容图文

最近老板叫做一个数据查重的小练习，涉及从一个包含中文字段的文件中提取出其中的中文字段并存储，使用php开发。中间涉及到php正则表达式中文匹配的问题，网上搜罗一大片，但是也很乱没有一个准信儿，经过自己的代码的修改和检验，先将extract函数写下。

首先要注意到的是，双字节字符的编码问题，这里我们以后还可能会遇到像韩文、日文等编码问题，与中文理解上是一个意思。

1. GBK (GB2312/GB18030)

代码如下:

\x00-\xff GBK双字节编码范围
\x20-\x7f ASCII
\xa1-\xff 中文 gb2312
\x80-\xff 中文 gbk

2. UTF-8 (Unicode)

代码如下:

\u4e00-\u9fa5 (中文)
\x3130-\x318F (韩文
\xAC00-\xD7A3 (韩文)
\u0800-\u4e00 (日文)

在Notepad++下面，我们可以首先进行测试我们的正则书写的错误与否。第一个表达式我是使用[\u4e00-\u9fa5]+来检验的，+号表示不止一个

PHP中使用正则表达式提取中文实现笔记_PHP - 文章图片

匹配符。结果与预期相同，那么，是否在脚本中就可以使用这个正则了呢？

我们测试一下，我们使用preg_match_all(‘/[\u4e00-\u9fa5]+/', $subject,$matches)调用，然后你却看到了这么一个结果：Compilation failed: PCRE does not support \L, \l, \N{name}, \U, or \u at offset 2。。。。是不是很头大？？这究竟是什么原因？

查阅了很多资料后发现，u (PCRE_UTF8)，就是上面的PCRE，这是是一个Perl库，包括 perl 兼容的正规表达式库。此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用，在 win32 下自 PHP 4.2.3 起可用。而php正则表达式对于十六进制数据的表达方式上也有所不同，在php中，是用\x表示十六进制数据的。下面我们就将代码优化一下，检测函数变为：

代码如下:

class storeDataAdapter extends Store{
private $dsData;
/**
* 数据转换函数，调用preg_match_all根据$pattern正则来进行数值匹配，并将返回的结果以数组形式存储在$matches中，
* $matches[0]将包含与整个模式匹配的文本，$matches[1] 将包含与第一个捕获的括号中的子模式所匹配的文本，以此类推
* @see Store::data_convert()
*/
public function data_convert($pattern,$subject) {
$matches=array();
if (preg_match_all($pattern, $subject,$matches)){
return $matches[0];
}else
{
return null;
}
}
}

调用的时候变为：

代码如下:

$store=new storeDataAdapter($txtContent);
$match=array();
$dsName=$store->data_convert(‘/[\x7f-\xff]+/',$txtContent);
foreach ($dsName as $val){
echo $val."
";
}

输入文件为：

PHP中使用正则表达式提取中文实现笔记_PHP - 文章图片

，下面是提取出中文之后的输出文件内容：

PHP中使用正则表达式提取中文实现笔记_PHP - 文章图片

，符合预期需求。

内容总结

以上是互联网集市为您收集整理的PHP中使用正则表达式提取中文实现笔记_PHP全部内容，希望文章能够帮你解决PHP中使用正则表达式提取中文实现笔记_PHP所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/254044.html

来源：【匿名】

【上一篇】php使用正则表达式进行字符串搜索的方法_PHP 【下一篇】正则表达式语法

更多 ►

【PHP中使用正则表达式提取中文实现笔记_PHP】教程文章相关的互联网学习教程文章

java中常用的正则表达式及示例

转义字符想要匹配某些具体的特殊符号，比如+[.?^{|\，需要在前面加上一个转义字符\ 。比如通过 \. 去匹配.号。元字符：由于元字符一般会放在字符串中，所以需要转义，也就是\会变成 \\ 。. .可以匹配除换行符之外的任何单字符。比如.*表示任意个非换行符\n的字符。而.l+.则表示以任意非\n开始，中间包含至少一个l字符，并且以任意非\n字符结束。^和$ ^匹配字符串的开始位置。而$匹配字符串的结尾位置。^cat : 字符串以c开头紧接着...

js正则表达式

概念正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。简介正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字...

VBS教程：正则表达式简介 -字符匹配【代码】

字符匹配句点 (.) 匹配一个字符串中任何单个的打印或非打印字符，除了换行符 (\n) 之外。下面的 Visual Basic Scripting Edition 正则表达式可以匹配 ‘aac‘、‘abc‘、‘acc‘、‘adc‘如此等等，同样也可以匹配 ‘a1c‘、‘a2c‘、a-c‘以及 a#c‘： /a.c/等价的 VBScript 正则表达式为："a.c"如果试图匹配一个包含文件名的字符串，其中句点 (.) 是输入字符串的一部分，则可以在正则表达式中的句点前面加上一个反斜杠 (\) 字符来...

正则表达式

1.string s="@张三 @李四 ";获取“张三”和“李四”MatchCollection mc = Regex.Matches(s, @"@(?<truename>\S+)[ |　]");for (int i = 0; i < mc.Count; i++) //在输入字符串中找到所有匹配 {var trueName=mc[i].Groups["truename"].Value); } 2.string s="张三：say something<br/>李四：say something<br/>替换成"<a name=‘AtTrueName‘>张三</a>：say something<br/><a name=‘AtTrueName‘>李四</a>：...

PHP正则表达式的逆向引用与子模式 php preg_replace应用

mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])功能在 subject 中搜索 pattern 模式的匹配项并替换为 replacement。如果指定了 limit，则仅替换 limit 个匹配，如果省略 limit 或者其值为 -1，则所有的匹配项都会被替换。replacement可以包含\\n形式或$n形式的逆向引用，n可以为0到99，\\n表示匹配pattern第n个子模式的文本，\\0表示匹配整个pattern的文本。子模式$pattern参数中被圆括号括...

正则表达式【代码】【图】

常用正则表达式操作符. ：表示任何单位个字符[ ]：字符集，表示对单个字符给出取值范围，[abc]表示a，b，c，[a-z]表示a到z单个字符[^ ]：非字符集，对单个给出排除范围，[^abc]表示非a或非b或非c的单个字符*：前一个字符0次或者无限次扩展，*abc表示ab abc abcc abccc等+：前一个字符1次或者无限次扩展？：前一个字符o次或者1次扩展|：左右表达式任意一个，abc|edf表示abc 或者def 当字符串中有转义字符是建议使用原生字符串raw st...

正则表达式的基本应用

比如有三个单词 hi nihi wohime 如果我们需要匹配到hi可以直接输入hi 匹配，但是我们注意到这样匹配会把hi nihi wohime 三个单词里面的hi同事匹配到。(注意：这里输出为hi hi hi 三个hi). 如果我们只想要匹配到只含有hi的这个单词，也就是h开头i结尾中间没有任何其他单词。就需要使用\b: 用法\bhi\b (这里表示配置h开头i结尾中间没有任何其他单词的也就是hi这个单词) \b :一般成之为元字符，相当于一个占位符，...

判断汉字正则表达式更严谨方法！【图】

一、通常做法正如网上流传的，判断中文的正则表达式，绝大部分是这么写的（OC语言）：NSPredicate* predicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@",@"[\u4e00-\u9fa5]"]; /*判断是否为中文的正则表达式*/ if([predicate evaluateWithObject:name]){//是中文 }else{//不是中文 }然而上面的正则表达式，逻辑上讲其实不太严谨：比如一些生僻字的Unicode不在0x4e00-0x9FA5之间，那么它不能正确识别出来：比如一些四...

正则表达式使用集锦【图】

正则表达式的使用是一直是一个另人头痛的问题，因其语法和使用规则没有很强的规范，也因没有系统的学习过，只是工作中需要到了才拿来用一下。现在把用到的点拿来备注一下，不用到时候用的时候再重新学习了。1.正则表达式中匹配特定的字符结尾在做url 跳转时需要把一个url 地址跳转到一个指定的文件处当目录中含有 /1001/ 且以/1001/结尾时，这里的1001只是把数字具体化了，这样看起来更通俗易懂。这时的url 可能会是...

正则表达式

1.为什么要使用正则表达式？按照一定的字符串的规则去检查某个字符串是否符合该规则要求。2.正则表达式规则的制定语法： 1）限定符规则（限定有什么样的字母或者字符串）[a]:表示a字母[a-z]:表示英文的小写字母[a-zA-Z]:表示英文字母，包括大写和小写。[0-9]:表示0到9的数字特殊的一些限定符：\w:表示英文和数字（除开一些特殊的字符）\d:表示数字[^\d]：表示非数字（可以是字母也可以是符号）\s:表示空格特殊的，表示任意的数字...

php 正则表达式中的 .*? 表示什么意思?

php 正则表达式中的 .*? 表示什么意思? 是非贪婪模式 .*会匹配后面的一切字符，就是到结束的意思加？后就是不贪婪模式，这时要看？后边的字符是什么了，如.*?"的意思是遇到双引号则匹配结束 .*?>的意思是遇到>则匹配结束例如： 5.写出一个正则表达式，过虑网页上的所有JS/VBS脚本（即把script标记及其内容都去掉）： ].*?>.*?/si",?"替换内容",?$script);??>原文：https://www.cnblogs.com/xiaogou/p/11655538.html

Java判断字符串是否为数字（正则表达式）【代码】

package com.walker; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Tester {public static void main(String[] args) {String str = "123"; //trueSystem.out.println(isNumeric(str));str = "-123"; //trueSystem.out.println(isNumeric(str));str = "abc"; //falseSystem.out.println(isNumeric(str));}//@ author: walker//用正则表达式判断字符串是否为数字（含负数）public static bo...

PHP利用正则表达式替换标签【图】

$str = ‘你好吗，还可以吧一般般了[link url="http://www.chinanews.com/sh/2015/11-13/7621991.shtml"]义昌大桥爆炸垮塌致14死案宣判被告人张根林死缓[/link]一点都不好怎么办啊areyouok[][link url="http://www。baidu。com"]这个正则表达式确定好使嘛[/link]are幽邃‘;$string = ‘你好这是一个连接<a href="https://www.baidu.com/s?wd=preg_match_all&tn=44039180" target="_blank" class="baidu-highlight">preg_match_all...

正则表达式

说一下正则表达式的用法，我们先从简单的开始。假设你要搜索一个包含字符“cat”的字符串，搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感，单词“catalog”、“Catherine”、“sophisticated”都可以匹配，那当然有写特殊用法1.句点符号　　假设你在玩英文拼字游戏，想要找出三个字母的单词，而且这些单词必须以“t”字母开头，以“n”字母结束。你可以使用一个通配符——句点符号“.”。这样，完整的表达式就是“t.n”，...

Oracle 正则表达式函数-REGEXP_REPLACE 使用例子

原文在这: 戳6个参数第一个是输入的字符串第二个是正则表达式第三个是替换的字符第四个是标识从第几个字符开始正则表达式匹配。（默认为1）第五个是标识第几个匹配组。（默认为全部都替换掉）第六个是是取值范围：i：大小写不敏感；c：大小写敏感；n：点号 . 不匹配换行符号；m：多行模式；x：扩展模式，忽略正则表达式中的空白字符。全部测试数据SQL> select * from test_reg_substr;A-----------------------------------ABC123...

提取 - 相关标签

提取文件名

正则 - 最热教程

java正则表达式匹配所有数字，包括带小...UltraEdit正则表达式搜索替换小技巧 php正则表达式，允许有数字，字母，和标...jquery取字符串中数字的正则_jquery 分享正则表达式注册表验证和一些常用的...php正则表达式的特殊字符含义_PHP教程 SwiftUI iOS 超酷组件之支持文本分割炸...python 正则表达式与JSON-JSON java-检查字符串是否仅包含字母空格和引...java网页爬虫正则表达式

首页 / 正则 / PHP中使用正则表达式提取中文实现笔记_PHP

PHP中使用正则表达式提取中文实现笔记_PHP

内容导读

内容图文

内容总结

内容备注

内容手机端

【PHP中使用正则表达式提取中文实现笔记_PHP】教程文章相关的互联网学习教程文章

java中常用的正则表达式及示例

js正则表达式

VBS教程：正则表达式简介 -字符匹配【代码】

正则表达式

PHP正则表达式的逆向引用与子模式 php preg_replace应用

正则表达式【代码】【图】

正则表达式的基本应用

判断汉字正则表达式更严谨方法！【图】

正则表达式使用集锦【图】

正则表达式

php 正则表达式中的 .*? 表示什么意思?

Java判断字符串是否为数字（正则表达式）【代码】

PHP利用正则表达式替换标签【图】

正则表达式

Oracle 正则表达式函数-REGEXP_REPLACE 使用例子

正则表达式 - 相关标签

PHP - 相关标签

提取 - 相关标签

正则 - 最新教程

正则 - 最热教程