首页 > 文章列表 > 如何在 PHP 中使用正则表达式来匹配中文字符

如何在 PHP 中使用正则表达式来匹配中文字符

php 正则表达式 中文字符
126 2023-06-23

在 PHP 中,正则表达式是一种常用的字符串匹配工具,它可以用来判断一个字符串是否符合某种特定的格式,从而实现对输入值的有效性验证。而在处理中文字符时,由于中文字符与英文字符在编码方式上有所不同,因此需要相应地调整正则表达式的匹配规则。本文将介绍如何在 PHP 中使用正则表达式来匹配中文字符。

一、了解中文字符编码

PHP 中常用的字符编码有 UTF-8 和 GBK 两种。UTF-8 是一种“可变长度编码”,即不同的字符长度不同,用 1 到 4 个字节表示不同的字符。而 GBK 则是一种“定长编码”,其中每个字符用两个字节表示。

由于 UTF-8 编码规则比较复杂,因此在匹配中文字符时,我们可以采用 GBK 编码来进行匹配。在 PHP 中,可以通过 mb_convert_encoding() 函数将字符串从 UTF-8 转换成 GBK 编码,例如:

$str = "中文";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");

二、匹配中文字符

  1. 匹配单个中文字符

要匹配单个中文字符,可以使用 [x{4e00}-x{9fa5}] 的正则表达式。其中 x 表示十六进制字符,{4e00} 和 {9fa5} 分别表示中文字符集中的第一个和最后一个字符,即 “一” 和 “龥”。

代码示例:

$str = "中文";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]/u", $str_gbk, $match);
echo $match[0];

输出结果为:

  1. 匹配多个中文字符

要匹配多个中文字符,可以在正则表达式中添加量词,例如 * 表示匹配任意个数的中文字符,+ 表示匹配至少一个中文字符,{n,m} 表示匹配 n 到 m 个中文字符。

代码示例:

$str = "中文编程真有意思";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]{2,}/u", $str_gbk, $match);
echo $match[0];

输出结果为:

中文编程真有意思
  1. 匹配中文字符和其他字符

若要在字符串中同时匹配中文字符和其他字符,可以使用 [x{4e00}-x{9fa5}] 和 [w](匹配任意字符或数字)对字符串进行匹配,例如:

代码示例:

$str = "中文AI编程真有意思123";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}w]+/u", $str_gbk, $match);
echo $match[0];

输出结果为:

中文AI编程真有意思123

三、常用的正则表达式函数

  1. preg_match()

preg_match() 函数用于对字符串进行正则表达式匹配,返回匹配结果或 FALSE。

语法:preg_match(string $pattern, string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0]]])

示例代码:

$str = "中文编程真有意思";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match("/[x{4e00}-x{9fa5}]+/u", $str_gbk, $match);
echo $match[0];

输出结果为:

中文编程真有意思
  1. preg_match_all()

preg_match_all() 函数用于在字符串中找到所有符合正则表达式的匹配结果,返回所有匹配结果组成的数组。

语法:preg_match_all(string $pattern, string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0]]])

示例代码:

$str = "PHP是一门非常有用的编程语言,可以用来开发各种Web应用";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
preg_match_all("/[x{4e00}-x{9fa5}]+/u", $str_gbk, $match);
print_r($match[0]);

输出结果为:

Array
(
    [0] => PHP是一门非常有用的编程语言
    [1] => 可以用来开发各种Web应用
)
  1. preg_replace()

preg_replace() 函数用于使用一个正则表达式来搜索和替换字符串。

语法:preg_replace(mixed $pattern, mixed $replacement, mixed $subject [, int $limit = -1 [, int &$count]])

示例代码:

$str = "我爱编程,编程使我快乐!";
$str_gbk = mb_convert_encoding($str, "GBK", "UTF-8");
$new_str_gbk = preg_replace("/[x{4e00}-x{9fa5}]+/", "", $str_gbk);
$new_str = mb_convert_encoding($new_str_gbk, "UTF-8", "GBK");
echo $new_str;

输出结果为:

,使我快乐!

四、总结

以上就是在 PHP 中使用正则表达式来匹配中文字符的方法,对于输入值的有效性验证可以采用正则表达式加以实现。在使用时需要注意中文字符的编码方式,并根据需要选择相应的正则表达式函数进行使用。