GVKun编程网logo

Python和带Unicode的正则表达式(正则表达 python)

29

本文将带您了解关于Python和带Unicode的正则表达式的新内容,同时我们还将为您解释正则表达python的相关知识,另外,我们还将为您提供关于LeetCode10.正则表达式匹配|Python、

本文将带您了解关于Python和带Unicode的正则表达式的新内容,同时我们还将为您解释正则表达 python的相关知识,另外,我们还将为您提供关于LeetCode 10. 正则表达式匹配 | Python、Perl 中的正则表达式与 Unicode 字符串不匹配、PHP正确的正则表达式在带有unicode的PHP 5.3.3-7中不起作用、Python Unicode正则表达式匹配失败,并带有一些Unicode字符-错误或错误?的实用信息。

本文目录一览:

Python和带Unicode的正则表达式(正则表达 python)

Python和带Unicode的正则表达式(正则表达 python)

我需要从字符串“ بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ”中删除一些Unicode符号

我知道他们肯定在这里。我试过了:

re.sub(''([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)'', '''', ''بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ'')

但这不起作用。字符串保持不变。我究竟做错了什么?

答案1

小编典典

您使用的是python 2.x还是3.0?

如果您使用的是2.x,请尝试使用“ u”使正则表达式字符串成为unicode-escape字符串。由于它是正则表达式,因此最好使用“
r”将正则表达式字符串设置为原始字符串。另外,将整个模式放在括号中也是多余的。

re.sub(ur''[\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+'', '''', ...)

http://docs.python.org/tutorial/introduction.html#unicode-
strings

编辑:

将re.UNICODE / re.U /(?u)标志用于unicode正则表达式也是一种好习惯,但它只会影响\ w或\
b这样的字符类别名,而该模式不使用任何别名,因此不会受到影响。

LeetCode 10. 正则表达式匹配 | Python

LeetCode 10. 正则表达式匹配 | Python

10. 正则表达式匹配


题目来源:https://leetcode-cn.com/problems/regular-expression-matching

题目


给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ''.'' 和 ''*'' 的正则表达式匹配。

''.'' 匹配任意单个字符
''*'' 匹配零个或多个前面的那一个元素
所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。

说明:

  • s 可能为空,且只包含从 a-z 的小写字母。
  • p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。

示例 1:

输入:
s = "aa"
p = "a"
输出: false
解释: "a" 无法匹配 "aa" 整个字符串。

示例 2:

输入:
s = "aa"
p = "a*"
输出: true
解释: 因为 ''*'' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 ''a''。因此,字符串 "aa" 可被视为 ''a'' 重复了一次。

示例 3:

输入:
s = "ab"
p = ".*"
输出: true
解释: ".*" 表示可匹配零个或多个(''*'')任意字符(''.'')。

示例 4:

输入:
s = "aab"
p = "c*a*b"
输出: true
解释: 因为 ''*'' 表示零个或多个,这里 ''c'' 为 0 个, ''a'' 被重复一次。因此可以匹配字符串 "aab"。

示例 5:

输入:
s = "mississippi"
p = "mis*is*p*."
输出: false

解题思路


暴力解

先从【暴力解】的角度理清问题。

这个题目中,难点就在于处理 .* 两个符号。

如果只是要求检查两个普通字符是否匹配。那么通过直接遍历,检查每个数组对应的元素是否相同来判断是否匹配即可。例如:

def isMatch(s, p):
    if len(s) != len(p):
        return False
    for i in range(p):
        if s[i] != p[i]:
            return False
    return True

那代码大概就会是这样。那我们用递归的形式来书写,以下为伪代码:

def isMatch(s, p):
    """
    s: text
    p: pattern
    """
    if p is empty:
        return s is empty
    first_match = (s not empty) and p[0] == s[0]
    return first_match and isMatch(s[1:], p[1:])

在上面的代码中,其实就是通过先判断前面的元素是否匹配,逐层往下判断后面的元素是否也匹配,从而来找到答案。

现在来处理两个符号的问题,. 这个符号,表示的是匹配处换行符以外的任意字符(这里就不展开说明了,若需详细了解,可直接上网搜索)。

了解这个符号的含义后,这里所能表达的意义,也会相应的改变,即是说,当 p 中出现 . 号,s 对应的元素无论是什么字符(题目说明 s 仅包含 a-z 字符)都能够匹配,现在根据上面的伪代码进行修改:

def isMatch(s, p):
    """
    s: text
    p: pattern
    """
    if not p:
        return not s
    first_match = bool(s) and p[0] in {s[0], ''.''}
    return first_match and isMatch(s[1:], p[1:])

这里唯一不同的就是 first_match 这部分的判断中,因为 p 中的元素可能出现固定字符,或者 . 号,所以当 p 出现的字符与 s 中对应的字符相同,或者 p 此处是 . 字符,这里两者都表示能够匹配。

那么现在往下看 * 符号,这个符号表示的含义是重复零次或多次。那么这里最明显的字符就是重复多少次的问题?在这里考虑使用递归的方式书写,假设重复 n 次,其实这里先不需要考虑 n 是多少,把这个交给递归实现。要考虑那么当下的情况,这里应该就只有两个选择,要么是匹配 0 次,要么是匹配 1 次。

那么相应的代码就应该修改为(这里书写发现 * 的情况):

# 这里表示发现 `*` 的情况下,
if len(p) >= 2 and p[1] == ''*'':
    # 这里需要考虑匹配 0 次的问题,例如 aa,c*aa
    # 也要考虑匹配多次的问题,例如 aa, a*
    return isMatch(s, p[2:]) or first_match and isMatch(s[1:], p)

在这段代码当中,isMatch(s, p[2:]) 这里表示,字符匹配 0 次,跳过 p 中字符与 * 结合这部分。后面的表示,p[0] 和 s[0] 匹配之后,继续判断 s 接下来的元素。其中保留 p,只向后移动 s,是为了实现 * 匹配多次的功能。

这样来看,其实已经可以说理清两个符号的具体实现方式。

关于完整的代码请查看【代码实现】部分。

动态规划

思路:动态规划

在上面暴力解的方法中,频繁使用切片操作,复杂度高。这里在暴力解的基础上,使用动态规划的方法,定义变量 i,j 来记录当前匹配到的位置,用 dp(i, j) 表示 s[i:] 和 p[j:] 是否能够匹配。,避免频繁切片。这里也引入备忘录的概念,用来避免重复的运算。

具体代码同样请查看【代码实现】部分。

代码实现


暴力解 | 代码实现
class Solution:
    def isMatch(self, s: str, p: str) -> bool:
        if not p:
            return not s

        first_match = bool(s) and p[0] in {s[0], ''.''}

        if len(p) >= 2 and p[1]=="*":
            return self.isMatch(s, p[2:]) or first_match and self.isMatch(s[1:], p)
        else:
            return first_match and self.isMatch(s[1:], p[1:])
动态规划 | 代码实现
class Solution:
    def isMatch(self, s: str, p: str) -> bool:
        memo = {}
        def dp(i, j):
            if (i, j) not in memo:
                if j == len(p):
                    return i == len(s)

                else:
                    first_match = i < len(s) and p[j] in {s[i], ''.''}
                    if j + 1 < len(p) and p[j+1] == ''*'':
                        ans = dp(i, j+2) or first_match and dp(i+1, j)
                    else:
                        ans = first_match and dp(i+1, j+1)

                memo[(i, j)] = ans

            return memo[(i, j)]

        return dp(0, 0)

实现结果


暴力解 | 实现结果

暴力解 | 实现结果

动态规划 | 实现结果

动态规划 | 实现结果


以上就是使用暴力解的形式,理清题目的难点,进而使用动态规划加备忘录的形式来进一步降低复杂度,更高效的解决《10. 正则表达式匹配》问题的主要内容。

欢迎关注微信公众号《书所集录》

Perl 中的正则表达式与 Unicode 字符串不匹配

Perl 中的正则表达式与 Unicode 字符串不匹配

如何解决Perl 中的正则表达式与 Unicode 字符串不匹配?

我正在尝试使用 Perl 正则表达式匹配 Unicode 字符串。如果我将其输出到 STDOUT,该字符串似乎以正确的编码到达我的模块:“Asuncion,distrito Capital de Paraguay,Región Oriental,Paraguay。”

但是,它在 Regex 中不匹配。奇怪的是,如果我将脚本的输出复制到一个变量中并对其进行评估,确实在同一个正则表达式中匹配:

use v5.12;
use utf8;

my $placeString = $main::FORM{''placeString''}; # Coming from a different module.
say STDOUT $placeString;

utf8::upgrade($placeString); # Using this or removing this seems to make no difference.

# If I manually copy the output of STDOUT (above) in BASH and set the string,it works:
$placeString2 = "Asuncion,distrito Capital de Paraguay,Región Oriental,Paraguay"; 

if ($placeString =~ /^([\w\s\,\.\-\'']+)$/) {
    # This is evaluated as false.
    say STDERR "Accepted placename.";
}


if ($placeString2 =~ /^([\w\s\,\.\-\'']+)$/) {
    # This is evaluated as true.
    say STDERR "Accepted placename.";
}

解决方法

$placeString2 是一串解码文本。您也可以将其称为 Unicode 代码点字符串,因为它的每个字符都是如此。

52.65.67.69.F3.6E      Unicode Code Points for "Región".

这些 UCP 中的每一个都适合一个字节,但情况并非总是如此。

49.2665.53.4F          Unicode Code Points for "I♥SO".

$placeString 是一串编码文本。它的每个字符都是一个字节。

52.65.67.69.C3.B3.6E   "Región" encoded using UTF-8.
49.E2.99.A5.53.4F      "I♥SO" encoded using UTF-8.

解码输入,编码输出。

\w\s 期望匹配 Unicode 代码点。但正如我们所确定的,$::FORM{placeString} 的值是这些代码点的编码。您需要对其进行解码。

my $placeString = $::FORM{placeString};
utf8::decode($placeString)
   or warn(...);

use Encode qw( decode_utf8 );

my $placeString = decode_utf8($::FORM{placeString});

如果字符串来自文件句柄,则最好为句柄添加解码层。

,

但是,它不会在正则表达式中匹配。

从注释中可以清楚地看出该值是一个 UTF-8 编码的字符串。您需要在进行匹配之前解码该值:

use Encode qw(decode_utf8);
$placeString = decode_utf8($placeString);

PHP正确的正则表达式在带有unicode的PHP 5.3.3-7中不起作用

PHP正确的正则表达式在带有unicode的PHP 5.3.3-7中不起作用

@H_301_4@ 我正在尝试将这个正则表达式用于查找句子中的两个单词.

echo (int)preg_match('/\bHello\W+(?:\w+\W+){0,6}?World\b/ui','Hello,world!',$matches).PHP_EOL;
print_r($matches);

它完美地运作:

1
Array
(
    [0] => Hello,world
)

……但只有拉丁语.如果我切换到unicode,它找不到任何东西.也没有必要查看语法,因为它来自a book(第8章“找到彼此接近的两个单词”).问题是它只适用于拉丁语单词,但不适用于像这样的unicode字符串:’Привіт,світу!’ (乌克兰语)

我检查了几乎所有可能的问题:

✓我在正则表达式模式中使用’u’标志.

✓我在执行此语句之前在代码中启用了UTF-8支持,如下所示:

ini_set('default_charset','UTF-8');
 mb_internal_encoding('UTF-8');
 mb_regex_encoding('UTF-8');

✓我在Debian Linux上的PCRE编译正确:

# pcretest -C
 PCRE version 8.02 2010-03-19
 Compiled with
   UTF-8 support
   Unicode properties support
   Newline sequence is LF
   \R matches all Unicode newlines
   Internal link size = 2
   POSIX malloc threshold = 10
   Default match limit = 10000000
   Default recursion depth limit = 10000000
   Match recursion uses stack

✓我甚至尝试将这个奇怪的序列(* UTF8)添加到模式according to this answer中,但它没有帮助:

06004

结果:

0
Array
(
)

所以我的问题是:为什么unicode不能在这里工作,因为它完全适用于我在同一代码中使用的其他unicode模式?它们有点简单,像这样:

echo (int)preg_match('/Привіт/ui','Привіт,світу!',$matches).PHP_EOL;
print_r($matches);

这令人惊讶的工作:

1
Array
(
    [0] => Привіт
)

最后很有趣它在online regex tester完全正常(这就是为什么我实际上非常沮丧,我测试了它然后期望在我的代码中工作,但它没有).

哦明智的Stackoverflow,请给他一个提示.

解决方法

我有一个类似的问题,发现模式中的UTF-8符号不适用于某些版本的PHP.甚至当时的5.3版也有这个问题.在这里查看你的例子: http://3v4l.org/7HurJ.根据那个测试,你必须至少有5.3.4才能使用这个模式,但我认为,版本号在这里并没有多大意义.也许,它实际上取决于一些编译选项,或者可能有一个解决方法,但我没有深入挖掘并简单地调整我的方法不在表达式中使用任何“有趣”的符号.

Python Unicode正则表达式匹配失败,并带有一些Unicode字符-错误或错误?

Python Unicode正则表达式匹配失败,并带有一些Unicode字符-错误或错误?

我正在尝试将rePython 2.7.3中的模块与Unicode编码的Devnagari文本一起使用。我已from __future__ import unicode_literals在代码顶部添加了所有字符串文字应为unicode对象。

但是,我在使用Python的正则表达式匹配时遇到了一些奇怪的问题。例如,请考虑以下名称:“किशोरी”。这是北印度文的(拼写错误)名称,由我的一个用户输入。任何印地语读者都会将其视为一个单词。

以下内容将返回一个匹配项:

re.search("^[\w\s][\w\s]*","किशोरी",re.UNICODE)

但这不是:

re.search("^[\w\s][\w\s]*$",re.UNICODE)

一些摸索发现,该字符串中只有一个字符,字符0915(第十个字符)被认为属于\
w字符类。这是不正确的,因为“派生的核心属性”上的Unicode字符数据库文件将此字符串中的其他字符(我尚未全部选中)以字母顺序列出-
实际上确实如此。

这仅仅是Python实现中的错误吗?我可以通过手动定义所有Devnagari字母数字字符作为字符范围来解决此问题,但这会很痛苦。还是我做错了什么?

关于Python和带Unicode的正则表达式正则表达 python的介绍已经告一段落,感谢您的耐心阅读,如果想了解更多关于LeetCode 10. 正则表达式匹配 | Python、Perl 中的正则表达式与 Unicode 字符串不匹配、PHP正确的正则表达式在带有unicode的PHP 5.3.3-7中不起作用、Python Unicode正则表达式匹配失败,并带有一些Unicode字符-错误或错误?的相关信息,请在本站寻找。

本文标签: