我试图使用Python正则表达式来获取字符分隔字符串的第一个标记。我不想把反斜杠分隔符当作真正的分隔符,所以我使用了一个否定的lookbehind断言。当分隔符是逗号时,它可以正常工作。

>>> import re
>>> re.match("(.*?)(?<!\\\\),.*", "Hello\, world!,This is a comma separated string,Third value").groups(1)[0]
'Hello\\, world!'

然而,用撇号替换逗号的完全相同的代码根本不起作用。
>>> import re
>>> re.match("(.*?)(?<!\\\\)'.*", "Hello\' world!'This is an apostrophe separated string'Third value").groups(1)[0]
'Hello'
>>>

我使用的是Python2.7.2,但我的行为与Python3(在Ideone上测试)相同。Pythonre documentation并不表示'是一个特殊的字符,所以我真的很想知道,为什么我的'被区别对待?
(请不要评论:谁会想要一个撇号分开的文件。好。。。我知道……)

最佳答案

print(repr("\'"),repr("\,"))

结果:
"'" '\\,'

正如你所看到的,"\'"实际上没有一个\\在里面。因此,当您将其更改为"\\'"时,模式匹配生成:
Hello\' world!

"\'"实际上是一个escape sequence
\'单引号(')
很明显,原因是
>>> ord("\'") == ord("'")
True

因为"\'"等同于"'"。有意义的是\'是一个转义序列:
>>> 'i\'ll'
"i'll"

关于python - Python中的撇号在断言之后,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16357429/

10-12 20:05