我试图使用Python正则表达式来获取字符分隔字符串的第一个标记。我不想把反斜杠分隔符当作真正的分隔符,所以我使用了一个否定的lookbehind断言。当分隔符是逗号时,它可以正常工作。
>>> import re
>>> re.match("(.*?)(?<!\\\\),.*", "Hello\, world!,This is a comma separated string,Third value").groups(1)[0]
'Hello\\, world!'
然而,用撇号替换逗号的完全相同的代码根本不起作用。
>>> import re
>>> re.match("(.*?)(?<!\\\\)'.*", "Hello\' world!'This is an apostrophe separated string'Third value").groups(1)[0]
'Hello'
>>>
我使用的是Python2.7.2,但我的行为与Python3(在Ideone上测试)相同。Pythonre documentation并不表示
'
是一个特殊的字符,所以我真的很想知道,为什么我的'
被区别对待?(请不要评论:谁会想要一个撇号分开的文件。好。。。我知道……)
最佳答案
print(repr("\'"),repr("\,"))
结果:
"'" '\\,'
正如你所看到的,
"\'"
实际上没有一个\\
在里面。因此,当您将其更改为"\\'"
时,模式匹配生成:Hello\' world!
"\'"
实际上是一个escape sequence:\'单引号(')
很明显,原因是
>>> ord("\'") == ord("'")
True
因为
"\'"
等同于"'"
。有意义的是\'
是一个转义序列:>>> 'i\'ll'
"i'll"
关于python - Python中的撇号在断言之后,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/16357429/