我正在使用minidom解析xml文件,它引发了一个错误,指示数据格式不正确。我发现某些页面上的字符如ไอเฟล &,导致解析器出现打ser。在开始解析文件之前,是否有一种清除文件的简单方法?现在,我正在使用正则表达式来丢弃不是字母数字字符和</>字符的任何内容,但是它不能正常工作。

最佳答案

尝试

xmltext = re.sub(u"[^\x20-\x7f]+",u"",xmltext)


它将清除除0x20-0x7F范围以外的所有内容。

如果要保留制表符,换行符之类的控制字符,则可以从\ x01开始。

xmltext = re.sub(u"[^\x01-\x7f]+",u"",xmltext)

09-25 19:15