当我从文件中读取内容时,有时会收到此错误“UTF-8 中的无效字节序列”。注意-仅当字符串中包含一些特殊字符时,才会发生这种情况。我尝试打开不带“r:UTF-8”的文件,但仍然收到相同的错误。

open(file, "r:UTF-8").each_line { |line| puts line.strip(",") } # line.strip generates the error

文件的内容:
# encoding: UTF-8
290919,"SE","26","Sk‰l","",59.4500,17.9500,, # this errors out
290956,"CZ","45","HornÌ Bradlo","",49.8000,15.7500,, # this errors out
290958,"NO","02","Svaland","",58.4000,8.0500,, # this works

这是我从外部获得的CSV文件,我正尝试将其导入到数据库中,但顶部没有“#编码:UTF-8”,但是我添加了此文件,因为我在某处阅读了它将解决此问题,但事实并非如此。 :(

环境:
  • Rails v3.0.3
  • ruby 1.9.2p0 (2010-08-18修订版29036)[x86_64-darwin10.5.0]
  • 最佳答案

    Ruby对每个文件都有外部编码和内部编码的概念。这样,即使文件以更深奥的格式存储,您也可以在源中使用UTF-8格式的文件。如果您的默认外部编码为UTF-8(如果您使用的是Mac OS X,则为UTF-8),则所有文件I/O也将使用UTF-8。您可以使用File.open('file').external_encoding进行检查。打开文件并传递"r:UTF-8"时,您正在执行的操作将强制使用与Ruby默认使用的相同外部编码。

    可能是,您的源文档不在UTF-8中,并且那些非ascii字符未正确映射到UTF-8(如果是,则您将获得正确的字符且没有错误,并且被错误地映射了) ,您将得到不正确的字符,也不会出现错误)。您应该做的是尝试确定源文档的编码,然后让Ruby在读取时对文档进行转码,如下所示:

    File.open(file, "r:windows-1251:utf-8").each_line { |line| puts line.strip(",") }
    

    如果需要确定源编码的帮助,请给this Python library旋转。它基于Seamonkey/Mozilla中的自动字符集检测后备(可能仍在Firefox中)。

    关于ruby-on-rails - Rails v3/Ruby 1.9.2中的字符编码问题,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/4697413/

    10-16 10:36