首页 文章

将编码从charset iso-8859-1转换为UTF-8

提问于
浏览
1

我正在尝试将带有类别和标签的1000篇文章网站(ASP SQL Server)导出到WordPress博客中 . 这些文章最初是用Microsoft Word编写的,包含许多非UTF-8字符 . 然后将它们复制并粘贴到Microsoft Access中 . 这些文章目前存储在SQL Server 2008数据库中,并使用iso-8859-1 charset显示在网站上

我正在使用默认的WordPress导入/导出xml文件(WordPress eXtended RSS(WXR)文件),该文件是从WordPress导出博客时使用的文件中复制的 . 此文件需要UTF-8编码 .

我的问题是iso-8859-1字符破坏了导入器,许多文章没有完全导入 . 像这样的人物

naïve , 
and funny characters such as “ ’

我的问题是如何清理所有文本,我可以创建一个替换函数来清理有趣的引号,但总会有像naïve这样的随机单词会导致问题?

将所有文本的编码从iso-8859-1转换为UTF-8的最简单方法是什么?

1 回答

  • 1

    http://en.wikipedia.org/wiki/Iconv

    iconv是一个计算机程序和标准化的API,用于在不同的字符编码之间进行转换 .

    如果您被困在纯Windows上(即使不是Cygwin),并且您可能最容易将文件复制到Unix系统并在那里执行转换,http://www.unicodetools.com/有一堆转换工具 .

相关问题