我必须将大型遗留应用程序转换为Delphi 2009,它使用字符串,AnsiStrings,WideStrings和UTF8数据,我很难理解新字符串类型的工作原理以及如何使用它们 .
该应用程序完全支持使用TntUnicodeControls的Unicode,并且有第三方DLL需要特定编码的字符串,主要是UTF8和UTF16,这使得转换任务不像人们所怀疑的那样微不足道 .
我特别遇到C DLL调用和选择正确类型的问题 . 我还得到了许多隐式字符串转换的印象,因为无论Delphi字符串是如何编码的,其中一个DLL似乎总是接收UTF-8编码的字符串 .
有人可以提供关于新的Delphi 2009字符串类型UnicodeString和RawByteString的简短概述,可能是转换2009年前应用程序时的一些使用提示和可能的陷阱吗?
5 回答
在本周五的"Using Unicode and Other Encodings in your Programs"观看我的CodeRage 4谈话,或者等到它的重播在线提供 .
我将介绍一些编码并解释字符串格式 .
这些幻灯片很快就会上市(我今天会尝试将它们联机)并且包含很多你应该在互联网上阅读的内容(但我必须承认我忘记了eed3si9n发布的Unicode上的Joel链接) .
今天将使用上传和链接编辑此答案 .
编辑:
如果您有一个小样本,您可以在其中显示您的C / C DLL接收UTF8编码的字符串,但认为它们应该以其他方式进行编码,请发布它(邮寄给我;几乎所有在plumers dot com的任何内容都会发给我,特别是如果你在at符号前使用我的名字) .
会话材料现在可以downloaded,包括"Using Unicode and Other Encodings in your Programs"会话 .
这些是该会话的链接:
阅读这些:
Marco Cantu,白皮书“Delphi and Unicode”
Marco Cantu,演讲“Delphi and Unicode”
Nick Hodges,白皮书“Delphi in a Unicode World”
相关的在线帮助主题:
What's New in Delphi and C++Builder 2009
字符串类型:Base: ShortString, AnsiString, WideString, UnicodeString
字符串类型:Unicode (including internal memory layouts of the string types)
字符串类型:Enabling for Unicode
字符串类型:RawByteString (AnsiString with CodePage $ffff)
字符串类型:UTF8String (AnsiString with CodePage 65001)
String < - > PChar转换:PChar fundamentals
String < - > PChar转换:Returning a PChar Local Variable
String < - > PChar转换:Passing a Local Variable as a PChar
希望这能让你前进 . 如果没有,请给我发邮件,我会尽力扩展答案 .
参见Delphi and Unicode,由MarcoCantù撰写的白皮书,我猜The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!),由Joel撰写 .
一个缺陷是默认的Win32 API调用已被映射为使用W(宽字符串)版本而不是A(ANSI)版本,例如
ShellExecuteA
如果您的代码在假设AnsiString
的内部布局时执行棘手的指针代码,它将会破坏 . 后退是将PChar
替换为PAnsiChar
,Char
,AnsiChar
,string
和AnsiString
,并在Win32 API调用结束时为该部分代码添加A.代码实际编译并正常运行后,您可以重构代码以使用string
(UnicodeString
) .请注意,它不仅会遇到真正的字符串代码 . 它还会遇到代码,其中PCHAR用于遍历缓冲区或与API接口 .
例如 . 动态加载DLL的头文件初始化代码(getprocedureaddress / loadlibray)
似乎我的几乎所有问题都来自
UTF8String
的分配自动转换 .我已经使用了
UTF8String
的旧代码,只是为了帮助我思考一个变量应该包含哪种类型的字符串 .当开始移植我的应用程序时,由于同样的原因,我将
AnsiString
替换为UTF8String
,但是代码依赖于UTF8String
只是(经典)AnsiString
的别名现在随着自动转换,假设不再成立,这就产生了许多问题 .
Be careful if you use UTF8String when porting from pre-2009 Delphi code!
在使用不同版本的Delphi或C Builder构建的dll之间传递字符串时要注意的另一件事是,从2009年开始,AnsiStringBase的StrRec部分获得了两个额外的字段; codePage和elemSize . 它们各为2个字节(短整数),因此StrRec的大小现在是12个字节而不是8个 . 这可能导致内存分配和破坏的无效指针异常问题,即使字符串的数据部分似乎传输正常 .