std :: string和UTF-8编码的unicode-Java 学习之路

如果我理解得很好，可以使用string和wstring来存储UTF-8文本 .

使用char时，ASCII字符占用一个字节，一些中文字符占用3或4等 . 这意味着 str[3] 不一定指向第4个字符 .
与 wchar_t 相同，但每个字符使用的最小字节数始终为2（而不是 char 为1），而3或4字节宽的字符将为2 wchar_t .

对？

那么，如果我想用这样一个奇怪的编码字符串使用 string::find_first_of() 或 string::compare() 等怎么办？它会起作用吗？字符串类是否处理字符具有可变大小的事实？或者我应该只将它们用作虚拟无特征字节数组，在这种情况下，我宁愿选择 wchar_t[] 缓冲区 .

如果 std::string 没有处理，第二个问题：是否有库提供可以处理UTF-8编码的字符串类，以便 str[3] 实际指向第3个字符（从长度1到4的字节数组）？

3 回答

2

你在谈论Unicode . Unicode使用32位来表示字符 . 然而，由于这会浪费内存，因此存在更紧凑的编码 . UTF-8就是这样一种编码 . 它假定您使用字节单位并将Unicode字符映射到1,2,3或4个字节 . UTF-16是另一种使用单词作为单位并将Unicode字符映射到1或2个字（2或4个字节）的UTF-16 . 您可以同时使用string和wchar_t进行编码 . 对于英文文本/数字，UTF-8往往更紧凑 .

无论使用哪种编码和类型（比较），有些东西都会起作用 . 但是，所有需要理解一个角色的功能都将被破坏 . 即第5个字符并不总是底层数组中的第5个字符 . 它可能看起来像是在使用某些示例，但它最终会破坏 . string :: compare可以工作，但不希望按字母顺序排序 . 这取决于语言 . string :: find_first_of适用于某些但不是全部 . 长字符串可能只是因为它们很长而较短，而较短字符串可能会被字符对齐混淆并产生非常难以发现的错误 .

最好的办法是找到一个为你处理它的库，并忽略下面的类型（除非你有充分的理由选择其中一个） .

回复于 2024-04-23T14:06:15+08:00
5

您无法使用标准库中的std :: string或任何其他工具处理Unicode . 使用外部库，例如：http://utfcpp.sourceforge.net/

回复于 2024-04-23T14:06:15+08:00
-1

你是对的：
...这意味着str [3]并不一定指向第4个字符......只能将它们用作伪特征字节数组...

C的字符串只能处理ascii字符 . 这与可以处理Unicode字符的Java字符串不同 . 您可以将中文字符的编码结果（字节）存储到字符串中（C / C中的字符只是字节），但这没有意义，因为字符串只是将字节视为ascii字符，因此您不能使用字符串函数来处理它 .
wstring可能是你需要的东西 .

有些事情应该澄清 . UTF-8只是Unicode字符的编码方法（将字符转换为字节格式） .

回复于 2024-04-23T14:06:15+08:00

std :: string和UTF-8编码的unicode

3 回答

相关问题