首页 文章

使用fgetcsv读取CSV文件时出现UTF-8问题

提问于
浏览
27

我尝试读取CSV并回显内容 . 但内容显示错误的字符 .

MäxMüstermänn - >MäxMüstermänn

CSV文件的编码是UTF-8,没有BOM(使用记事本检查) .

这是CSV文件的内容:

"Mäx";"Müstermänn"

我的PHP脚本

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
        $num = count ($data);
        for ($c=0; $c < $num; $c++) {
            // output data
            echo "<td>$data[$c]</td>";
        }
        echo "</tr><tr>";
}
?>
</body>
</html>

我试图使用 setlocale(LC_ALL, 'de_DE.utf8'); 按照建议here没有成功 . 内容仍然显示错误 .

我错过了什么?

编辑:

echo mb_detect_encoding($data[$c],'UTF-8'); 给了我UTF-8 UTF-8 .

echo file_get_contents("specialchars.csv"); 给了我 "Mäx";"Müstermänn" .

print_r(str_getcsv(reset(explode("\n", file_get_contents("specialchars.csv"))), ';'))

给我

Array ( [0] => Mäx [1] => Müstermänn )

这是什么意思?

6 回答

  • 6

    试试这个:

    <?php
    $handle = fopen ("specialchars.csv","r");
    echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
    while ($data = fgetcsv ($handle, 1000, ";")) {
            $data = array_map("utf8_encode", $data); //added
            $num = count ($data);
            for ($c=0; $c < $num; $c++) {
                // output data
                echo "<td>$data[$c]</td>";
            }
            echo "</tr><tr>";
    }
    ?>
    
  • 10

    遇到类似问题:使用é,è,ö等特殊字符解析CSV文件...

    以下工作对我来说很好:

    要在html页面上正确表示字符,需要 Headers :

    header('Content-Type: text/html; charset=UTF-8');
    

    为了正确解析每个字符,我使用了:

    utf8_encode(fgets($file));
    

    别忘了在以下所有字符串操作中使用'Multibyte String Functions',如:

    mb_strtolower($value, 'UTF-8');
    
  • 45

    尝试将其放入文件的顶部(在任何其他输出之前):

    <?php
    
    header('Content-Type: text/html; charset=UTF-8');
    
    ?>
    
  • 2

    问题是该函数返回UTF-8(它可以使用mb_detect_encoding检查),但 do not convert ,这些字符为UTF-8 . 因此,有必要使用iconv进行反向转换为初始编码(Windows-1251或CP1251) . 但是由于fgetcsv返回一个数组,我建议写一个自定义函数:[抱歉我的英文]

    function customfgetcsv(&$handle, $length, $separator = ';'){
        if (($buffer = fgets($handle, $length)) !== false) {
            return explode($separator, iconv("CP1251", "UTF-8", $buffer));
        }
        return false;
    }
    
  • 4

    现在我让它工作(删除 header 命令后) . 我认为问题是php文件的编码是在ISO-8859-1中 . 我没有BOM就把它设置为UTF-8 . 我以为我已经这样做了,但也许我做了一个额外的撤消 .

    此外,我使用 SET NAMES 'utf8' 作为数据库 . 现在它在数据库中也是正确的 .

  • 2

    在我的情况下,源文件具有windows-1250编码,iconv打印出大量有关输入字符串中非法字符的通知...

    所以这个解决方案帮助了我很多:

    /**
     * getting CSV array with UTF-8 encoding
     *
     * @param   resource    &$handle
     * @param   integer     $length
     * @param   string      $separator
     *
     * @return  array|false
     */
    private function fgetcsvUTF8(&$handle, $length, $separator = ';')
    {
        if (($buffer = fgets($handle, $length)) !== false)
        {
            $buffer = $this->autoUTF($buffer);
            return str_getcsv($buffer, $separator);
        }
        return false;
    }
    
    /**
     * automatic convertion windows-1250 and iso-8859-2 info utf-8 string
     *
     * @param   string  $s
     *
     * @return  string
     */
    private function autoUTF($s)
    {
        // detect UTF-8
        if (preg_match('#[\x80-\x{1FF}\x{2000}-\x{3FFF}]#u', $s))
            return $s;
    
        // detect WINDOWS-1250
        if (preg_match('#[\x7F-\x9F\xBC]#', $s))
            return iconv('WINDOWS-1250', 'UTF-8', $s);
    
        // assume ISO-8859-2
        return iconv('ISO-8859-2', 'UTF-8', $s);
    }
    

    回应@ manvel的回答 - 使用str_getcsv而不是爆炸 - 因为这样的情况:

    some;nice;value;"and;here;comes;combinated;value";and;some;others
    

    explode会将字符串分解成部分:

    some
    nice
    value
    "and
    here
    comes
    combinated
    value"
    and
    some
    others
    

    但是str_getcsv会将字符串分解成部分:

    some
    nice
    value
    and;here;comes;combinated;value
    and
    some
    others
    

相关问题