我试图制作一个自动的html更新程序,我不得不制作一个自动的html标记器 .
但是,只要我的代码包含任何日语字符,它就无法输出可读字符 .
所以我对解码和编码进行了一些研究,并试图改进版本 . 但是现在我尝试处理代码的部分之后的所有其余代码都不起作用,这意味着它会引发异常并停在那里 .
我已经把时间花在了这上面但我还是找不到答案 . 请帮帮我 .
预期的行为:在每行的末尾添加标签和br标签
行为:它引发异常并退出 .
问题原因:日本unicode似乎有问题 .

代码:

def tagBr(file1):
    filename = file1
    filename = ('D:/Site_updater/Tagger/' + filename)
    try:
        text = open(filename, "rb")
    except IOError:
    print('Debug Message: The file was not found.')
    while(True):
        1 + 1
finally:
    html = open(filename + ".html", "w+")
    textline = text.readlines()
    html.write('<html>')
    html.write('<body>')
    for x in textline:
        if(x.find('h1') != -1):
            newx = x.replace('h1', '<h1>', 1).decode("utf-8")
            html.write(str(newx) + "</h1>" + "<br>" + "<p>")
        else:
            newx = x.decode("utf-8")
            html.write(str(newx) + "<br>")
    html.write("</p>")
    html.write('</html>')
    html.write('</body>')

文件输出:

<html> <body>(必须在这里使用空格,因此它不会消失,但它实际上会输出一个有效的普通标签 . )

编辑:对不起,没有注意到我没有包含文件 . 这是以下链接:
python_1203.txt(普通文本)
python_1203.html(转换)
Japanese_text.txt(日文)
Japanese_text.html(我的代码不处理日文文本的结果)https://wetransfer.com/downloads/a049230e32902a0d33a759cf23ed81b120181204052317/773434(它将在7天内消失 . 如果不起作用,请在评论中告诉我更新链接)