首页 文章

获取中文HTML内容并将其移动到另一个HTML文件中的相应div中

提问于
浏览
0

我的任务是使用英文HTML的中文翻译,并重新设计它以匹配原始的英文HTML . 中文“HTML”不再具有英文HTML的任何原始Div或样式 . 汉字编码为GB2312 .

我想创建一个程序/脚本来自动执行此操作,因为有182个HTML文件需要重新设置样式,我不想手动完成 . 我最熟悉PHP但对任何事情都很开放 .

Here is a one of the English HTML files

Here is the equivalent Chinese HTML file

如您所见,他们只需复制中文字符并将其粘贴到匹配的DIV中 - 同时替换英文文本 . 然后在 <head> 中将编码更改为GB2312,以便正确显示中文字符 . 例如:

<meta charset="gb2312">

我的想法就转换这两个是解析中文文件,找到每个独立的中文字符串,将每个字符串填充到它自己的变量中,然后通过等效的英文文件解析,找到英文文本的字符串,并替换为来自变量的等效汉字 . 为&reg和&copy添加例外 .

有人知道我怎么会这样做吗?大多数脚本语言甚至支持查找非UTF8字符吗?

1 回答

  • 0

    我不熟悉PHP,但只使用C# .

    由于我没有真正看到整个图片(例如你拥有的所有文件的html层次结构以及文件之间的差异,如果有),我只能建议你......

    您可以:

    • 您可以在循环中运行文件 .

    • 使用第三方库(例如NTextCatLanguage Detection API)来阅读它们,这样您就可以轻松地随意获取所需内容(文本,属性,确定模式)并将其临时存储,如您所愿 .

    • 使用第三方库(例如Html Agility Pack)来确定此文件的语言(实际上这是"step 2"的一部分,因为您只想解析中文的html文件) .

    • 两个选项:

    • 用英语查找等效文件并替换文本(可以使用"step 2") . 我猜你会比我们更清楚,如何计算,你应该用什么文字取代......

    • 或者您可以准备"MVC style"模板,并使用第3方库(例如RazorEngine)进行模板化 .

    希望这会帮助你 . 如果您有任何疑问,请填写免费询问:)

相关问题