首页 文章

从Wikipedia转储中提取并行文本

提问于
浏览
3

在我的研究项目中,我需要从Wikipedia转储中提取并行文档 . 换句话说,我已经下载了英语和意大利语Wikipedia转储 . 现在,我想解析它们,并且对于英文转储中的每篇文章,在意大利转储中找到它的翻译(应该通过Interlanguage链接完成),然后将它们存储在同一个文件中,以便之后进行一些跨语言的文本处理 .

我搜索了一下这个,但我找不到任何代码用于此目的 . 但是,既然我已经看过许多论文,其中作者已经做了同样的事情,我认为在从头开始发明轮子之前,首先可能值得先问一下 .

任何想法都表示赞赏 .

谢谢 .

1 回答

相关问题