在我的研究项目中,我需要从Wikipedia转储中提取并行文档 . 换句话说,我已经下载了英语和意大利语Wikipedia转储 . 现在,我想解析它们,并且对于英文转储中的每篇文章,在意大利转储中找到它的翻译(应该通过Interlanguage链接完成),然后将它们存储在同一个文件中,以便之后进行一些跨语言的文本处理 .
我搜索了一下这个,但我找不到任何代码用于此目的 . 但是,既然我已经看过许多论文,其中作者已经做了同样的事情,我认为在从头开始发明轮子之前,首先可能值得先问一下 .
任何想法都表示赞赏 .
谢谢 .
1 回答
使用此Wikipedia api,action=query&query=langlinks
示例:https://en.wikipedia.org/w/api.php?action=query&prop=langlinks&lllang=it&titles=Calculus|Bread|Biology
回复给出了相应的意大利文章 .