首页 文章

使用机器学习自动对动词变换进行分组

提问于
浏览
-1

是否可以自动分组属于一起的动词变形?从一个大的维基百科数据集中,我想提取所有动词,根据所有时态将它们组合在一起并将它们放入共轭表中 .

Present

(I)吃(你)吃...

Past Present

(I)吃了(你)吃了......

这可以用机器学习吗?我找到了spacy.io,我可以用来识别一个单词是否是一个动词,但我不知道我怎么能自动“分组”它们 .

任何指针都非常感谢!

1 回答

  • 0

    您的问题涉及许多子问题 . 它将帮助您熟悉命名法,以便您可以找到这些问题的现有工具和解决方案 .

    要执行此任务,您需要:

    • 确定维基百科数据集中的哪些令牌是动词 .

    • 对于这些动词令牌中的每一个,确定正在使用的共轭 .

    • 对于每个动词标记,确定动词的引理(也称为"dictionary form") . 这将告诉您令牌属于哪个"group" .

    第一项任务通常由POS标签器完成 . POS标签扫描文本的标记并识别每个标记的词性 .

    第二个子任务通常被称为“形态分析”,并且这样做的工具被称为形态分析器 . 一些POS标记器也会为您提供此信息,您可以通过查看标记器使用的标记集来了解这些信息 . 然而,即使它们提供结合信息,它通常也不像形态分析仪所提供的那样详细 .

    最后,第三个任务称为词形还原 . 大多数POS标签和形态分析仪都会为您提供引理 .

    为所有这些任务创建了许多方法和工具 . 其中许多涉及机器学习方法 . 例如,我在使用受监督数据集训练的神经网络中进行的实验室进行形态分析 . 然而,这些工具可能需要很长时间才能构建和调整,并且主要语言(尤其是英语)有现成的解决方案 .

    我不知道什么工具是最先进的英语我的头脑 . 但是,既然您已了解术语,那么您可以自己调查可用的工具 . 我可以从文档页面看到,Spacy确实为您提供了所需的大部分信息:它识别动词并提供引理 . 它似乎也区分了一些不同的"tags"(例如"VBG"和"VBZ") . 这里有一个完整的清单"Part-of-Speech Tagging":https://spacy.io/api/annotation . 但是,不确定这些标签是否涵盖了您所关注的所有变形 .

相关问题