我需要最详尽的英语单词列表,我可以找到几种类型的语言处理操作,但我在互联网上找不到质量足够好的东西 .
英语单词有1,000,000个单词,包括外语和/或技术单词 .
你能否建议可以从互联网上下载这个可能有点分类的来源(或接近500k字)?您在语言处理应用程序中使用了哪些输入?
Kevin's wordlists是我所知道的最好的单词列表 .
WordNet如果你想知道名词,动词等,同义词等等,那就更好了 .
`The "million word" hoax rolls along',我明白了;-)
如何使你的单词列表更长:给定一个名词,添加以下任何内容:non,pseudo,semi,-arific,-geek,...; mutatis mutandis对于动词等
我在Purdue上进行了受控/自然英语和语言领域知识处理的研究 .
我将看看这个尝试项目:http://attempto.ifi.uzh.ch/site/description/这是一个帮助 Build 受控自然英语的项目 .
你可以下载他们的整个单词lexicon:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有~100,000个自然英语单词 .
您还可以为特定领域的单词提供自己的词典,这就是我们在研究中所做的 . 他们提供Web服务来解析和格式化自然英语文本 .
谁告诉你有100万字?根据Wikipedia,牛津英语词典只有600,000 . OED试图包括所有使用的技术和俚语 .
直接尝试维基百科的摘录:http://dbpedia.org
根本没有太多的基础词(171k根据这个oxford . 这是我记得在大学的CS课程中被告知的 . 但如果包括所有形式的词 - 那么它会大大增加 .
那说,为什么不自己做一个?获取Wikipedia转储并解析它并创建一组您遇到的所有令牌 .
虽然会出现拼写错误,但所有人群都会出现错误 .
6 回答
Kevin's wordlists是我所知道的最好的单词列表 .
WordNet如果你想知道名词,动词等,同义词等等,那就更好了 .
`The "million word" hoax rolls along',我明白了;-)
如何使你的单词列表更长:给定一个名词,添加以下任何内容:non,pseudo,semi,-arific,-geek,...; mutatis mutandis对于动词等
我在Purdue上进行了受控/自然英语和语言领域知识处理的研究 .
我将看看这个尝试项目:http://attempto.ifi.uzh.ch/site/description/这是一个帮助 Build 受控自然英语的项目 .
你可以下载他们的整个单词lexicon:http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip它有~100,000个自然英语单词 .
您还可以为特定领域的单词提供自己的词典,这就是我们在研究中所做的 . 他们提供Web服务来解析和格式化自然英语文本 .
谁告诉你有100万字?根据Wikipedia,牛津英语词典只有600,000 . OED试图包括所有使用的技术和俚语 .
直接尝试维基百科的摘录:http://dbpedia.org
根本没有太多的基础词(171k根据这个oxford . 这是我记得在大学的CS课程中被告知的 . 但如果包括所有形式的词 - 那么它会大大增加 .
那说,为什么不自己做一个?获取Wikipedia转储并解析它并创建一组您遇到的所有令牌 .
虽然会出现拼写错误,但所有人群都会出现错误 .