我想知道是否可以使用 Stanford CoreNLP 来检测一个句子写入哪种语言?如果是这样,那些算法有多精确?
Stanford CoreNLP
几乎可以肯定,斯坦福CORENLP目前还没有语言识别 . '差不多' - 因为不存在很难证明 .
编辑:不过,以下是间接证据:
在main page上也没有提及语言识别,也没有在FAQ中提及语言识别(尽管有一个问题'How do I run CoreNLP on other languages?'),也没有提及CoreNLP作者的2014 paper;
工具结合了几个NLP库,包括Stanford CoreNLP,使用另一个lib进行语言识别,例如DKPro Core ASL;还有other users谈论语言识别和CoreNLP没有提到这种能力Core_LP的
源文件包含 Language 类,但与语言识别无关 - 您可以手动检查所有84次出现的'language' word here
Language
尝试TIKA,或TextCat,或Language Detection Library for Java(他们报告"99% over precision for 53 languages") .
一般来说,质量取决于输入文本的大小:如果它足够长(例如,至少几个单词而不是特别选择),那么精度可以非常好 - 大约95% .
Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml
在语言检测/识别工具上有更多的负载 . 但是要用一小撮盐来报告精确度 . 它通常被狭隘地评估,受以下因素限制:
修正了一系列语言,
相当长的测试句和
相同的语言和
对测试实例的培训比例偏差 .
Notable language ID tools 包括:
TextCat(http://cran.r-project.org/web/packages/textcat/index.html)
CLD(https://code.google.com/p/cld2/)
LingPipe(http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)
An exhaustive list 来自meta-guide.com,见http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
Noteworthy Language Identification related shared task (包括培训/测试数据)包括:
Native Language ID (NLI 2013)
Discriminating Similar Languages (DSL 2014)
TweetID (2015)
Also take a look at:
Language Identification: The Long and the Short of the Matter
The Problems of Language Identification within Hugely Multilingual Data Sets
Selecting and Weighting N-Grams to Identify 1100 Languages
Indigenous Tweets
Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text
2 回答
几乎可以肯定,斯坦福CORENLP目前还没有语言识别 . '差不多' - 因为不存在很难证明 .
编辑:不过,以下是间接证据:
在main page上也没有提及语言识别,也没有在FAQ中提及语言识别(尽管有一个问题'How do I run CoreNLP on other languages?'),也没有提及CoreNLP作者的2014 paper;
工具结合了几个NLP库,包括Stanford CoreNLP,使用另一个lib进行语言识别,例如DKPro Core ASL;还有other users谈论语言识别和CoreNLP没有提到这种能力
Core_LP的
源文件包含
Language
类,但与语言识别无关 - 您可以手动检查所有84次出现的'language' word here尝试TIKA,或TextCat,或Language Detection Library for Java(他们报告"99% over precision for 53 languages") .
一般来说,质量取决于输入文本的大小:如果它足够长(例如,至少几个单词而不是特别选择),那么精度可以非常好 - 大约95% .
Standford CoreNLP没有语言ID(至少现在还没有),请参阅http://nlp.stanford.edu/software/corenlp.shtml
在语言检测/识别工具上有更多的负载 . 但是要用一小撮盐来报告精确度 . 它通常被狭隘地评估,受以下因素限制:
修正了一系列语言,
相当长的测试句和
相同的语言和
对测试实例的培训比例偏差 .
Notable language ID tools 包括:
TextCat(http://cran.r-project.org/web/packages/textcat/index.html)
CLD(https://code.google.com/p/cld2/)
LingPipe(http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)
An exhaustive list 来自meta-guide.com,见http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
Noteworthy Language Identification related shared task (包括培训/测试数据)包括:
Native Language ID (NLI 2013)
Discriminating Similar Languages (DSL 2014)
TweetID (2015)
Also take a look at:
Language Identification: The Long and the Short of the Matter
The Problems of Language Identification within Hugely Multilingual Data Sets
Selecting and Weighting N-Grams to Identify 1100 Languages
Indigenous Tweets
Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text