使用斯坦福NLP检测语言-Java 学习之路

我想知道是否可以使用 Stanford CoreNLP 来检测一个句子写入哪种语言？如果是这样，那些算法有多精确？

2 回答

10
几乎可以肯定，斯坦福CORENLP目前还没有语言识别 . '差不多' - 因为不存在很难证明 .

编辑：不过，以下是间接证据：
- 在main page上也没有提及语言识别，也没有在FAQ中提及语言识别（尽管有一个问题'How do I run CoreNLP on other languages?'），也没有提及CoreNLP作者的2014 paper;
- 工具结合了几个NLP库，包括Stanford CoreNLP，使用另一个lib进行语言识别，例如DKPro Core ASL;还有other users谈论语言识别和CoreNLP没有提到这种能力
  Core_LP的
- 源文件包含 Language 类，但与语言识别无关 - 您可以手动检查所有84次出现的'language' word here
尝试TIKA，或TextCat，或Language Detection Library for Java（他们报告"99% over precision for 53 languages"） .

一般来说，质量取决于输入文本的大小：如果它足够长（例如，至少几个单词而不是特别选择），那么精度可以非常好 - 大约95％ .
回复于 2024-05-06T15:17:16+08:00
8
Standford CoreNLP没有语言ID（至少现在还没有），请参阅http://nlp.stanford.edu/software/corenlp.shtml

在语言检测/识别工具上有更多的负载 . 但是要用一小撮盐来报告精确度 . 它通常被狭隘地评估，受以下因素限制：
- 修正了一系列语言，
- 相当长的测试句和
- 相同的语言和
- 对测试实例的培训比例偏差 .
Notable language ID tools 包括：
- TextCat（http://cran.r-project.org/web/packages/textcat/index.html）
- CLD（https://code.google.com/p/cld2/）
- LingPipe（http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html）
An exhaustive list 来自meta-guide.com，见http://meta-guide.com/software-meta-guide/100-best-github-language-identification/

Noteworthy Language Identification related shared task （包括培训/测试数据）包括：
Also take a look at：
回复于 2024-05-06T15:17:16+08:00

使用斯坦福NLP检测语言

2 回答

相关问题