Java 学习之路

13 votes

answers

views

新闻文章的集群

我的场景非常简单：我有一堆新闻文章（目前约为1k），我知道有些文章涉及相同的故事/主题 . 我现在想根据共享的故事/主题对这些文章进行分组，即基于它们的相似性 . 到目前为止，我所做的是应用基本的NLP技术，包括删除词和删除词 . 我还计算了每篇文章的tf-idf向量，并且还可以基于这些tf-idf向量计算例如余弦相似度 . 但现在随着文章的分组我有点挣扎 . 我看到两种主要方式 - 可能是相关的...

machine-learning nlp cluster-analysis information-retrieval unsupervised-learning
0 votes

answers

views

皮尔逊相关问题

我不确定在下面的问题中使用哪些数字我试图解决这个问题涉及使用Pearson Correlation公式 . A B C D E F Bob 4 5 4 2 Fra 2 2 2 3 2 Lee 2 4 3 5 Cha 5 4 4 1 “使用Pearson Correlation和加权平均值描述基于邻域的方法，以生成Bob是否喜欢”F...

information-retrieval correlation collaborative-filtering pearson
0 votes

answers

views

如何使用词性标注器标记字段特定名词？

我想使用词性技术在一个句子中标记特定领域，例如技术和科学名词 . Example 考虑句子： 1）计算机需要键盘，监视器，CPU才能工作 .2）汽车使用齿轮和离合器 . 现在我的目标是，必须将例句标记为第一句计算机/技术需求/名词键盘/技术CPU /技术/介词工作/动词第二句汽车/机械用/动词齿轮/机械和/连接离合器/机械 My need我想在java上实现上面提到的目标，...

java nlp information-retrieval stanford-nlp opennlp
0 votes

answers

views

使用自然语言处理从需求文本中提取软件产品特征

我正在创建一个应用程序，它将从自然语言文本中提取软件产品功能，这主要基于信息提取 . 此功能是“产品中的用户可见方面” . 我读过很少的研究论文，我收集到的是他们使用词性来开始这个过程 . 在特征提取中，我要做的是开发Actor-Action-Object的关系，如“System支持信用卡” . 我正在使用斯坦福大学的Open IE，但结果并不准确 . 我的问题是我应该使用什么信息提取技术来获得好...

nlp stanford-nlp information-retrieval information-extraction
2 votes

answers

views

如何聚集不断发展的数据流

我想逐步将文本文档作为数据流进行聚类，但似乎存在问题 . 大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型 . 但是，在我们的情况下，现有属性的IDF随每个新数据点而变化，因此先前的聚类不再保持有效，因此不能应用任何流行的算法，如CluStream，CURE，BIRCH，它们假定固定的维度静态数据 . 任何人都可以将我重定向到与此相关的任何现有研究或提出建议吗？谢谢！

algorithm machine-learning cluster-analysis information-retrieval tf-idf
0 votes

answers

views

比较文件 - 文件相似性

我目前正在进行一个NLP / IR的java项目，对此我是相当新的 . 该项目由一个包含大约1000个文档的集合组成，每个文档大约有100个单词，结构为带有术语频率的单词包 . 我想根据文档（来自集合）找到类似的文档 . 使用TF-IDF，计算查询（给定文档）和集合中的每个其他文档的tf-idf，然后将这些值作为具有余弦相似性的向量进行比较 . 这可以对它们的相似性有所了解吗？或者它是不合理的，因...

java nlp similarity information-retrieval tf-idf
2 votes

answers

views

tf-idf的余弦相似替代（三角不等式）

我正在尝试使用tf-idf来聚类类似的文档 . 我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起 . 问题是余弦相似性不满足三角不等式 . 因为在我的情况下，我不能在多个集群中拥有相同的向量，我必须将每个集群与一个共同的元素合并，这可能导致两个文档被分组在一起，即使它们彼此不相似 . 是否有另一种衡量两个文件相似性的方法，以便：矢量分数根据其方向得分非常相似，无论其大小如...

nlp cluster-analysis information-retrieval tf-idf cosine-similarity
3 votes

answers

views

新闻文章的在线聚类

是否有一种通用的在线算法来动态分类新闻？我有一个按主题分类的大量新闻数据集 . 我认为每个主题都是一个集群 . 现在我需要对突发新闻进行分类 . 可能，我需要动态生成新主题或新集群 . 我正在使用的算法如下： 1）我通过新闻网站的一组提要，我认识到新闻链接 . 2）对于每个新链接，我使用dragnet提取内容，然后对其进行标记 . 3）我使用sklearn的TfidfVectorizer找到所有旧...

machine-learning nlp cluster-analysis information-retrieval unsupervised-learning
0 votes

answers

views

精确召回图

我想确保绘制精确回忆曲线 . 我有以下数据：召回= [0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]精度= [1,1,0.8,0.7,0.80,0.65,0.60,0.72,0.60 ，0.73，0.75] interpolated_precision = [1,1,0.80,0.80,0.80,0.75,0.75,0.75,0.75,0.75,0.75]...

information-retrieval data-science precision-recall
1 votes

answers

views

如何突出ElasticSearch或Solr中的所有术语？

我不确定ElasticSearch或Solr是否可以处理这个问题，但它听起来像搜索引擎相关的应用程序 . 要求是：提供公司名称（100k）列表和数百万个文档，突出显示搜索结果中的所有公司名称 . 它不像典型的搜索引擎应用程序，例如用户输入关键字，搜索引擎返回所有匹配并突出显示 . 我正在研究API并试图找出如何做到这一点 . 有人有什么建议吗？谢谢！

solr lucene elasticsearch search-engine information-retrieval

热门问题