t-SNE高维数据可视化-Java 学习之路

我有一个twitter语料库，我用它来构建情绪分析应用程序 . 语料库有5k个推文，手写标记为 - 否定，中立或正面

为了表示文本 - 我正在使用gensim word2vec预训练向量 . 每个单词都映射到300个维度 . 对于推文，我添加所有单词向量以获得单个300暗淡向量 . 因此，每条推文都映射到300维的单个向量 .

我使用t-SNE（tsne python包）可视化我的数据 . 见附图1 - 红点=负推文，蓝点=中性推文和绿点=正推文

tweets represented using word2vec

Question: 在图中，数据点之间没有明显的分离（边界） . 我可以假设300尺寸中的原始点也是如此吗？

即如果点在t-SNE图中重叠，那么它们在原始空间中也会重叠，反之亦然？

1 回答