-
1 votesanswersviews
我应该使用哪种分类算法对这些变量进行文档分类?
我试图在基于文字袋,页面布局,包含或不包含表格的文档中对页面进行分类,特别是搜索页面,具有粗体 Headers 等 . 在这个前提下,我为每个创建了一个 pandas.DataFrame 文献: page totalCharCount matchesOfWordX matchesOfWordY hasFeaturesX hasFeaturesY hasTable... -
6 votesanswersviews
如何在分类中包含单词作为数字特征
什么是使用单词本身作为任何机器学习算法中的功能的最佳方法? 我必须从特定段落中提取单词相关功能的问题 . 我应该使用字典中的索引作为数字特征吗?如果是这样,我将如何规范这些? 一般来说,单词本身如何在NLP中用作特征?