文档聚类 Document Clustering

聚类是用来分析一组文档的文本属性的一种方法,根据文档之间的相似性创建分组。它帮助研究者根据文档的特征或属性,而不是根据文档内容,理解哪些文档更为相似或更为不同。

聚类可以用来确定在一个内容集中是否存在子集或分组,而这种关系通过元数据和其他筛选条件或通过其他形式的文本特征并不易被发现。例如,一个内容集中的文章可能有不同类型或不同篇幅长度,尽管它们都有共同的元数据值,但会形成不同的群组。

了解更多有关文档聚类的信息以及怎样在“Gale数字学术实验室”中使用这个工具,请点击 这里

免责声明

所有文章中表达的看法和观点都来自相应文章的作者,所有原始文献中的看法或观点都来自于相应的出版物。圣智集团(Cengage Group)旗下Gale公司仅提供原始文献资料的复本,并不对其中的內容表示认可或质疑。
 
除非特别声明,所有內容均属圣智集团Gale公司版权所有。禁止复制上述內容,任何笔误均源自原文作者。(中文翻译仅供参考)