一种中文短文本聚类方法

发布者：系统管理员发布时间：2024-03-01浏览次数：22

本发明涉及一种中文短文本聚类方法，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量；利用词权重计算算法获取短文本集中所有词的权重；根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值；根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法，解决了短文本文法特征稀疏和语义缺失等问题；基于图模型不断迭代计算词的权重，提高句子相似度计算的准确度；选择基于密度峰值聚类方法应用到短文本的聚类中，有效地提高聚类方法的效率。

2024新增栏目

一种中文短文本聚类方法