一种中文短文本聚类方法

发布者:系统管理员发布时间:2024-03-01浏览次数:22

本发明涉及一种中文短文本聚类方法,具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量;利用词权重计算算法获取短文本集中所有词的权重;根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值;根据短文本集中每两个文本之间的相似度值对短文本进行聚类。本发明提出一种“搬运优化”的短文本相似度计算方法,解决了短文本文法特征稀疏和语义缺失等问题;基于图模型不断迭代计算词的权重,提高句子相似度计算的准确度;选择基于密度峰值聚类方法应用到短文本的聚类中,有效地提高聚类方法的效率。

Copyright © 2024 南京财经大学科学研究院 版权所有
地址:南京市仙林大学城文苑路3号(邮编:210023)
联系电话:综合处025-86718747;科技处:025-86718572;社科处:025-86718562;平台处:025-86718573
科学研究院
南京财经大学