一种改进的基于Newman快速算法的文本聚类方法
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391

基金项目:


An Improved Text Clustering Algorithm of Newman Fast Algorithm
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量,同时,用IDF权重计算公式来计算词语的权重并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为 。

    Abstract:

    According to the feature of great computation for Text Clustering, This paper presents a new Text Clustering method which takes the advantages of concept lattice and Newman Fast algorithm. The algorithm firstly expresses the text as Feature word set and the technology extracting feature vector by statistical method. Secondly, using the TFIDF weight formula computes the weight of words and making discrete in the words weight .Thirdly, using the form background expresses the keywords, using similarity formula Calculates the size of formal concept similarity . Fourth, building Newman network, clustering the text of cluster by the Newman network Algorithm rule. Last but not least, the experiment shows the validity of this method. It is not only take the right sort results, but Greatly reduces the complexity of the algorithm, Newman Fast algorithm complexity only is .

    参考文献
    相似文献
    引证文献
引用本文

安娜. 一种改进的基于Newman快速算法的文本聚类方法[J]. 科学技术与工程, 2010, (30): .
anna. An Improved Text Clustering Algorithm of Newman Fast Algorithm[J]. Science Technology and Engineering,2010,(30).

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2010-08-03
  • 最后修改日期:2010-08-03
  • 录用日期:2010-08-16
  • 在线发布日期: 2010-09-29
  • 出版日期:
×
律回春渐,新元肇启|《科学技术与工程》编辑部恭祝新岁!
亟待确认版面费归属稿件,敬请作者关注