基于频繁项特征扩展的短文本分类方法

计算机科学杂志|靳一凡; 傅颖勋; 马礼 北方工业大学信息学院; 北京100144

摘要:短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差。针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE)。首先通过FP-growth算法挖掘背景语料库的频繁项集,结合上下文的关联特征,计算出扩展特征权重;然后将新特征加入到原短文本的特征空间中,在此基础上训练SVM(Support Vector Machine,SVM)分类器,并进行分类。实验结果表明,与传统的SVM算法和LDA+KNN算法相比,STCFIFE方法能有效缓解短文本特征不足、高维稀疏的问题,使F 1值提升了2%~10%,提高了短文本的分类效果。

【关键词】
  • 短文本分类
  • 特征扩展
  • 频繁项挖掘
  • 特征权重
  • 支持向量机
【收 录】
  • 维普收录(中)
  • 北大期刊(中国人文社会科学期刊)
  • JST 日本科学技术振兴机构数据库(日)
  • 上海图书馆馆藏
  • 剑桥科学文摘
  • 哥白尼索引(波兰)
  • CSCD 中国科学引文数据库来源期刊(含扩展版)
  • 国家图书馆馆藏
  • 知网收录(中)
  • 万方收录(中)
  • 统计源期刊(中国科技论文优秀期刊)

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

期刊名称:计算机科学

期刊级别:北大期刊

期刊人气:78344