首页|期刊简介|投稿指南|分类索引|刊文选读|订阅指南|资料|样刊邮寄查询|常见问题解答|联系我们
胡婧,刘伟,马凯. 基于机器学习的高血压病历文本分类[J]. 科学技术与工程, 2019, 19(33): 296-301.
Hu Jing,Liu Wei.Classification of Hypertensive Medical Records based on Machine Learning[J].Science Technology and Engineering,2019,19(33):296-301.
基于机器学习的高血压病历文本分类
Classification of Hypertensive Medical Records based on Machine Learning
投稿时间:2019-04-10  修订日期:2019-06-14
DOI:
中文关键词:  文本分类 自然语言处理 粗糙集 词袋模型 支持向量机
英文关键词:text categorization natural language processing rough set bag of words model support vector machine
基金项目:国家自然科学基金项目(81471330)、江苏省教育厅高等教育研究课题(2015JSJG261)、江苏省大学生创新创业项目(201810313047Y)资助
        
作者单位
胡婧 徐州医科大学 医学信息学院
刘伟 徐州医科大学 医学信息学院
马凯 徐州医科大学 医学信息学院
摘要点击次数: 234
全文下载次数: 66
中文摘要:
      为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的BOW模型结合SVM的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环境中设计六种交叉结合的算法仿真对比实验,结果表明:基于BOW+SVM高血压病历文本分类模型精准度可达97%。可见改进后的模型,能够解决样本分部不均,克服高维度稀疏特征空间的问题,有效的改善病案管理工作流程。
英文摘要:
      In order to explore the characteristics of high-dimensional sparsity of Chinese medical record text preprocessing, resulting in low performance accuracy of text classification and slow convergence of algorithm model, a text classification algorithm based on rough set BOW model combined with SVM is proposed(BOW+SVM). Firstly, the BOW model is used to construct high-dimensional text space vector for feature word extraction. Then, the attribute reduction algorithm of rough set is used to process the text feature, and the fuzzy and redundant attributes are removed from the decision rule to reduce the space vector dimension. Finally, the refined features are cross-combined with the SVM classifier for text classification. In the Python + TensorFlow environment, six kinds of cross-combined algorithm simulation experiments were designed. The results show that the accuracy of the text classification model based on BOW+SVM hypertension can reach 97%. It is seen that the improved model can solve the problem of uneven sample division, overcome the problem of high-dimensional sparse feature space, and effectively improve the workflow of medical record management.
查看全文  查看/发表评论  下载PDF阅读器
关闭
你是第27494226位访问者
版权所有:科学技术与工程编辑部
主管:中国科学技术协会    主办:中国技术经济学会
Tel:(010)62118920 E-mail:stae@vip.163.com
京ICP备05035734号-4
技术支持:本系统由北京勤云科技发展有限公司设计

京公网安备 11010802029091号