会议专题

基于决策树-逻辑回归模型精确识别僵尸企业

  针对如何精准识别僵尸企业的问题,借助湖南科创信息有限公司公开的企业信息数据集,提出了一种决策树-逻辑回归的僵尸企业识别方法.该方法用中位数填充缺失数和离群值,然后分析数据集并进行特征衍生,最后使用多元线性回归和卡方检验等方法完成特征筛选.为了验证所提出方法的有效性,分别在阿里云环境和本地环境下将该方法与过度借贷法、连续亏损法、随机森林算法、BP神经网络算法、XGBoost算法进行比较.每个模型均训练 50次,每次训练按一定比例随机选取数据,最终取各个指标的平均值作为最终实验结果.实验结果表明:所提出的决策树-逻辑回归模型对于僵尸企业的识别准确率最高,达到99.98%; 并且模型的运行速度相对各种集成模型的速度有较大优势,平均执行时间约为1.5s.在各实 验环境中,实验结果差异较小,验证了该模型的有效性和稳定性.

僵尸企业 机器学习 特征工程 决策树-逻辑回归

吴东鹏 王峥 童薇 叶枫 宋楚翘

河海大学计算机与信息学院,江苏南京211100 河海大学商学院,江苏南京211100

国内会议

CCF第35届中国计算机应用大会

湖北襄阳

中文

569-580

2020-10-16(万方平台首次上网日期,不代表论文的发表时间)