人身保险伤残评定标准修订项目所应用数据分析方法的思考

来源:发布时间: 2016年01月06日浏览次数:

  摘要:本文回顾了中国保险行业协会人身保险伤残评定标准修订项目中的部分数据分析工作。在当时项目处理数据量大、时间要求紧张的情况下,数据分析组面对着海量非结构化信息的数据分析和数据挖掘的工作任务,依次完成了项目软硬件环境搭建、非结构化信息的结构化处理和大批量数据清洗及后期数据分析、数据挖掘计算等方面的工作任务。本文重点介绍了修订项目选用数据分析方法的思路过程,同时对数据处理过程做了介绍。

  关键词:海量数据、数据分析、数据聚类、数据挖掘

  2012年5月,人身保险伤残评定标准修订项目进入到数据收集与分析的阶段。数据分析小组分别从人社部数据中心、地方保险信息共享平台以及行业内部一百余家产险、寿险公司收集了社保和商业保险数据,保险行业经验分析项目有史以来数据规模最大的一次经验分析工作就此展开,项目组需要处理的承保、理赔数据记录约为15.6亿条。

  这次经验分析工作需要解决三类技术问题,即计算能力受限、非结构化信息计算和未知变量相关性研究。为此,项目组在实际工作中采用了相应的数据分析方法,逐一解决所面对的难题。

关闭