保险数据分析面面谈之六—经验分析真香篇(上)

2023年12月01日

  背景

  市场回归保障,重疾赔付恶化,互联网渠道强势入场。。。在种种背景之下,国内寿险业不再仅仅是关注销售,也逐渐加深对于业务品质的分析管控,如何在控制风险的前提下精准定价提升产品竞争力,成为业内公司的研究重点。经验分析作为这其中的关键一环,也越来越受到重视,有越来越多的人员投入到相关的工作中。作为在这一领域从业6年的一员,分享一些经验分析的思路和心得,篇幅有限一些涉及细节内容就不详述了。

  本文更多面向刚入坑和想入坑的小伙伴,为了便于理解我把经验分析比作做菜,共分为五个部分,简要提纲如下。全文4362字预计阅读需要8-10分钟。

  一、要什么:需求理解

  1、客人点了一道什么菜

  知道要做什么菜,才能选用合适的食材、配料和工具。搞清楚数据需求和目的,有针对性地开展分析,避免低效率的盲目分析。通常的经验分析需求有以下几类:

  假设制定:

  精算假设是精算模型计算模拟现金流的关键,经验分析需要提供准确恰当的经验数据支持精算假设的指定。精算假设从用途上分为定价假设(计算保费)、评估假设(计算法定准备金、偿二代等)、最优估计假设(计算内含价值等)等,不同假设需要在真实经验基础上考虑不同的调整项和风险边际。精算假设从分类上又可以分为发生率、继续率、费用率等,通常经验分析只负责非经济假设。

  因果分析:

  通常是针对某业务的品质表现进行分析解释,将业务动作与赔付或续期结果关联起来。例如退保率为什么上升,赔付率为什么恶化,A产品或A地区的经验为什么比B产品或B地区的经验差。。。而数据分析后的解释有定性和定量两个层面,说直白点数据充分有条件的,就做定量解释,没条件的咱也就只能做个定性解释了。

  趋势预测:

  经验分析是对过往历史经验的数据分析,而趋势预测是建立在对过往经验的充分认识和理解的基础上。通常经验分析指标的趋势变化原因主要来自两个方面:

  自然趋势,即外因,例如医疗技术的进步对疾病发生率趋势的影响,经济环境的变化对退保率的影响等;

  业务趋势,即内因,既包含公司销售、核保、理赔的规则变化,也包含业务结构例如年龄、保额的变化。

  2、了解掌握菜谱

  掌握的菜谱需要一个一个学习积累,有时甚至需要研发新菜谱。这里的菜谱不仅仅指掌握经验分析指标如何计算,也包括对产品、责任、业务逻辑的透彻理解。

  产品信息:这是最基本且必要了解的,包括产品责任(小心等待期)、保额信息(基本保额、有效保额、风险保额)、宽限期、投保年龄、保险期间、交费期等。

  指标方法论:上层指标可能是赔付率、发生率、继续率、退保率、费用率等;细分指标还有暴露数、准备金、未决赔付率、失效复效、FYP、FYC等。当然还没完,指标们还要区分口径,件数口径、保额口径、赔付金口径、准备金口径等。

  业务逻辑:记得笔者刚入行的时候学习过公司的课程:一张保单的流转,我们需要了解一张保单从销售、到核保、到保全、到理赔的各种环节流程,了解了这些你才知道什么自保件孤儿单,什么是犹豫期,什么是失效复效,什么是案发报案结案,以及这些对于经验分析数据有什么影响。

  菜谱本身不难,重要的还是了解原理逻辑后熟能生巧,融会贯通。

  二、有什么:数据探查

  知道了客人想吃什么菜,也要知道自己手上有什么食材、调料、厨具,提前判断能不能做出这道菜。巧妇难为无米之炊,尽早的评估需求可行性提出疑问,是提升效率的重要保障,不能等食材都下锅了才发现少了一味重要配料。

  数据是基石,软件是工具,我们既需要充分了解手头数据,包括数据的范围、口径标准、来源定义、数据质量等。也需要选用适当的软件工具提升效率。

  数据范围:

  精算讲究权责发生制,即保险的权益和责任要对等,不仅仅是金额上保费和赔付的对等,发生的时间也要匹配,即赔付需要发生在保险责任的有效期间范围内。以时间范围匹配为例,计算赔付率时分母考虑的是经过保费,而分子考虑的是案发在观察期内的终极赔付金,这也是为什么需要估算未决赔付部分。除了时间以外,产品责任、目标客群、地区、渠道等也是要考虑的点,分析的数据范围要跟结果的应用范围形成匹配。

  数据定义:

  既是数据定义也是数据的口径标准,例如年龄是投保年龄还是到达年龄,计算方式是ALB还是ANB;保费是毛保费还是净保费;准备金是什么口径等。笔者特别要强调一下保额的定义及口径:通常保单都会与客户约定一个基本保额,这是逐单的不区分责任;而产品各责任的赔付会在基本保额的基础上有一些系数调整,或是返还保费,形成有效保额,这是逐责任的且可能随时间变化;有效保额扣减准备金后,反应的才是对保险公司真正的财务影响,称为风险保额。通常基本保额可以作为一些指标例如发生率的加权权重,而有效保额和风险保额主要用于精确计算赔付率。

  数据质量及清洗:

  这一步笔者一直觉得是数据分析的重要一环,通常需要花费超过一半的时间精力,展开讲恐怕要另起一篇文章了。核心其实是在明确上一步数据定义的前提下,数据中每个字段的取值都会存在一个合理值域,例如性别只能是男、女,保险期间、交费期间只能是产品条款中约定的几种等,对于所有超出值域的异常值或者空值,都需要检查原因并修正,最后取值的分布也要有合理性。当然考虑到效率问题有时一些异常的小样本可以剔除处理,毕竟数据分析与财务对账不同,不需要精确到一分不差。

  软件工具:

  数据存储、计算、分析的工具有很多,而且更新换代速度很快,这里不一一列举。主要想讲的是最流行的不一定是最好的,一定要选择与数据量、硬件条件以及自身技能最匹配的工具。最自动化的也不一定是效率最高的,不能为了自动化而自动化,对于计算分析逻辑复杂多变的场景,自动化程序的反复调试更新成本更高,手工处理往往效率最高。但需要做好检核逻辑,避免操作风险。