目录详情

首页 >> 保险资料库 >> 目录详情
正文:

归纳式学习方法在保险数据分析中的运用

陈秉正 李钲 曾立

                              (清华大学经济管理学院,北京 100084)
  
  [摘要]机动车辆保险是我国财产与责任保险中最重要的险种之一。多年来,我国保险企业在开展机动车辆保险业务的同时,积累了大量数据。利用数据挖掘技术对其中蕴藏的有价值信息进行充分分析,可以为保险企业的经营管理提供重要参考。本文运用归纳式学习方法,对某市机动车辆保险的数据进行了分析。分析了保单中被保险人、保险标的、保费等方面的因素与保单赔付金额和赔付次数等因素之间的关系,发现了一批反映这些因素间相关关系的规律,说明归纳式学习方法在机动车辆保险数据分析方面具有重要的应用价值。
  [关键词]机动车辆保险;归纳式学习;数据挖掘
  [中图分类号] F840.32 [文献标识码] A [文章编号]1004-3306(2006)03-0083-04
  Abstract: Motor vehicle insurance is one of the most important products of property and liability insurance. For many years, Chinese insurance enterprises have accumulated a large quantity of data while writing motor vehicle insurance. A thorough analysis of the valuable information in these data by using data mining technology will be very helpful for operation and management of insurance companies. This article uses the inductive method to analyze motor vehicle insurance data of a certain city. Specifically, it analyzes the relationship between amount and frequency of claim payment and factors such as the insured, subject matter of insurance and premium and uncovers some correlation rules between them. This indicates that the inductive method is of great value in motor vehicle insurance data analysis.
  Key words:motor vehicle insurance; inductive study; data mining
  
  机动车辆保险是我国非寿险业务中最重要的险种之一,其保费收入在许多财产保险公司中占到了60%甚至70%左右。多年来,我国保险企业在开展机动车辆保险业务的同时,积累了大量有关机动车辆在投保、理赔、事故记录等方面的数据,这些数据中包含了大量的有价值信息。对这些信息进行充分挖掘,可以为保险企业在制定和调整保单条款、保险价格、核保条件等方面提供重要的参考,对推动我国保险市场的公平、科学、高效发展具有重要的意义。而归纳式学习方法在机动车辆保险数据分析中具有重要的应用价值。
  一、归纳式学习方法概述
  归纳式学习方法是一种基于概率描述和统计模式识别的数据分析方法,它的基本内容是:(1)从样本中提取不同属性值之间具有的相关关系模式;(2)根据所提取的相关模式构造描述属性特征间相互关系的规则;(3)根据生成的规则进行分析和预测。简要介绍如下。
  设S是一个由N个样本点组成的多元随机变量的集合,其中每个样本点均有p个属性,Attrj,j=1,2,Λp,Attrj的值域为domain(Attrj)={vjk:k=1,2,Λkj},j=1,2,Λp(1)
  1.从样本点中提取不同属性值之间的相关模式
  考虑两个属性Attri和Attrj的相关性。记
  olk=观测到的样本点集S中属性Attri取值为vil和属性Attrj取值为vjk的样本点个数
  elk=在零假设H0下应观测到的样本点集S中属性Attri取值为vil和属性Attrj取值为vjk的样本点个数的期望值
  这里,零假设H0为:Attri和Attrj相互独立。记I和J分别为属性Attri取值为vjk和属性Attrj取值为vil的个数,则可得到如表1所示的二维或然表。
  属性Attri和属性Attrj取值的二维或然表
  表1
  ()Attrj
  vj1…vjk…vjJ()合计vi1()o11…o1k…o1J()o1…()…()…Attrivi1()oi1…oik…oiJ()oi…()…()…viI()oI1…oIk…oIJ()oI为检验属性Attri和属性Attrj的相关性,令
    χ2ij=∑()l∑()k(olk-elk)2()elk(2)
  则当假设H0成立时,由上式给出的χ2统计量的分布近似趋近于自由度为d=(I-1)(J-1)的分布。如果χ2ij大于临界值χ2d,α,(其中α为显著水平),则拒绝假设H0,可认为属性Attri和属性Attrj具有相关性;否则,便没有足够的证据支持属性Attri和属性Attrj具有相关性的结论。
  统计量χ2ij仅表明了属性Attri和属性Attrj整体上是否具有相关性,并不表明Attri的某一具体取值vil是否与Attrj的某一具体取值vjk具有相关性。为确定Attri的某一具体值vil是否与Attrj的某一具体值vjk相关,考虑概率Pr(Attri=vil|Attrj=vjk)和Pr(Attri=vil)是否具有显著差异,可通过考察olk与elk的差异来分析这一点。当olk与elk的差异较大时,可认为Attri的取值vil与Attrj的取值vjk之间有较强的相关性。通常采用如下形式的标准差来反映olk与elk的差异:
  zlk=olk-elk()elk(3)
  当|zlk|1.96时,可认为概率Pr(Attri=vil|Attrj=vjk)和Pr(Attri=vil)具有显著差异,即Attri的取值vil与Attrj的取值vjk具有显著相关性。考虑到zlk渐进于标准正态分布,还可以采用更精确的调整差
  dlk=zlk()vlk(4)
  其中
  vlk=(1-ol()N)(1-ok()N)(5)
  当|dlk|1.96时,可认为Attri的取值vil与Attrj的取值vjk具有显著相关性。例如,当dlk1.96时,若Attri=vil,则Attrj=vjk的可能性很大。
  2.根据所得信息构造各属性特征之间的相关规则
  归纳式学习方法采用的描述各属性值之间相关关系规则的一般形式为:
  如果<条件>,那么<结论>,且具有证据权数W
  其中W是一个对结论的支持性证据或反对性证据的一个度量。例如,用规则形式表示两个Attri与Attrj的相关性时,可写成:
  如果属性Attri的取值为vil,则属性Attrj的取值为vjk,
  且具有证据权数W(Atrri=vil/Atrri≠vil|Attrj=vjk)
  其中的证据权数可理解为在条件Atrrj=vjk下,从Attri=vil获得的信息量和从Attri≠vil获得的信息量的差。如果对于Attri=vil,结果所提供的是支持性证据,那么应有证据权数W>0;如果对于Attri=vil,结果所提供的是反对性证据,那么证据权数W<0。
  3.根据生成的规则进行预测假设我们要识别过程S以外的某个新个体ObjN+1关于属性Attri的值,则在已知Attrj=vjk,j=1,2,Λp,j≠i的条件下,Attri=vil的证据权数可用每个属性Attrj的取值vjk的证据权数之和来近似。这样就可以根据已有的规则,对新个体ObjN+1关于属性Attri的值进行判断和预测。
  二、机动车辆保险数据的来源和分组
  本文数据来源是我国北方某城市某年的机动车辆保险保单,通过随机方式抽取了3 000份保单,经过必要技术处理后,得到可用于分析的有效保单2 233份。根据保单提供的承保和赔付方面的信息,我们将每份保单的属性分成了10类,与被保险人有关的6个属性分别为被保险人的性别、年龄、驾龄、保险标的价值、保费、业务来源①;与赔付有关的4个属性为年赔付金额、年赔付次数、案均赔付金额②、年平均事故区域③。
  为分析各属性之间的相关性,需要对每一属性的取值进行分组,我们分组的原则是:
  1.根据属性值的实际意义来划分。例如,“业务来源”属性的取值就是根据实际情况分成两个:1表示直销,2表示通过代理销售。
  2.根据通常的理解和习惯。例如,在对“年龄”属性分组时,将30岁以下分为青年,30~40岁分为中青年,40~50岁分为中年,50岁以上分为中老年。
  3.在兼顾上述两个原则的基础上,根据尽可能多地提取信息量的原则进行分组。例如,在将“保费”进行分组时,就注意了尽量让各组中的样本数量比较平均。
  根据以上分组原则,每个属性取值的分组结果为:
  (1)被保险人年龄:青年(30岁以下)、中青年(30~40岁)、中年(40~50岁)及中老年(50岁以上)
  (2)驾龄:新手(0~3年)、较生疏(4~6年)、较熟练(7~8年)、熟练(8年以上)
  (3)保险标的价值:低档车(15万元以下)、中档车(15~20万元)、高档车(20~40万元)、豪华车(40万元以上)
  (4)保费:2 000元以下、2 000~3 000元、3 000~4 000元、4 000元以上
  (5)业务来源:直销、代理
  (6)年赔付金额:1 000元以下、1 000~2 000元、2 000~4 000元、4 000元以上
  (7)年赔付次数:0~1次(较少)、2~3次(中等)、3次以上(较多)
  (8)案均赔付金额:600元以下、600~1 000元、1 000~2 000元、2 000元以上
  (9)年平均事故区域:1(市内)、1~2(不包括1)(市外)、2~3(不包括2)(省内)、3~4(不包括3)(省外)
  三、主要分析结果及解释
  ①保单销售方式是通过代理还是直销。
  ②案平均赔付金额=年赔付金额/年赔付次数。
  ③每份发生过赔付的保单中都记有保险事故发生的区域,如市内、省内或省外等。我们用不同的数值表示不同的区域。如果一份保单一年中发生了多次赔付,我们用发生事故地点所对应数值的平均值表示年平均事故区域。
  在对每一属性的取值进行分组后,再分别就被保险人年龄、性别、驾龄、保险标的价值、保费、业务来源这6个属性和其它4个属性的关系进行了分析(见图1、表2)。(限于篇幅的关系,我们这里只具体给出了分析驾驶年龄和年赔付金额之间关系的各种表格,包括或然表、期望值表、调整差表和证据权数表,不再展示分析其他相关关系时用到的表格,只给出相关的分析结论。)
  图1各属性间相关性的分析
  通过χ2检验得到的各赔付因素和
  各被保险人因素之间整体相关性的结论表
  表2
  是否具有显著
  整体相关性()被 保 险 人 因 素年龄()性别()驾龄()保险标
  的价值()保费()业务
  来源赔付
  因素()年赔付金额()否()否()是()是()是()是年赔付次数()是()否()是()是()是()否案均赔付金额()否()否()否()是()是()是平均事故区域()否()否()否()是()是()否1.驾驶年龄和年赔付金额关系的分析
  表3是从2 233份保单中根据对驾驶年龄和年赔付金额进行分组后统计出来的样本观测值。表4是在零假设下,计算出来的应观测到的属性值落在相应区间内的样本点个
  驾驶年龄和年赔付金额的或然表
  表3(单位:份)
  ()年 赔 付 金 额(元)1 000以下()1 000~
  2 000()2 000~
  4 000()4 000以上()合计驾
  驶
  年
  龄
  (年)()0~3()141()176()154()152()6234~6()223()184()178()115()7007~8()145()127()121()129()5228以上()103()94()91()100()388合计()612()581()544()496()2 233驾驶年龄和年赔付金额的期望值表
  表4(单位:份)
  ()年 赔 付 金 额(元)1 000以下()1 000~
  2 000()2 000~
  4 000()4 000以上()合计驾
  驶
  年
  龄
  (年)()0~3()170.7 461()162.0 972()151.7 743()138.3 824()6234~6()191.8 495()182.1 317()170.5 329()155.4 859()7007~8()143.0 649()135.8 182()127.1 688()115.9 481()5228以上()106.3 395()100.953()94.52 396()86.18 361()388合计()612()581()544()496()2 233数的期望值。根据这两个表可以计算出观测值和对应的期望值的差的平方和,从而得到χ2检验值。由于在H0假设下χ2检验值应服从自由度为d=(4-1)×(4-1)=9的χ2分布,查表可知χ29.5%=16.919。由于其检验值28.99033大于临界值16.919,因此可以认为被保险人的驾驶年龄和年赔付金额整体上具有显著相关性。
  在发现驾驶年龄和年赔付金额的整体相关性后,还可以进一步分析具体的驾驶年龄和年赔付金额的不同水平之间的相关性。根据本文前面介绍过的调整差d,得到了相应的调整差表(见表5)。表5中的阴影部分标出的是|d|>1.96的值,说明:对驾龄在0~3年之间的被保险人来说,年赔付金额很少可能会在1 000元以下;对驾龄在4~6年之间的被保险人来说,年赔付金额很大可能在1 000元以下,但很少可能会在4 000元以上。
  驾驶年龄和年赔付金额的调整差表
  表5
  ()年 赔 付 金 额(元)1 000以下()1 000~
  2 000()2 000~
  4 000()4 000以上驾
  驶
  年
  龄
  (年)()0~3()-3.14 658()1.495 154()0.244 641()1.545 7334~6()3.185 741()0.194 257()0.793 505()-4.4437~8()0.216 921()-1.00 498()-0.71 856()1.570 0288以上()-0.41 815()-0.88 511()-0.4 585()1.856 405表6列出的是证据权数表,表示属性值之间相关关系成立时的支持度或反对度。如果证据权数为正数,则说明提供的是支持性证据;如果证据权数为负,则说明提供的是反对性证据。如表6中“被保险人驾驶年龄在0~3年和年赔付金额在1 000元以下”这一关系的证据权数为-0.1108,这是一个反对性证据。说明,如果驾驶年龄在0~3年之间,则保险赔偿金额不大可能少于1 000元,用规则的形式来表示就是:如果被保险人驾驶年龄在0~3年之间,则年赔付金额在1 000元以下,且具有证据权数-0.1108。
  驾驶年龄和年赔付金额的证据权数表
  表6
  ()总 赔 付 金 额(元)1 000以下()1 000~
  2 000()2 000~
  4 000()4 000以上驾
  驶
  年
  龄
  (年)()0~3()-0.1 108()0.049 039()0.008 379()0.053 1414~6()0.092 818()0.006 002()0.02 478()-0.16 2147~8()0.008 058()-0.03 896()-0.02 833()0.060 5158以上()-0.01 898()-0.04 139()-0.02 168()0.084 926综合以上几个表可以看出,在被保险人的驾驶年龄和年赔付金额之间,整体上具有显著关联性;特别是对于驾龄在0~6年之间的被保险人来说,和年赔付金额的关联性更显著一些,年赔付金额一般比较低;对于驾龄超过6年的被保险人来说,其驾龄的长短似乎和年赔付金额没有明确的关联,但似乎具有发生高额赔付的倾向;对驾龄为0~3年的被保险人来说,年赔付金额的分布未呈现明显的规律性,但在1 000元以下的可能性很小。
  上述结论并不令人费解。对于驾驶年龄在0~3年的被保险人来说,由于其经验不足,往往会在驾驶中出现各类事故,因而导致较高的年赔付额,并且赔付金额的分布不具有规律性。当驾龄增长到4~6年时,被保险人的事故率开始降低,从而出现了较低的年赔付额。但随着驾龄的继续增加,忽视安全的倾向开始抬头,使得各种程度的事故发生的可能性又开始增加,并呈现出不规则的趋势。
  2.主要结论
  根据2 233份保单提供的数据,对与被保险人相关的6个属性和与保险赔付相关的4个属性之间的相关性进行分析后,可以得出以下结论:
  (1)保险标的价值和保费这两个属性与年赔付金额、平均赔付金额、赔付次数这三个属性之间具有显著相关性。随着被解释变量(保险标的价值和保费)的增加,呈现出年赔付金额、赔付次数、案均赔付金额随之增加的特征。
  (2)驾驶年龄与年赔付金额、赔付次数这两个属性整体上具有显著相关性,和案均赔付金额在整体上的相关性不显著。而且,驾驶年龄的某些区间和这三个属性的某些具体取值范围具有显著的相关性,主要表现在0(3年和4~6年这两个驾龄段上。驾龄为0~3年的被保险人的事故次数较高,4~6年的被保险人的事故次数较低,而且年赔付金额在1 000元以下的可能性很高。对于6年以上驾驶年龄的被保险人,和被解释变量(年赔付金额、案均赔付金额、赔付次数)的具体取值的相关性基本上不显著。
  (3)被保险人的年龄在整体上只和赔付次数有显著相关性,不过在某些具体年龄段上,和被解释变量的某些取值范围仍具有一定的相关性。总的来说,随着被保险人年龄的增加,逐渐呈现出低赔付次数、低赔付金额以及低案均赔付金额的特征。
  (4)业务来源和年赔付金额、案均赔付金额在整体上具有显著相关性,和赔付次数的相关性整体上不明显。在具体取值的相关性方面,主要表现为直接从保险公司购买的保单具有低年赔付金额、低案均赔付金额和低赔付次数的特征,通过代理购买的保单则刚好相反。
  (5)被保险人的年龄与被解释变量的相关性不是很显著。在分析具体年龄段和被解释变量的取值范围的相关性时,还可以发现一些结论:随着被保险人年龄的增加,逐渐呈现出低赔付金额、低赔付次数的特征,年龄在40~50岁的中年人具有低的赔付金额和赔付次数的可能性最大。
  (6)被保险人的性别和各被解释变量的相关性不显著。
  四、根据分析结果对新保单事故次数和赔付金额的预测
  根据上述分析过程得到的证据权数,可以得到判断某一新保单的某些属性取值范围的判别规则,并利用这些规则对新保单某些属性可能的取值范围进行预测。为了验证所得到的判别规则在预测方面的有效性,我们从样本中随机抽取了6张保单(见表7),利用已经生成的判别规则对这些保单的赔付金额、赔付次数等进行了预测,再将预测结果和这6张保单的实际观测值进行对比,以检验预测的有效性。
  具体来说,以被保险人年龄、性别、驾龄、保险标的价值、保费、业务来源等6个属性为解释变量,根据一张保单在这些属性上的取值,来预测该保单其它4个属性(年赔付金额、年赔付次数、案均赔付金额、平均事故区域)的取值,预测结果见表8。
  从预测结果来看,除了关于赔付次数的预测不理想外①,其它属性值的预测结果都和实际结果误差不大,说明通过归纳式学习方法所获得的关于机动车辆保单中各属性之间相关关系的规则,在一定程度上反映了这些属性之间的实际关联,可以用来对新保单中有关属性的取值区间进行预测。或者说,归纳式学习方法可以帮助我们获得描述保单各属性间相关关系的知识,并用所学到的知识来指导保单条款制定、定价、核保、理赔等业务。
  随机抽取的6张保单中的数据
  表7
  样
  本()年赔付
  金额
  (元)()赔付
  次数()平均赔
  付金额
  (元)()业务
  来源()保险
  金额
  (元)()保费
  (元)()性
  别()年
  龄()驾驶
  年龄()平均
  事故
  区域1()110()1()110()0()90 000()1 332.12()1()21()2()12()640()3()213()3()100 000()1 593.77()2()37()4()13()300()1()300()0()725 800()5 628.61()1()34()3()44()315()1()315()3()80 000()1 772.86()1()35()16()15()698()2()349()3()180 000()2 586.69()2()33()3()2.56()350()1()350()3()130 000()2 589.55()2()33()8()1对随机抽取的6张样本保单的预测结果
  表8
  样
  本()年赔付
  金额(元)()案均赔付
  金额(元)()赔付次数()事故区域预测值()实际值()预测值()实际值()预测值()实际值()预测值()实际值1()<1 000()<1 000()<600()<600()0~1
  次()1次()1()12()<1 000()<1 000()<600()<600()0~1
  次()3次()1()13()>4 000()<1 000()200
  以上()<600()3次
  以上()1次()2~3()44()<1 000()<1 000()<600()<600()0~1
  次()1次()1()15()1 000~
  2 000()<1 000()<6 00()<6 00()2~3
  次()2次()1()2.56()<1 000()<1 000()<600
  元()<600()0~1
  次()1次()1()1数据挖掘技术的应用是实现汽车保险从规模经营向效益经营转变的重要基础。在市场竞争日益激烈的今天,科学定价和有效识别优质客户是保险公司获得竞争优势的必要条件,而这两方面的实现都是以对数据的收集、管理和充分挖掘为前提的。国外保险公司在机动车辆(下转第96页)
  ①由此可以判断,赔付次数可能属于不宜预测的指标。保险研究2006年第3期专题研究
  [作者简介]陈秉正,男,清华大学经济管理学院保险专业教授;李钲,女,清华大学经济管理学院保险专业研究生;曾立,男,清华大学经济管理学院保险专业本科生。