当前位置:首页 > 专题范文 > 公文范文 >

基于组合数据挖掘技术的信用评估模型研究

时间:2022-10-26 08:10:18 来源:网友投稿

摘要:组合数据挖掘技术正在成为研究的一个热点。组合方法是信用评估的一种新趋势,目标是提高模型的分类准确性。因此,介绍了信用评估的概念、信用评估指标体系建立的原则,以及常用信用评估方法的比较。最后,对目前信用评估模型中的组合方法进行了比较分析,为以何种角度构建组合信用评估模型提供了思路。

关键词:信用评估;数据挖掘;组合算法

中图分类:TP311.13  文献标识码:A  文章编号:1673-291X(2012)23-0129-02

一、信用评估的定义

信用评估是统计学和运筹学在金融和银行业中最成功的应用之一,也是最早开发的金融风险管理工具之一。信用评估通常定义为一种用于预测贷款申请者或现存借款人将发生违约或拖欠概率的统计或定量方法,广泛应用于消费信贷到商业贷款的各类信用分析中。信用评估的本质是模式识别——将企业或个体消费者按照其历史资料和相应的数据划分为履约(即“好”客户)和违约(即“坏”客户)两类。各种信用评估方法的思路在本质上是相同的,即运用数据挖掘技术、统计学和运筹学等方法,通过对消费者基本特征、信用记录、行为记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,获取历史信息和未来信用表现之间的关系,发展出预测性的模型,来综合评估消费者未来的某种信用表现即事先确认某些决定违约(与偿还款项相反的行为)概率的关键因素,然后将它们加以联合考虑或加权计算出一个数量化的分数。根据分数或一个关键点把潜在的客户分成“好”客户与“坏”客户两组,用于是否贷款的决策审批。信用评估成为是否发放贷款、贷款额度、产品定价、以及提高放贷机构赢利性和操作战略的决策支持工具。

二、信用评估指标体系建立的原则

评估指标体系的选择己经成为信用评级工作的首要问题,它关系着评估工作的成败。寻找一种较为科学的指标选取的方法是信用评估研究和探索的重点之一。为使指标的选取更为客观、可信,待选指标体系的确定必须在正确的指导原则下进行,本文归纳如下。

1.准确性原则。指标的选择、数据的选取、计算必须以公认的科学理论为依据。

2.全面性原则.。指标体系要全面反映贷款申请人的各方面特征,在考核过去表现的同时,更要预测未来的发展趋势,既要考虑评估对象的情况,还要研究社会经济环境及其发展的影响。信用风险的评估要覆盖贷款业务的每个行业及行业内的每一笔贷款业务。

3.可操作性原则。要求指标体系的设置避免过于繁琐,同时还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性。

4.独立性原则。确定评估指标在考虑全面性的基础上,要使采用的指标尽可能相互独立,指标间的独立性越好,评估的准确性越高。

5.可量化原则。为了克服主观评价所带来的不确定性和盲目性,评价要尽量做到以量化研究为主,同时定性评价与定量评估相结合。

6.灵活性原则。评价指标体系应具有足够的灵活性,以便各银行可根据自己的放贷方式和用途以及本地区的实际情况,对指标灵活进行运用。

7.公正性原则。信用评估指标体系的建立,要符合客观事实,能正确反映评估对象信用等级的真实面貌,指标体系和计算方法不能偏向评估对象或授信方的任何一方,评估机构和评估人员不能根据个人爱好,任意改变指标项目,计算方法和评估标准。

8.动态性原则。信用风险的评估不是简单静态的一次度量,而是连续动态的调整过程,因为随着贷款企业在生产环节中的每个过程都在动态发生变化,企业的经营成果也随着发生改变,变化中的财务和非财务数据就直接地影响到信用风险评估结果。因此,信用风险的评估是要不断地进行调整的,基于国内银行和企业的财务制度,建议一个季度进行动态调整一次。

三、基于数据挖掘技术的信用评估算法

David Durand(1941)从Fisher的一项试验中获得启示,意识到可以采用把整个客户群分为好与坏两种不同类别的方式来处理放贷问题。在随后的发展和演变过程中,个人信用评始终被看做是一个分类问题。到目前为止,主要的评估方法大致可以分为以下几类:经验式评判法、统计学方法、运筹学方法以及人工智能方法中的数据挖掘技术。

信用评估的本质是分类,因此,信用评估是数据挖掘技术非常重要的一个应用领域。数据挖掘从大量数据中提取或“挖掘”知识,用于信用评估,可对客户进行分类、聚类、关联规则发现、预测、偏差检测等;其中,多数用分类、关联规则发现和预测方法进行个人信用评估。目前,用于信用评估的分类算法主要包括判别分析、Logisitic回归、决策树、线性规划、神经网络、遗传算法、支持向量机等算法。

1.判别分析。是一种信用评估中使用最早的算法,其本质是一种线性回归,它通过对己知客户进行分类形成若干母体,然后根据这些母体的特征得出判别函数来判断对象属于哪个母体。由于判别分析的假定条件过于严格如要求解释变量呈多元正态分布,如果客户样本存在一定偏差性,则不是很适合使用该算法进行信用评估。

2.Logisitic回归。是线性回归的变形,通过采用极大似然估计的迭代方法,找到“最可能”系数的估计,适用于解释变量为定性指标的问题。该算法不受解释变量分布假设的严格限制是其优于判别分析之处,但评分的结果和判别分析的差别并不大。

3.线性规划。线性规划是一种运筹学的方法,采用最小绝对误差或最小化最大误差作为目标对客户进行分类。但许多学者通过研究比较之后认为该方法在信用评分领域的效果并不比统计方法优越,所以线性规划的实际应用并不多。

4.K近邻判别。K近邻判别是一种非参数统计方法,Chatterje等把这种方法引入信用评分领域,在申请者数据上选取一个矩阵来测量申请者的信用差距,其常用来解决概率密度函数的估计和分类问题,在应用中不受样本偏差的限制,但模型参数的选择有很大随机性,在信用评估中应用较少。

5.决策树法。是20世纪80 年代末提出的一种利用机器学习技术发展起来的符号方法,是一种非参数统计方法。决策树是一个类似流程图的树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的输出结果;这样,树的每个叶结点就代表一个类别。从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树可以很容易转换为分类规则。基本决策树算法是一个贪心算法,采用自上而下、分而治之的递归方式来构造。构造决策树的经典算法有 ID3、C4.5。

Makowski在1985年提出将决策树方法应用于个人信用评估,其基本思想是按照某个特征变量的取值将客户分成不同的组然后不断进行分类,使得同类客户差异尽可能的少,而与类间的差异尽量大。Davis等在1992年将决策树算法应用于苏格兰商业银行的信用卡信用评估问题,并与几种常见算法进行比较分析。

6.神经网络。神经网络是最典型有效的人工智能方法之一,是在现代神经科学研究成果的基础上,试图通过模拟人类神经系统对信息进行加工、记忆和处理的方式,设计出的一种具有人脑风格的信息处理系统。神经网络是由一组相互连接的输入输出单元组成的非线性、自适应、自组织、具有自学习等能力的系统,这些单元之间的每个连接都关联一个权重。它对数据的分布要求不严格,而且对自变量与应变量之间的函数关系也无详细要求,已被证明是一种适用于信用评估的方法。

7.遗传算法和遗传规划。遗传算法是一种最优化空间搜索方法,将“适者生存”这一基本的达尔文进化理论引入串(染色体)结构,通过模拟生物进化中的遗传选择、交叉、变异过程引导种群不断向好的方向发展,从而得到满意解。这种方法广泛应用于信用评估。最先把遗传方法应用于信用评估的学者是Fogarty,Ireson 和 Albriht。1997 年 Desai等对遗传算法和神经网络在个人信用评估上的应用进行了比较分析。

遗传规划是在遗传算法的基础上引入自动程序设计的一种方法。遗传规划是在遗传算法的基础上发展起来的全局搜索算法,但它克服了一些遗传算法的缺陷,与遗传算法有一定的区别。由于遗传算法直接对定长字符串进行操作,所以不能描述层次的问题。而遗传规划个体的树形表达方式则弥补了这一点。遗传算法定长的字符串描述方法不具备动态可变性,每一种结构仅适用于某类问题的求解。而遗传规划的程序结构不再考虑等位基因的位置,带来了极大的灵活性,具有动态改变大小、形状的能力。

8.支持向量机。支持向量机是在统计学习理论基础上发展起来的一种新的机器学习方法。统计学习理论对有限样本情况下模式识别中的一些根本性问题进行了系统的理论研究,很大程度上解决了模型选择与过学习问题、非线性和维数灾难问题、局部极小点等问题,因此成为目前研究的热点。

四、信用评估模型中的组合方法

组合方法是信用评估的一种趋势,它组合多种技术和方法构造信用评估模型,以改进模型的精度及性能。较为典型的组合方式就是直接将不同的评估模型组合起来使用,针对某一种或几种评估模型的不足,结合其他模型的优点对其进行弥补或者优化,改进分类预测的精度及模型的性能,以期待组合模型的评估优于单个模型的评估结果。在信用评估中比较典型的应用是 Heieh在 2005 年提出的一个组合聚类分析和分类技术的模型,该模型首先采用自组织映射神经网络(SOM)和 K-means 进行无监督学习,把样本聚成几类,然后用这些样本去训练神经网络。在对两组标准样本的测试中,取得非常好的分类结果。Lee 和 Chen 在 2005 年提出了一个两阶段信用评估模型,结合神经网络和多元自适应样条回归(MARS),先用多元自适应样条回归的方法提取属性,然后用提取后的属性训练神经网络,与几种传统的方法进行比较分析,实验结果表明该组合模型在分类准确性上表现得更好。

参考文献:

[1] 姜明辉,袁绪川. 基于 GP 的个人信用评估非线性组合预测模型[J].电子科技大学学报,2008,10(1):1-5.

[2] Defu Zhang, Hongyi Huang, Qingshan Chen, Yi Jiang. A Comparison Study of Credit Scoring Models[J]. Third International Conference

on Natural Computation, 2007,(1):24-27.

[3] Eliana Angelini, Giacomo di Tollo, Andrea Roli.A Neural Network Approachfor Credit Risk Evaluation. The Quarterly Review of E-

conomics and Finance,2008, (11):733-7550.[责任编辑 柯 黎]

推荐访问:组合 模型 数据挖掘 评估 信用

相关推荐