出版时间:2016年12月 |
2013年是中国互联网金融的元年,第三方支付、网络借贷、众筹等业务迅速发展。经过若干年发展后,第三方支付市场趋于饱和,众筹业务未见明显起色,唯有P2P网络借贷一枝独秀,依然保持迅猛发展势头。P2P网络借贷的快速发展有中国特有的体制因素,它是对传统体制所导致的金融抑制的有益补充,是普惠金融的重要组成部分。然而,在评分技术匮乏以及监管环境存在真空地带的背景下,P2P网络借贷行业的发展面临极大的风险和挑战。
P2P网络借贷平台能否健康发展,关键取决于信用风险的管理能力。本文应用二元离散选择模型对P2P网络借贷借款人的违约特征进行分析,为网贷平台的信用风险管理和贷款定价政策提供基础性依据。另外,P2P网络借贷违约数据的评估补充了传统征信体系在个人征信方面的不足,为相关监管政策的制定提供量化基础。
一 数据来源、模型指标选取及数据初处理
本次研究的基础数据来源于宜信、麻袋理财、玖富理财、小牛在线、融金所、翼龙贷等网贷平台,基础数据记录数83042条。字段名称包括是否逾期、逾期日期、逾期天数、性别、学历、年龄、月收入、月支出、单位性质、职业、职称、工作年限、婚姻状况、是否有子女、教育背景、车辆资产、车型、居住城市、抵押情况、产品名称、借款额度、借款期限、借款用途、还款方式、利率水平等。
我们根据各网贷平台提供的数据量和字段名称的共性,并考虑字段的现实意义的重要性,最后模型保留指标见表1。
表1 模型指标选取
在选取模型指标后,数据还存在空白和异常值等问题,还需要对数据进行清洗筛选。具体包括以下三个步骤:第一,剔除空白数据。某些离散型变量存在空白数据的情况,鉴于所占比重较少,采取直接删除的方法剔除。第二,异常值的处理。所谓异常值,包括两种类型,一是不符合指标本身的定义,如信用卡使用率这一指标的计算值不超过1,那么数据初处理中删除大于1的记录;二是指标的计算结果不符合经济意义,如月收入中存在12亿元以上的数据,显然有这样月收入的客户在正规渠道是可以融资的。此外,借款额度还存在小数的情况,而一般网贷平台放款额都是整数。对于这类数据我们将其近似到以万元为单位的整数。第三,构建虚拟变量。对于离散型变量,我们需要构建虚拟变量;同时,为避免完全共线性的问题,每个项目都选择一个“常见情况”作为对照组。详细的数据初处理流程见图1。
图1 数据清洗筛选流程
二 变量描述性统计
在完成上述数据初处理流程后,最终进行模型计算的样本数为40479。表2和图2给出了连续型变量的描述性统计结果。
表2 连续型变量的描述性统计
月收入变量的取值范围为200~80000元,均值为12759.93元,中位数为6000元,偏度和峰度指标显示月收入变量为右偏尖峰分布。借款额变量的取值范围为10000~300000元,均值为37634.54元,中位数为30000元,偏度和峰度指标显示借款额变量为右偏尖峰分布。信用档案变量的取值范围为0~308,均值为58.79,中位数为55,偏度指标显示信用档案分布略微右偏,峰度值略高于正态分布的峰度。年龄变量的取值范围为22~60岁,均值为36.62岁,中位数为35岁,偏度指标显示年龄分布略微右偏,峰度值略低于正态分布的峰度。工作年限变量的取值范围为0~51年,均值为7.78年,中位数为4年,偏度和峰度指标显示工作年限变量为右偏尖峰分布。贷款期限变量的取值范围为6~48个月,直方图显示贷款期限集中在24个月附近。
中国互联网金融行业分析与评估(2016~2017)
中国互联网金融行业分析与评估(2016~2017)
图2 连续型变量的直方图
表3给出了离散型变量的描述性统计结果。车辆资产中,变量取值为0时表示无车,取值为1时表示有车;均值为0.35,表示样本中有车的比例为35%。性别中,变量取值为0时表示女性,取值为1时表示男性;均值为0.75,表示样本中男性的比例为75%。婚姻状况有4种,每一个样本在M1、M2、M3、M4中只能有一个变量取值为1,其他变量取值必须为0,如(0,1,0,0)表示已婚状态。从婚姻状况这一类别4个变量的均值可以看出,已婚样本占比最多,为75%。住房状况5个变量的定义方式与婚姻状况类似,从描述性统计结果来看,样本中自住住房的比例最高(55%),其次为租赁和与亲属同住的样本。教育程度4个变量的定义方式也与婚姻状况类似,描述性