一、提升图:
在我们模型完成之后,还要看模型的提升图,主要是通过随机选择比较模型。通俗点就是将模型预测的违约概率降序排列,按照样本数分成10等分,计算出每一等分上的坏样本占比badrate,和随机抽样即总样本的badrate对比,就是提升图。
如下图所示:
好的模型提升图应该是光滑的向下的曲线,最好有3到4个点是在random的上方。
二、sgplot过程:
可视化从来都不是一两句话可以总结的完的,对各种可能的图形有个了解,掌握一些基础过程代码指令,然后在工作中查询帮助文档。
/*提升图*/
proc sgplot data=cc_&tab.;
REFLINE &random/axis=y label='random' TRANSPARENCY=0.3;
series x=rk y=percent1/lineattrs=(color=blue thickness=2 pattern=solid) datalabel
markers markerattrs=(color=red symbol=trianglefilled);
xaxis label='bin';
yaxis label='bad per bin';
run;
上面的提升图就是这段代码跑出来的。
REFLINE:参考线,其中宏变量random是总样本的badrate,axis=y表示参考线在y轴上,TRANSPARENCY是参考线的透明度。
series 是实质上的划线的Statement,实际上 / 之后到;之前都是series的option,如lineattrs是线的特性(颜色,线厚度,实线)、datalabel表示加数据标签、markers表示增加数据点、markerattrs是点的特性(颜色、点的形状)。
登录 | 立即注册