女扮男装复仇记(人鱼岛的赵朴斋)_第18章肝完方案（2 / 2）_女扮男装复仇记最新章节免费阅读无弹窗

“你简单给我们说说。”

“好。”林荃歌直接走到姚霖彦身边，在文稿中展示她的思路。

“我先是构造了客户违约风险预测模型框架。”林荃歌指了指最上方的图表，“然后构建了XGBoost、CATBoost两个模型。”

“通过观察训练集与测试集样本，发现测试集中出现的部分客户贷款记录是训练集中所没有的，这意味着训练出来的模型将学习不到测试集中这部分贷款记录信息，从而导致模型出现预测误差。”

林荃歌翻页，又指了指建模后对数据的分析。

她又指着四张对比图表：“根据特征的违约频率分布可视化，可以明显看到分布比较混乱。减少特征分布混乱的数据导致的噪声问题，提高模型的学习能力。”

林荃歌点点结论：“当学历水平与最高学历水平相等时，用户违约率极低，仅有0.2273%，在一定程度上反映了客户的信用水平。”

她翻页后，继续跟进图标分析：“下面，我进行了更细粒度的特征挖掘。”

她指了指下面的图形阐释：“在风控领域，标签对主体特征非常敏感，所以我们通过构造欺诈率特征来表征类别特征，获得了极高的收益。但在实际的构建过程中，直接使用均值会造成标签泄漏，这里我们采用Kfold方式进行欺诈率特征提取。

“将训练集分为5个fold，每个fold使用其余4个fold的欺诈率作为特征。”

“对全量训练集五折交叉验证后，在线下AUC指标增加的情况下，选取训练集中isNew=1的数据集进行线下的五折交叉验证，当线下AUC与线上AUC都增加时，才保留该部分特征。”

“通过Rank加权几何平均来得出最后的融合。这样的模型就能够预测客户是否会出现信用违约行为。”

林荃歌说完，看了看两人：“您二位觉得这样如何？”

“明天就交稿了，你带我们去看看模型。”

姚霖彦直接站了起来，郑雅勋也跟着站了起来。

“好。”

三人直接回了书房，林荃歌将模型展示给二人看，并让姚霖彦选取了其中一个客户数据，进行验证。

“模型显示出该客户会违约，符合预期。我们的这个模型，有四大创新点：一是能发现潜在的欺诈行为。二是增强了模型学习测试集的能力。三是更贴近实际的业务意义，特征解释性强。四是双重线下验证的特征筛选，保证了模型的稳定性。

听完，二人互相对视了一眼。

姚霖彦率先鼓掌：“辛苦啦！阿州，才四天时间就做出了这些，实在是不容易啊！”

“没有没有，时间紧凑，模型其实还很粗糙。”林荃歌很是不好意思地摸了摸鼻子。

“不容易啊！你再完善完善文稿，明天交上去。今天就先休息休息。”姚霖彦拍了拍她的肩膀，“你这都熬瘦了。晚饭多吃点。我们也还没吃呢！一起一起。”

三人吃饭，这伙食更是丰盛。

“真正野生大黄鱼，来一条。”郑雅勋主动夹了一条到林荃歌的碟中。

“谢谢郑少。”

“别郑少了，叫我阿勋。我相信我们肯定能进决赛。决赛现场，你叫阿勋多见外。”

“对对，叫我阿彦，我们现在可是同舟共济的兄弟，决赛就靠你了。”

姚霖彦又夹了一条大黄鱼到林荃歌的碟中，一脸灿烂。