火眼科技大数据风控模型研发的两大关键点 - 长沙天心桂花坪其他生活服务

火眼科技：大数据风控模型研发的两大关键点

数据科学仅仅是数据决策的一个算法环节，但是算法的实现要有很多基础设施作支撑，就像人一样——人的正常活动不仅靠的是大脑，也需要骨骼、血液作支撑。我们能在极短的时间内做出授信决策，很大程度上依赖于我们有一个强悍的系统作支撑。

整个授信环节可以分成很多步骤，如果能在早期的授信环节，通过较少的数据对用户的风险作出判断，那这就不会经过后面的操作，决策作出的就比较快。很多指标都是以“流式”的方式进行计算的，即只要当符合一个指标计算需要的条件被满足的时候，它就可以很快地被计算出来，不是等到所有的数据都准备好了之后才开始计算。总之，要做到“快数据”，整个计算引擎都是需要经过高度优化的。

“乐高式”的分布式模型

在业务的所有链条里，人工智能技术和数据是贯穿整个产品生命线的。模型结构采用分布式结构，也就是说，无论客群、渠道如何变化，模型基本上可以保证在一定的稳定性水平上。分布式模型的个考量是灵活性。因为模型里有很多的子模型，可以根据合作伙伴、合作模式的不同，把子模型非常松散地作排列组合——像乐高玩具一样——形成优的方案。这样的处理会比较标准化、模块化，像乐高玩具一样可自由拆分组合。比如说有一些合作伙伴，基于用户体验的考量，不想用基于用户地理信息的行为数据。使用分布式的模型结构，就不需要每对接一个渠道方都重新做一次模型了。

第二个考量是模型的稳定性。因为一个模型可能会接四十多个数据源，有时数据的底层是非常“脏”的，并不是拿来就能用的，如果底层的数据出现抖动的话，可能会对模型产生比较大的影响。使用分布式结构模型，如果一个子模型效果或稳定性上出现问题，只要把这个子模型拆开，换一个模块就行，这样可以保证其他的子模型不受影响。第三个考量是模型的效果。机器学习允许使用不同的方法——比如神经网络、深度学习、增强学习、决策树等各种的算法——去解决同一个问题。具体场景下哪个办法好，是在实践的过程中发现的。

兼用传统逻辑回归与机器学习算法

传统的风控模型都是线性模型，比如逻辑回归，它的特点是高度结构化和可解释性。但问题是，如果两个变量与之间不是线性的关系，在把它变成线性关系的过程中会损失很多信息。而且这种情况下，去做特征工程时，是需要人去想的。但人总有局限性，你看到想到的东西并不是全部，有时它甚至是错的。

火眼科技提醒大家：机器学习、深度学习的模型，它的好处是能自我适应、自我学习，但这类模型基本上是一个黑盒子。因为模型的结构非常复杂，比如说一个决策树模型里可能有一千棵树，每一棵树可能会有三四层——结构上非常复杂以至于人没有办法去描述它。这可能也是为什么一些传统银行里的从业人员，用AI模型的时候会比较没有安全感，因为他看不到这个模型里是怎么样的，总觉得要自己掌控的才能放心。

www.***