机器学习如何应用于反欺诈?

欺诈是一项超过十亿美元的业务,而且每年都在增长。普华永道2018年全球经济犯罪调查发现,在被调查的7,200家公司中,有约一半经历过某种形式的欺诈。而相关第三方数据调查显示,消费金融及互联网金融公司的坏账中接近50%来自于欺诈。其中,身份冒用类占比例最高,其次是团伙欺诈以及恶意违约等。另外,多头借贷行为也非常猖獗。反欺诈简单来说,就是为了找出“羊群中的狼”,其必要性和紧迫性不言而喻。

阶段一、人工智能基础 — 高等数学必知必会

用于欺诈检测的技术可分为两大类:统计分析和人工智能。

本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程

统计分析技术的例子包括:

的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。

数据预处理 -用于检测、验证、纠正和填充缺失或不正确数据;

一、数据分析

计算各种统计参数-例如平均值、分位数、性能指标、概率分布等。例如,用户通话记录的平均呼叫时长,每月平均呼叫次数和账单支付的平均延迟天数;

1)常数e

时间序列分析-预测变化趋势与风险;

2)导数

聚类分析-查找数据之间的模式和关联性;

3)梯度

匹配算法-检测交易或用户行为中的异常。

4)Taylor5)gini系数

用于欺诈管理的主要人工智能技术包括:

6)信息熵与组合数

数据挖掘-对数据进行分类、聚类和分段,并自动查找数据中潜在的模式和规则,包括与欺诈相关的模式;

7)梯度下降

专家系统-规则的形式来检测欺诈的专业知识;

8)牛顿法

机器学习-自动识别欺诈特征;

二、概率论

神经网络-从样本中学习可疑模式,并在未来检测它们。

1)微积分与逼近论

其他人工智能技术,如链接分析、贝叶斯网络、决策理论和知识图谱等,也可用于欺诈检测。

2)极限、微分、积分基本概念

欺诈的新手段和方式层出不穷,仅依靠单一或简单的方法远远不够。上述方法和技术已经在业界获得一定程度的应用,业界对于相关技术的认可度和重视度也在与日俱增。

3)利用逼近的思想理解微分,利用积分的方式理解概率

事实证明,充分利用统计分析、机器学习技术乃至复杂的人工智能模型等,能够极大地提升公司的反欺诈水平,降低欺诈损失。

4)概率论基础

在下文中,笔者将主要介绍机器学习技术的反欺诈应用,讨论建立反欺诈机器学习模型的流程以及分享一些提升模型效果的思路。

5)古典模型6)常见概率分布

01 机器学习技术的反欺诈应用

7)大数定理和中心极限定理

实际业务中,常见的反欺诈手段主要包括:黑名单法、反欺诈规则系统以及机器学习技术。前两种方法实施简单,且可解释性较强,但往往存在滞后性严重和准确度低的问题。而建立反欺诈模型,特别是基于机器学习的反欺诈模型,可以通过多样的算法来准确地识别欺诈属性,降低欺诈风险。

8)协方差(矩阵)和相关系数

图片 1

9)最大似然估计和最大后验估计

如上图所示,我们将机器学习和人工智能解决方案分为两类:“有监督”和“无监督”学习。

三、线性代数及矩阵

有监督学习

1)线性空间及线性变换

有监督学习,或者说监督式学习,是反欺诈检测中最为广泛使用的机器学习模式。其模型技术包括但不限于决策树算法、随机森林、最近邻算法、支持向量机和朴素贝叶斯分类等。

2)矩阵的基本概念

图片 2

3)状态转移矩阵

监督式学习的机器学习模型通常是从有标签的数据中自动创建出模型,来检测欺诈行为。简单地说,就是通过学习经过分类的资料,建立一种模式,并依据这一模式来推测和判断新的实例。

4)特征向量

具体而言,监督神经网络、模糊神经网络以及神经网络和规则的组合已经被广泛应用于电话网络和财务报表欺诈;贝叶斯神经网络用于信用卡欺诈检测、电信欺诈、汽车索赔欺诈检测和医疗保险欺诈等。

5)矩阵的相关乘法6)矩阵的QR分解

这种类型的模型仅能够检测与先前已经发生的欺诈案例相类似的欺诈。想要检测新型欺诈,还需要使用无监督的机器学习算法。

7)对称矩阵、正交矩阵、正定矩阵

无监督学习

8)矩阵的SVD分解

相反,无监督方法不需要预选和标记欺诈类型。无监督学习的反欺诈模型使用各维度的数据和标签进行聚类,从而找出与大多数用户行为相差较大的,并予以拦截。

9)矩阵的求导

图片 3

10)矩阵映射/投影

下图展示了主要反欺诈手段出现的先后以及各自的检测效果和优缺点。

四、凸优化

图片 4

1)凸优化基本概念

黑名单和规则系统不能迅速和有效地应对变化的欺诈手段,显得有些“后知后觉”。有监督的机器学习需要人工标记欺诈标签来训练模型,无监督学习则可以自动产生标签,挖掘和聚类未知的欺诈行为。

2)凸集

迄今为止,尚未出现较为成熟和经过实践验证的无监督学习解决方案,一方面,无监督学习对于数据的广度、深度都有着极其高的要求,另一方面,我们的对于该方法的探索还有待加强。

3)凸函数4)凸优化问题标准形式

无论是使用监督方法还是非监督方法,输出仅为我们提供欺诈的可能性,没有独立的统计分析可以确保特定对象是百分百欺诈性的,但是模型识别的准确度非常高,尤其是结合黑名单和规则系统后,综合准确率会大大提升。

5)凸优化之Lagerange对偶化

02反欺诈模型流程

6)凸优化之牛顿法、梯度下降法求解

反欺诈模型的流程主要包含数据采集、数据预处理、风险特征挖掘、模型构建、模型监控五个环节,如下图所示:

阶段二、人工智能提升 — Python高级应用

数据采集

随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工

数据的质量和维度是成功模型的基础。在数据采集阶段,既需要整合内部数据,如用户申请信息、交易数据、网络及设备终端数据等,又需要外部数据的补充。许多用于反欺诈的外部数据来自法院、公安部、工商局、社保局等,包含了刑事犯罪信息、商业犯罪信息、违法账户等信息。同业共享的各类欺诈信息也是重要的外部数据。

作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。

由于数据来源广泛,直接导致数据种类和规模急剧增加。公司在数据处理技术方面除了采用成熟的商用数据库外,还应广泛应用大数据分析技术。

一、容器

数据预处理

1)列表:list

数据预处理主要是对数据进行结构化的处理,比如数据类型转换、缺失值和极端值的处理等,或是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

2)元组:tuple

对于客户数据,可跨越不同渠道归集客户相关属性,如年龄、账龄、教育程度、地域等要素,建立客户画像档案,描述客户特征。对于商户数据,应根据商户信用评级信息、产品销售量、商户类别等要素,建立商户档案,划分商户风险等级。

3)字典: dict

风险特征挖掘

4)数组: Array5)切片

在风险特征挖掘阶段,常用的分析方法有假设分析、关联分析、模式归纳分析等。比如,假设分析的目的是对问题提出各种可能的假设,并评估假设的分析过程;关联分析旨在从大量数据中发现事物之间有趣的关联和相关联系。

6)列表推导式

图片 5

7)浅拷贝和深拷贝

对客户的各类信息进入深入分析,以时间、频率、距离、比例等统计口径,建立风险特征库,比如近3个月交易金额,距离一公里以内的申请总人数等。运用大数据技术,计算出每个风险特征对相应变量的贡献能力,以及各风险特征之间的相关性,选取重要性高和贡献力强,以及相关性弱的变量,作为后续建模的备选变量。

二、函数

模型构建

1)lambda表达式

反欺诈模型可使用传统的逻辑回归和流行的机器学习模型,比如Boosting算法类别的Adaboost、GBDT、XGBoost等。其中热门的Xgboost模型,其主要优化点在于对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。

2)递归函数及尾递归优化3)常用内置函数/高阶函数

一般来说界定模型的好坏有两个方面,一个是区分能力,另外一个是稳定性,常用K-S值和PSI等指标来衡量。

4)项目案例:约瑟夫环问题

模型需要不断迭代优化,才能贴近真实情况。在模型迭代阶段,运用交叉验证等方法,不断优化模型,使模型各项指标(包括准确率、对数损失函数、精确率-召回率、混淆矩阵等),达到理想的预测效果。

三、常用库

模型监控

1)时间库

经过模型评估、选择及审批后,需要技术部门配合进行部署、生产测试,最终投入使用。在模型上线后,定期对模型的稳定性、区分度、精确性等指标进行监控。根据宏观经济环境或内部业务的变化,及时进行模型检测,及早发现隐患。根据监控结果,在模型性能发生明显退化时,根据退化的严重程度对模型进行迭代调整,或是重新开发。

2)并发库

03 如何提升反欺诈模型性能

3)科学计算库4)Matplotlib可视化绘图库

如果发现反欺诈模型的效果不太理想,可以尝试从以下四个方面提升:

5)锁和线程

一是数据方面,如果最终模型效果不太好,首先考虑数据采集阶段的变量维度是否足够,同时也需要尝试构建出更多的特征来。数据预处理是否到位,是否考虑到各种情况,有没有犯低级错误,导致后续建模效果不好等。

6)多线程编程

二是算法选择,使用一个简单的算法,比如线性模型,作为基准模型,后续用复杂的算法来拟合数据,对比各种模型在所拥有数据集上的表现与提升,通常复杂的算法会比线性的算法有着更好的效果,但也意味着更多的调参时间。

阶段三、人工智能提升 — Python项目

三是算法调参,一般说来,越复杂的算法所需要的参数越多。比如神经网络的参数就非常多,对算法本身需要有一定的了解,再花时间去一步步调参。

本阶段重点在于复习巩固Python的内容,通过对招聘网站的数据爬取,巩固静态网站爬取技巧,掌握技能包括requests库的使用、网页解析、正则表达式应用等;

四是模型融合,当我们使用不同的或相似模型不同参数的模型得到结果后,可将各个模型融合在一起,各模型作为新模型的输入重新训练,这样综合起来的模型效果可能会出乎意料。

通过对豆瓣网的评论数据的爬取以及职位画像系统,掌握网站模拟登陆的知识,掌握技能主要包含模拟登陆、数据爬取与解析等,让大家对Python的实际应用有个非常清晰的认识,了解Python在AI及数据抓取方面的长处,非常有利于大家后期阶段的学习。

至此,我们还必须认清一个现实:单纯依靠机器学习模型来检测欺诈是片面的。比较折中且可行的方法是把人为欺诈规则和机器学习模型合二为一,一起来使用。反欺诈模型难度很高,需要和反欺诈领域专家一起协作才能有最好的结果。

项目一:职位画像

04 结语:技术与风控助力反欺诈

机器学习概述使用python爬虫scrapy框架,对于智联招聘职位进行抓取,处理下一页机制,抓取职位名称、公司名称、公司地点等职位数据,并将数据通

互联网金融科技的迅速发展成为整个新金融不可逆转的大方向,新技术的逐步应用落地将逐步挤压“黑灰产业”的生存空间。随着市场的相关政策法规的完善,以及大数据、人工智能等技术的应用,互金行业必将走上发展的快车道。

过Pipeline管道对数据进行数据去重,数据清洗,数据转换,数据存储。数据存储在Mysql数据库中,并将数据数值化,形成多表关联,后期使用Echarts可视化前端图表,完成数据炫酷展示。

有阳光的地方总会有阴影,阴影的存在方能彰显阳光的难能可贵。技术、监管和风控三位一体助力金融反欺诈,金融行业的太阳每天都会照常升起。

项目二:豆瓣TOP250抓取

抓取豆瓣电影TOP250,得到电影名、电影介绍、评分、评论人数、经典的话等信息,后期为了防止爬虫被豆瓣Ban掉,增加了一些随机延迟、伪装浏览器

请求头,浏览器代理等,最终数据存储在Mongodb。

阶段四、人工智能实用 — 机器学习算法

机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上

是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。 所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提

升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。

一、机器学习

1)机器学习概述

二、特征工程

1)特征抽取

2)特征转换

3)特征选择4)降维

5)NLP特征工程

三、回归算法

1)Linear Regression算法

2)Lasso Regression算法

3)Ridge Regression/Classifier算法4)Elastic Net算法

5)Logistic算法

6)K-邻近算法(KNN)

四、决策树、随机森林和提升算法

1)决策树算法: ID3、C4.5、CART

2)决策树优化

3)Bagging和Boosting算法

4)随机森林5)Adaboost算法

6)GBDT算法

7)XGBoost

8)LightGBM

五、SVM

1)线性可分支持向量机

2)核函数理解3)SMO算法

4)SVM回归SVR和分类SVC

六、聚类算法

1)各种相似度度量介绍及相关关系

2)K-means算法

3)K-means算法优缺点及变种算法4)密度聚类

5)层级聚类

6)谱聚类

七、EM算法

1)最大似然估计

2)EM算法原理讲解3)多元高斯分布的EM实现

4)主题模型pLSA及EM算法

八、贝叶斯算法

1)朴素贝叶斯

2)条件概率表达形式3)贝叶斯网络的表达形式

九、隐马尔科夫模型

1)概率计算问题

2)前向/后向算法3)HMM的参数学习

4)高斯混合模型HMM

十、LDA主题模型

1)LDA主题模型概述

2)共轭先验分布

3)Dirichlet分布4)Laplace平滑

5)Gibbs采样详解

6)LDA与word2Vec效果比较

阶段五、人工智能实用 — 机器学习项目

本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。

项目一:百度音乐系统文件分类

音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣

特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基

于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。

项目二:千万级P2P金融系统反欺诈模型训练

目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT

、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。

阶段六、人工智能提升 — 深度学习

深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、深度学习概述、感知器神

经网络、BP神经网络、RBF径向基神经网络、CNN卷积神经网络、RNN循环神经网络等方面讲解深度学习相关算法以及深度学习框架的使用。

1)TensorFlow

2)基于Tensorflow实现回归算法

3)深度学习概述

4)感知器神经网络

5)BP神经网络6)RBF径向基神经网络

7)卷积神经网络(CNN)

8)循环神经网络(RNN)

9)生成对抗网络(GAN、WGAN、EBGAN、DCGAN等)

阶段七、人工智能提升 — 推荐算法及数据挖掘

随着现代电商的深入人心,基于用户行为(浏览、收藏、购物)分析尤为重要。而数据挖掘就是识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模

式的非平凡过程。本阶段主要从基于内容的推荐、协同过滤、SVD、基于知识的推荐以及混合推荐算法等讲解,并结合音乐推荐、隐因子模型推荐等项目让大家有更深入的学习了解。

本文由优信彩票购彩大厅发布于互联网资讯,转载请注明出处:机器学习如何应用于反欺诈?

您可能还会对下面的文章感兴趣: