沧州三亚菏泽经济预测自然
投稿投诉
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产
菏泽德阳
山西湖州
宝鸡上海
茂名内江
三亚信阳
长春北海
西安安徽
黄石烟台
沧州湛江
肇庆鹤壁
六安韶关
成都钦州

基于机器学习算法的商业银行精准营销模型研究

5月13日 寒霜坞投稿
  摘要:本文意在通过机器学习算法对银行零售数据进行深度挖掘,探索传统商业银行基于机器学习模型构建精准营销策略的切入点。本文使用商业银行数据分别构建基于逻辑回归算法和随机森林算法的理财产品响应预测模型,并进行结果对比分析,得出经过梯度下降优化后的逻辑回归模型效果更好的结论。并将此模型预测结果应用于实际理财产品营销中,为改变传统商业银行营销思路、提升營销精准度提供帮助。
  关键词:机器学习;商业银行;精准营销;逻辑回归;随机森林
  在数据爆炸式增长、新兴技术层出不穷的互联网时代,互联网金融迅速崛起,金融业竞争愈发激烈。随着营销模式的转变、客户个性化需求的增多,银行业意识到,传统的数据分析已无法充分挖掘数据的价值,也无法满足现有营销诉求。各银行纷纷组建专业的数据团队,开始尝试通过机器学习等手段进行数据分析挖掘,从而通过技术手段驱动业务运营。在此背景下,基于机器学习算法的精准营销在国内银行业快速兴起。
  一、精准营销是商业银行发展的必备要素
  商业银行零售业务的业务种类繁多、客户量庞大,依靠传统营销经验很难找到大量的精准目标客户。故通过数据分析、机器学习模型等方法进行海量精准客户筛选,从而提升投入产出比成为精准营销的关键。
  近年来,国内银行业开展的基于机器学习算法的精准营销试点工作也取得了初步成效:某国有银行分别完成了客户精准营销主题9项功能、产品精准营销主题16项功能的全行推广;某股份制银行通过精准营销不仅实现了对3000多万大零售客户的集中运营管理(含信用卡客户)、为超过400万的贵宾客户提供个性化的服务,同时还节省了超过500万的营销成本,最终完成了零售业务的二次转型升级;某股份制银行基于精准营销模型结果为客户推荐产品,推广支行的客户金融资产总额、理财余额等指标均有显著提升,同时该行为客户搭建的流失预测模型,其前30分位数提升2。45倍,模型总体预测效果较为理想。
  虽然国内银行业已有一些可借鉴的精准营销成功实践经验,各商业银行沉淀的大量客户数据也是一个亟待挖掘的巨大宝库,但是由于不同银行的客户数据结构不同,模型也无法复用。因此我们仍需在银行业基于机器学习算法的精准营销道路上秉承智能化、标准化、自动化、规模化的原则不断进行探索。
  二、基于机器学习算法的理财产品响应预测模型
  (一)业务需求理解与解析
  在互联网金融时代,随着客户对金融知识的理解不断提升、对资产管理的意识不断加强、对产品的要求不断提高,理财成为商业银行营销的重要产品类型。为了更好、更精准的为客户提供个性化产品服务,本文针对某商业银行的理财产品构建基于机器学习算法的产品响应预测模型。通过观察零售客户购买该类理财产品的行为特征,对未来1个月客户购买该类理财产品的可能性进行预测,并将模型预测结果应用于实际产品营销中,为一线业务人员降低营销成本、提升营销效益提供有力支撑。
  (二)数据搜集与整理
  数据为某商业银行零售客户脱敏数据,具有真实性与可靠性。基于本次精准营销理财产品响应预测模型的具体需求,结合业务知识判定,构建分类预测模型。获取模型目标变量的业务含义,即客户未来1个月是否购买该类理财产品,并进行数据加工处理。本次搜集并提取的建模所需数据宽表包含:自变量237个,因变量1个,客户数据661198条。
  (三)数据探索与分析
  基于数据宽表,输出各自变量的描述性统计分析结果,如:自变量TRANSFERAMT6的数据量为82405、均值为278335。36、标准差为3129411。02、最小值为0、下四分位为0、中位数为300、上四分位为47100、最大值为470000000,并结合业务知识对自变量进行基础处理,如:错误值检验、缺失值检验、异常值检验等。完成基础数据处理后,一方面需要对数据进行去量纲化,即数据标准化,消除不同变量间的量纲,减少因量纲不同造成的误差;另一方面为了避免模型结果过拟合,需要将数据抽样划分为训练集和测试集,划分比例为7:3,其中训练集是用来对模型进行拟合的数据样本,测试集是用来评估最终模型泛化能力的数据样本。
  (四)特征选择
  样本数据中的特征(即自变量)过多,需要运用统计知识结合业务知识对特征进行筛选,达到减少特征数量(降维)、减少模型过拟合、提高模型泛化能力的目的。特征选择一般分为以下几种方式。
  1。删除单一值占比过大的特征,如某特征值的单一值占比达到95以上,则认为这个特征作用不大,需人工删除;
  2。利用卡方检验筛选变量,检验定性自变量与定性因变量的相关关系,当P值小于0。05时,表示自变量分布与因变量分布有显著差异,需保留该变量,否则删除;
  3。利用变量IV值筛选变量,对变量进行WOE转换,计算变量IV值并设置阈值,保留变量IV值大于0。1的变量;
  4。对变量进行多重共线性检验,计算变量的方差膨胀因子VIF值,保留VIF值小于10的变量;
  5。利用PCA进行降维,经过反复验证,在模型效果不下降的前提下,尽量减少变量个数,最终保留30个变量作为入模变量。将经过以上特征选择方法进行筛选后的自变量与因变量重新加工形成新的数据宽表进行建模。
  三、构建基于逻辑回归算法的预测模型
  客户是否购买理财产品的模型采用二元逻辑回归模型。逻辑回归(LogisticRegression)是用于处理因变量为分类变量的回归问题,因变量用P表示概率,P的取值范围是:0P1。需要对P进行逻辑变换:logit(P)ln(P1P),即可得到逻辑回归的表达式为:
  P11e(01X12X2nXn)
  其中X1,X2,,Xn分别代表上述特征筛选之后的自变量;0,1,,n分别代表各自变量X的系数,即模型参数。利用statsmodels中的函数结合数据得到逻辑回归模型的参数,最终得到的结果,如:AUMMADwoe的P值为0。000、FINEXPIRENUMMwoe的P值为0。000、SAVDEPTAMTMwoe的P值为0。743、TRANSFERAMT6woe的P值为0。036、PRODUCTNMwoe的P值为0。000等30个入模变量。其中有些变量的P值大于0。05,即表示变量不显著,需进行删除处理。从原有的30个变量中删除5个变量(如:SAVDEPTAMTMwoe的P值为0。743),还剩显著变量25个。
  此时得到的模型参数并不是最优的,需使用最小损失化函数对参数进行最优化调整。本文使用梯度下降法对模型损失函数进行最优化。梯度下降法的原理是通过迭代,找到目标函数的最小值或收敛到最小值,基本公式为:
  ii(J(0,1,,n)i)
  其中,为学习率,即每次迭代的步长;J(0,1,,n)是损失函数。
  J(0,1,,n)Ni1(h(xi0xi1xin)yi)22N
  其中xi01。
  ii(Ni1(h(xj0xj1xjn)yj)xjiN)
  在实际模型建设过程之中,步长太大会导致迭代过快,甚至可能错过最优解;步长太小,迭代速度太慢,导致很长时间算法都無法结束。
  经过梯度下降的逻辑回归模型的结果指标为:KS0。712,AUC0。922。
  构建基于随机森林算法的预测模型
  随机森林由LeoBreiman提出,通过bootstrap重采样技术从原始训练样本集M中有放回的重复随机抽取n个样本,生成新的训练样本集合后,根据自助样本集生成n个分类树组成随机森林,新数据的分类结果根据分类树投票多少形成的分数来决定。具体的实现过程如下:
  1)原始训练集为M,应用自助法有放回的随机抽取n个新的自助样本集,并由此构建k棵分类树,每次未被抽取到的样本组成了n个袋外数据;
  2)假设有a个变量,则在每棵树的每个节点处随机抽取b个变量,并在b中选择一个最具分类能力的变量,变量分类的阈值通过检查每个分类点来确定;
  3)每棵树最大限度的生长,而不做任何的修剪;
  4)将生成的多棵分类树组成随机森林,并用随机森林分类器对新数据进行判别、分类,分类结果根据分类器的投票多少来决定。
  使用随机森林模型对该数据进行建模,模型结果的指标为:KS0。512,AUC0。756。
  四、逻辑回归模型与随机森林模型结果对比分析
  通过对比两种模型的结果可以发现,随机森林模型的KS和AUC值显著低于经过梯度下降的逻辑回归模型的相应指标,故从该商业银行的数据情况来看,经过梯度下降优化后的逻辑回归模型效果更好。
  基于机器学习算法的精准营销在商业银行领域的挑战。虽然随着新技术的不断兴起,基于机器学习算法模型的精准营销在商业银行领域受到青睐,但是在实际搭建及应用过程中仍会遇到一些挑战。
  从数据层面,商业银行的数据基本上是结构化数据,相较互联网金融公司而言,在非结构化数据方面比较欠缺,搭建模型时可能会出现数据不够丰富,模型结果片面等情况;
  从模型层面,筛选变量或者搭建模型的过程中,如果只单纯以数据及算法产生的结果来评估变量、模型的好坏,而脱离了业务知识及业务发展的实际情况,即使模型效果指标再漂亮对实际业务也是无意义的。因此建模人员对银行业基础业务的理解、对数据含义的解读及应用能力就显得尤为重要;
  从应用层面,精准营销模型的好坏除了数据、算法等模型本身涉及的方面外,一线业务人员是否相信、是否不折不扣的按模型结果进行落地,以及营销技巧的使用是否得当等都会对模型的推广、迭代以及评价造成影响,因此业务人员的配合与反馈十分关键。
  参考文献:
  〔1〕贾俊平。统计学(第7版)〔M〕。中国人民大学出版社,2018。
  〔2〕王芳。基于机器学习理论的电商用户行为研究〔D〕。北京:物资学院,2018。
  〔3〕张毅。数据为王颠覆营销:移动时代的大数据精准营销。人民邮电出版社,2017。
  〔4〕林庆鹏。基于大数据挖掘的精准营销策略研究〔D〕。兰州:理工大学,2016。
  〔5〕刘力银。基于逻辑回归的推荐技术研究及应用〔D〕。成都:电子科技大学,2013。
投诉 评论 转载

基于机器学习算法的商业银行精准营销模型研究摘要:本文意在通过机器学习算法对银行零售数据进行深度挖掘,探索传统商业银行基于机器学习模型构建精准营销策略的切入点。本文使用商业银行数据分别构建基于逻辑回归算法和随机森林算法的……痉挛造句用痉挛造句大全61、结论:本手术具有“双保险”提高疗效,可降低复发率,防止并发症发生,是治疗面肌痉挛的有效手段。62、他没有太多的花架式,只是含胸挥臂,弯腿痉挛式的自我疯狂罢了,就像被……招帮职场女性消除心理压力现代都市生活节奏很快,高强度、快节奏的工作、生活让很多职场女性都为压力所困,长期处于高度紧张的状态下,且常常得不到及时的调理,久而久之便会产生焦虑不安、精神抑郁等症状,严重者甚……游黄山春节,家家户户都在欢庆:挂灯笼、放烟花、贴春联可喜庆了。我们家也不落后,来了个过年黄山游。吱车子像是被黄山的高大和巍峨给震撼住了,猛地停在了黄山脚下。真漂亮啊!我兴奋地叫……什么令我铭记那块豆腐,令我铭记我从小生活在骷髅庙的故乡,家里祖祖辈辈都在卖烧豆腐,可以算得上是豆腐世家了。在制作豆腐的时候,会有一个特殊的小房子,一口很大很大的锅,一个用土砖垒……私塾里西式女先生的教育经未来世界的主流是第三文化在融尚私塾这个半日制的国际学院中,有一位西式女先生意欲为弥合中美文化和教育之间的鸿沟做出努力。作为国际教育早期产物和后期生产者,她可以培养出有着很强自我幸福感的学生。我希……想起你的时候你听到过风的声音吗不是它经过树叶间隙的唏嘘也不是它敲打未紧闭的门窗的沉闷只是它的声音没有任何媒介纯粹的来自它的声音我寄居在风里越过窗幔穿过你的五指轻触你的呼吸……发霉的罗汉果还能吃吗罗汉果是我国特有的珍贵葫芦科植物,素有良药佳果之称。果实中含有丰富的葡萄糖、果糖及多种维生素等,用途广泛,畅销国内外市场,在国际市场上享有很高的声誉。罗汉果葫芦科多年生藤……湘味周末回到家,听到妈妈在我耳边说:田老师写的文章太好了,全是妈妈童年的回忆啊!哟!老妈的童年回忆?有意思,抄起手机,点开了文章,目不转睛的看了起来。采蘑菇的小姑娘!田老师,……被人误解该如何处理有时候,你被人误解,你不想争辩,所以选择沉默。本来就不是所有的人都得了解你,因此你认为不必对全世界喊话。却也有时候,你被最爱的人误解,你难过到不想争辩,也只有选择沉默。1……中风的危害有哪些呢在我国,每21秒就有一人死于中风,每12秒就有一人发生中风,中风导致的死亡人数远远超过冠心病,甚至超过所有恶性肿瘤造成的死亡数总和。中风已成为我国人口死亡原因的第一位,那么中风……诺丽果树如何整形修剪种植诺丽果第一年怎么样管理?种植诺丽果第一年为什么要进行疏果?诺丽什么时候修剪好?诺丽果树的修剪原则是什么?以下中国三农网就作简单介绍,供网友们参考。一、诺丽果树的疏果……
上行造句用上行造句大全黄皮果怎么吃黄皮果的花样吃法你可知无法理解造句用无法理解造句大全主力拉升前都会先砸点小钱试盘当学霸也苦恼云天造句用云天造句大全男人如何走出恐婚误区走向幸福的婚姻殿堂认可造句用认可造句大全使用者造句用使用者造句大全家乡的湖滨公园如何运动瘦身呢桃园本来是四结义的人生贵在磨炼关于抖音的个性签名香港雨夜屠夫林过云杀人成瘾,奸杀后竟肢解肢体做标本初中语文学习的好习惯有哪些纯天然的护肤品17岁姐姐带10岁妹妹跳河自杀,背后是3000万二胎家庭的隐微信借钱不还如何要回来张学良晚年自述我以前从不迷信,在杀杨宇霆时我不得不相信从2999元跌至1969元,星点屏后置四摄,8GB128GB铜官僧舍得尚书郎赵宗闵墨竹一钻石婚戒的抛光和对称重要吗?该如何衡量呢?三分53投28中,原来詹姆斯寻找的射手就在阵中

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找