随着移动互联网时代的来临,从电子商务到互联网金融,人们在网络上产生的数据越来越多,大数据已经成为当前金融机构加强风险控制的重要补充手段,大数据技术的应用也越来越广泛。
在银行风控管理中,通过大数据图形分析与流处理技术,能够对历史数据、一段时间窗口的信息流和触发计算的事件进行快速统计,并且与模型匹配,在毫秒级别内进行响应作出判断;大数据能够处理非结构化数据,能够整合图像、语音、文本、网页、JSON、XML 等非结构化数据,转化成结构化字段等。
在实际应用方面,许多银行基于Hadoop打造了面向全行的开放共享大数据平台,并且推出了金融贷款产品和个人消费贷款产品;也有银行利用大数据分析进行精准营销,比如,对客户的购物、上网习惯等进行精准细分,推出针对某类用户的银行卡等等。政府、金融等不同领域大数据项目,底层是否相通?哪些领域需要做特别定制化?
如下内容是东方金信联合创始人、CTO石棋玲博士针对大数据风险分析与控制应用的详尽分析,希望能给大家带来一些新思路。
大数据风险分析的国内外发展现状
国内:从技术趋势发展来说,整个IT行业已经跨过了功能完善的时期,已经从功能建设时期转为数据建设时期,整个行业开始转型,所以云计算和大数据必然成为国家发展的一个重要布局。目前大数据在国内发展迅速,在数字经济面前,数据成为社会进步的第一驱动力,是推动社会发展的重要因素,大数据技术成为国家战略已经是一个趋势。
在风险分析方面,国内处于一个迅速发展的阶段,个人业务包括个人征信、芝麻信用;银行应用,各大行推出的风险评估产品都数据风险分析的案例。但是国内的数据和国外特别是欧美国家相比,数据质量还是参差不齐的,相较于欧美国家很早就开放数据接口,发布数据开放标准,中国的数据标准和接口起步都比较晚,给大数据风险分析也带来一定的困难。
国外:当前,许多国家的政府和国际组织都认识到了大数据的重要作用,纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略。
美国政府将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面。其他国家也在相继布局,迎头赶上。
在风险分析方面,因为欧美有着较早数据体系、完善的法律法规和行业指导规范,他们的数据使用也是比较规范的,这也使得在所谓的大数据风控方面,西方国家已经有了很多数据应用。在技术方面,有大量的公司专注于做技术底层,基础建设这一层;有些纯技术公司做上层应用开放,统计分析软件的;甚至还有大量机构和公司专注于开源技术系统搭建,所以国外在技术上也是相对成熟的。
大数据风险分析国内外发展历程对比
国内外的大数据基本都是以下四个阶段发展的:学术研究–政府推动—大数据价值—
数据技术—风险分析与控制应用
最初,大数据概念被提出,随着2011年麦肯锡正式定义了大数据的概念,大家对大数据也有了越来越多的学术研究。随着美国德国等国家相继实行大数据战略,中国工信部也把信息处理技术作为四项关键技术创新工程之一,其中包括了海量数据存储、数据挖掘、图像视频智能分析等大数据重要组成部分。慢慢地,大家对大数据能产生的价值有了越来越深的了解,银行、政府、互联网巨头纷纷发布机器学习产品,目前,大数据技术(hadoop、机器学习、人工智能等)已经被广泛使用。随着大数据技术的不断成熟,大数据已经成为当前金融机构加强风险控制的重要补充手段,大数据技术的应用也越来越广泛。
大数据风险分析的未来趋势
但随着互联网技术不断发展,整个社会大力提速,数据的标准的建立,传统的风险分析方式已逐渐不能支撑机构的业务扩展;而大数据对多维度、大量数据的智能处理,批量标准化的执行流程,更能贴合信息发展时代风控业务的发展要求,未来大数据风险分析将会更多的应用在各行各业,越来越精确的分析行业存在的风险,防患于未然。
大数据风险分析的应用领域
从各个行业对大数据调研的参与程度其实已经可以反映出各行业对大数据的关注程度,比如:能源/制造行业对于市场行情的数据更为敏感,历史的商品行情对于未来的产品设计、风险评估以及市场导向都有较强的参考意义;而随着政府与公共事业的服务意识的强加与转变,以及更智慧的执政与管理理念的带动,对于数据的管理与分析的需求也在日益加强;在金融与保险行业,则是传统的数据量大户,而在新时代更好更快的发现客户金融习惯,将是金融与保险行业未来竞争必须要做的事情,此外,大数据分析也能为金融和保险行业分析出潜在的危险,提前做好防范。
大数据风险管理
大数据风风险管理当前热点技术有:预测分析、NoSQL数据库、流式分析、内存数据结构、分布式存储系统、数据可视化、数据整合、数据预处理、数据校验、机器学习等。
从技术角度看,传统企业和外企的差异:
1)在美国或者说全球大数据市场已经有非常多的公司,领域内的分布更加细化,分工更加明确。今天中国的大数据市场,到目前为止,还没有分工的那么明确,细分领域相对还没那么多。
2)数据的部分,整个中国的数据环境和西方的非常不一样。在以前,中国对数据的使用并不多。而在西方国家,尤其是发达国家,比如德国,在十年前就开放数据接口,发布数据开放标准,在1977年就已经颁布了本国联邦数据保护法律。因为西方国家比较完善的法律法规和行业指导规范,他们的数据使用也是比较规范的,这也使得在所谓的大数据到来之前,西方国家已经有了很多数据应用,比如在金融领域的风控与征信。
3)从技术角度来讲,中国公司跟西方公司区别也很大。西方的公司在技术领域里是用技术的分层来去分析的,有些公司专注于做技术底层,基础建设这一层;有些纯技术公司做上层应用开放,统计分析软件的;甚至还有大量机构和公司专注于开源技术系统搭建。在中国,大家通常做一家科技公司,更多的第一件事情先是复制美国的某一个公司或者复制美国的某一个业务,这样的话很容易被资本市场认可。这也导致中国没有最底层的核心技术公司,至少在早期是没有的。包括今天,大家都觉得中国的纯技术公司也有,但是很少,比如说东方金信。
通过算法控制风险的流程以及最具挑战的环节
金融领域中有两大风险,一种是历史风险,一种是未来风险。
历史风险是从企业或者个人的历史数据判断客户过去的表现;未来风险,是各式各样未来具有不确定性的因素造成损失的风险。对这两种风险,大数据的识别能力并不相同。“画历史易知未来难”,就历史风险而言,大数据可以使得历史画像越来越清晰。通过不断拓宽历史信息的收集整理,再利用大数据神经网络技术、深度学习技术,个人或企业的画像逐步逼近个人或企业真实的历史表现是可能的。从理论上讲,随着数据信息量增大、计算机算力提升、深度学习能力不断提高,对个人和企业的画像会越来越清晰,逐步逼近真实情况。
但对于未来风险,依据大数据得到的未来画像,其可靠性却不容乐观。历史是静态的信息,在刻画历史画像时,变量为空,就可以不予考虑,凭借有值变量即可刻画客户。即使我们有1000个数据采集变量,对一个客户来说,可能只需几百个,甚至几十个有值变量即可刻画历史画像。而对于未来画像的刻画,需要考虑的变量则要要多出很多。
在集群规模方面,随着科技发展,智能硬件的迭代更新,产生的数据成指数级增长,数据量的增长也要求集群处理数据的能力不断变高,集群规模与数据量之间的平衡、如何灵活扩展,也是公司发展实际存在的挑战;此外,如何从庞大的数据中甄别有价值的数据,并从这些数据中挖掘到更深层次有用的信息也是需要技术人员考虑的问题。
案例深度解析 — 某省政务大数据平台风险管理
客户需求痛点:政务大数据是一个极其复杂的系统工程,传统的数据统计、分析方式已经不能够支撑这一系列复杂的工程,政府业务流程的复杂度要远远超过金融和运营商,原来的大数据大多都围绕一个主线,产生周边的大数据营销、大数据风险、大数据管理等,而在政务大数据中,业务会涉及几十个部门,同时也涉及多个行业,如何把众多复杂的数据变成有用的价值,为民服务,是目前的一个挑战。
解决方案:首先,大数据技术会把数据从各个业务系统整合起来,实现了数据模型与分类;其次,这种数据整合将推动传统业务升级,并协助政府各个委办局去高效完成新的业务。整个过程涉及多个环节,包括数据共享平台、交换平台和大数据计算平台等,它们都起到非常关键的作用。目前,政府也在大力推广数据的互联互通,多次发文来推动数据建设和发展,使大数据产业快速地在政府行业做大。
底层技术架构
基于海盒大数据平台,支持强大的可扩展能力,可以随数据量增长而平滑扩容;可以实现更灵活的分布式资源管理能力;基于Hadoop流处理技术,提供实时数据分布式处理能力。
数据统一采集、存储、整合、共享。基于数据透明访问模块提供数据统一访问管理,实现应用与数据解耦,同时增强数据安全管控能力,提升用户隐私保护能力。
整合数据挖掘模型,构建运营商统一的商业洞察与网络洞察组建或模型库,提供统一的能力服务,快速部署应用。
涉及关键技术
某省政务大数据公共服务平台主要由数据源层、数据采集层、数据处理层、数据中心层、大数据基础支撑层、数据服务层、数据开放层、数据应用层八部分组成,并制定相应数据标准、应用规范及数据安全管理体系。利用海盒大数据平台对数据进行统一收集、存储和管理,
对数据进行分析挖掘、高效检索、实时分析、即席查询等步骤,建立起整个政务平台。
问题与优化
政务大数据是一个极其复杂的系统工程,在了解客户业务流程和痛点的前提下,不仅仅要有传统的IT技能,更要拥有强大的数据基础技能。此外,政务大数据存在孤岛效应,必须打破原有信息孤岛,实现了数据的互联互通,数据价值才可以全面释放。因此东方金信通过建立多层次的资源池的方法,实现数据的汇聚,充分挖掘数据价值。
经验总结
通过某省政务大数据平台项目,可以深刻感受到政府行业大规模的使用大数据技术是近两年才刚刚开始,虽然政府业务流程的复杂度要远远超过金融和运营商,而且政务大数据中的业务会涉及几十个部门,同时也涉及多个行业,但潜藏在其中的潜力也是巨大的,带来挑战的的同时也给我我们带来了机遇,我们应在一次次的项目中积累经验,不断强大自己,抓住这其中的机遇。
【简介】
石棋玲博士,毕业于美国中佛罗里达大学,是国内最早开展高强度超级图形方法大规模风险分析的数据科学家。曾就职美国银行总部,开发许多算法控制风险、打击欺诈。现为北京东方金信科技有限公司联合创始人、CTO。