当前位置: 新报风尚 > 数码通讯 > 金融大数据分析的数据分流应用

金融大数据分析的数据分流应用

2019-08-12 21:49  来源:新报风尚  编辑:Hou

随着金融业务的互联网化、移动化,如何进行精确的客户营销成为了金融业务发展的一个挑战,相关的大数据挖掘、分析、可视化的探索也越来越多。但是在金融行业的数据应用环境中,在数据的采集、存储和处理过程中,在数据安全性、完整性、业务管理全面性上,又有着严格的要求,如何有效的在风险和效率之间进行平衡,就是本次数据分流的应用讨论的重点。

大数据蕴藏的价值被逐步挖掘出来,同时也带来了巨大的挑战,一是海量数据中的重复数据如何有效过滤,一是敏感信息如何有效的进行安全保护。在金融网络可视化数据的采集、存储过程中,在考虑采集数据完整的前提下,不可避免会收集到不同节点和位置区域的重复数据。而重复数据如何进行有效的预处理,是对后端各类分析系统或安全设备的性能和成本的重要挑战。金融行业在大数据价值挖掘的基础上,面临如何保护数据中的隐私信息的问题,也是在数据仿真以及委托第三方数据分析时,必须解决的数据安全问题。

接下来本文就上述两个方面的问题,进行分析探讨,来寻找适合金融网络数据分析环境中的解决方案。

首先是关于重复数据的产生、采集、过滤方面的分析。在网络可视化部署中,很多数据采集是通过机架RACK的TOR设备,及业务区域的汇聚设备,和多个业务区的核心互联设备上,均做到数据全量采集,这就不可避免的有重复数据。当采集流量通过网络探针或者分流器,导流到后端的各类分析系统时,将面临部分的重复数据,且重复率达到45%以上,这就大大增加了分析系统的I/0和CPU处理压力,如果不做去重处理,那数据的分析效率会降低,并导致分析系统的硬件开销增大。而对于按照分析总流量进行收费的NPM或APM,那多余的分析成本花费,是不可接受的。

因此必须要有在数据采集前端,能够支持数据去重的设备或解决方案,来避免上述问题的发生。

迈普网视系列分流器配合多业务引擎技术,为此类场景提供专业的数据去重能力,为该需求提供解决方案。

金融大数据分析的数据分流应用

该数据去重技术可以根据数据的payload、全数据或自定义规则进行数据比对,从而判断是否有重复,然后做多余数据的过滤去重。迈普数据去重的多业务引擎技术可以帮助客户把最关心的数据传输到先进的大数据分析和安全分析解决方案中,从而帮助客户减少需要分析的大数据总量,让这些分析系统可以专注于提供丰富的、情景化的和深入的网络分析,同时实现节约成本的目标。

其次是可视化分析不得不面临敏感数据的安全问题。虽然金融很多数据在交易过程中经过加密,但经过一定算法和基线建模后,很多类似密码等数据还是可以被破解的。常见的有:姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类( 如账户查询密码、取款密码、登录密码等)、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等等。在金融机构和政府等数据集中且频繁使用的环境,必须考虑数据的敏感信息安全问题。

本文分析的数据脱敏的使用场景是基于非生产环境的中数据脱敏分析。在部分企事业单位和金融机构,拥有自属的或第三方的开发团队,经常需要现网环境的真实数据在非生产环境(开发、外包、数据分析等)进行测试,尤其是需要在网的、实时的数据进行仿真模拟。

在数据采集后,如何把在网的实时的数据,脱敏后给仿真系统或第三方数据分析平台,迈普数据脱敏的多业务引擎技术可以帮助此类场景落地。

金融大数据分析的数据分流应用

迈普脱敏技术,是基于特定区域数据匿名化和去识别之类的不可逆数据掩码方式进行脱敏。脱敏后的数据应具有原数据的特征,因为它们仍将用于开发或测试场景。带有数值分布范围、具有指定格式(如信用卡号前4位指代银行名称,或身份证号18位前4位为出生省份等)的数据,在脱敏后应与原始信息相似。姓名和地址等字段应符合基本的语言认知,而不是裁剪为无意义的字符串。因此需要避免使用数据的人员(数据分析师,BI工程师等)将某单位的数据确认为某个人的信息,而导致不良后果。脱敏技术通过对数据进行脱敏,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。

编辑推荐:

【免责声明】本网站部分图片来源或改编自互联网,主要目的在于信息分享,让更多人获取所需要资讯,版权归原作者所有,如侵犯到您的权益或版权请及时告诉我们,我们将在24小时内删除!本文仅代表作者本人观点,新报风尚对其陈述、观点判断保持中立,请读者仅作参考并请自行核实相关内容。