1. 白十三的码路首页
  2. Serverless 引擎

大数据治理如何激活数据?

首先你得让它“流动”起来

“所有数据的爆发式增长,也是创造价值的爆发式增长。”数据科学家、天体物理学家和空间科学家柯克·伯尔尼如是说。然而数据只有被挖掘、被分析才会产生价值。但目前很多数据并没有流动起来,连接到互联网、可以被使用的数据只是一小部分,99%的数据还在“沉睡”。

如何激活海量的“沉睡”数据?日前,在GITC(全球互联网技术大会)2016北京站的论坛上,白山云科技有限公司(简称“白山”)合伙人兼工程副总裁丛磊以《让大数据治理重新激活数据》为题,详解大数据治理如何激活数据。

在丛磊看来,流动的数据才能产生价值。例如:导航软件每天会产生大量的用户导航数据,如:行驶速度、驾车习惯、拥堵情况等内容。据高德公司今年发布的《百姓出行大数据报告》显示,已累计采集超过5000万个POI(Point of Information,信息点)数据,并且数据量还在不断攀升。用户的驾驶习惯等数据对于导航公司而言价值有限,但如果保险公司能经过授权后获取这些信息,就可以根据用户的驾驶习惯,分析驾驶危险程度,为用户匹配差异化的保险服务。数据从导航公司到保险公司,这就是通过“流动”使数据释放出更大价值。这些数据还没有被发挥出应有的价值,并不是因为Hadoop等大数据软件不够先进,或者没有人来分析,而很大程度上是因为数据没有“流动”起来。

数据无法流动,主要有以下几个原因:

(1)没有数据接口,如传统数据文件、个人数据库;

(2)接口不具备对外访问能力,如接口不规范、缺乏认证体系、访问速度低下、缺少数据统计分析等;

(3)接口难以调用,如缺乏开发文档、缺少SDK、很难调试等。

目前,我国包括政府在内的各类机构正在打造数据开放与信息共享平台,希望可以促进机构间的信息共享与数据公开,打破数据壁垒,增进公众福祉,打造信息化强国。国外已经有了一些成熟案例,以美国data.gov为例,在这里可以看到美国政府的部分数据;再如,BBC的API开放平台,用户可以按照日期检索节目信息;可口可乐公司建立了一个开放平台公布零售网点、供应链、企业内部信息等内容,根据权限进行限制开放。

那么,数据该如何才能流动起来?

让数据流动的技术栈

大数据治理如何激活数据?

针对便携、安全、快速、通用、可靠的技术需求,数据开放与共享平台的核心技术栈包含:

(1)数据存储:技术栈的最底层,包括数据库、文件系统、分布式系统等存储结构,这是开放数据的前提条件;

(2)网络协议:当存储的文件需要对外提供访问时,首先需要底层的网络传输协议,包括:HTTP协议、TCP协议、UDP协议等;

(3)接口规范:即接口传输内容的格式,如:XML、JSON、SOAP等;

(4)数据安全:接口对外开放时安全至关重要,实现安全的方式主要包括:权限控制、数据加密、数字签名等方式。除此之外还包括网络隔离,即流控。如果一个接口未进行网络隔离,同时访问该接口的业务之间很可能会相互影响;

(5)传输加速:数据开放后需要进行传输,区别于传统的云分发,该阶段的加速更倾向于动态内容、动态接口的双向加速,包括:分发加速、事件驱动加速、DNS加速等。

数据开放的核心流程

大数据治理如何激活数据?

数据开放的核心流程包括:

(1)数据源:提取数据,并将其转换为接口;

(2)接口网关:将接口传输到端上,包括智能终端、App等,使终端用户可以获取数据价值;

(3)OPEN API数据开放平台:对接口进行分析、流控及安全控制,统一协议与数据格式,保证整个过程安全可控,是数据开放的核心技术。

数据开放的核心技术

一、API接口化

API接口化的优势在于:

(1) 降低接口的维护成本。目前常用的API标准包括RESTful、Swagger两种接口规范。以RESTful为例:很多企业对于添加用户的接口没有严格按照RESTful中POST的方式,而是“GET+参数”添加接口。当需要禁止某部门调用添加用户接口,只允许查询已有用户时,在RESTful格式下,管理者只需在API网关上使用HDPOST即可禁止该部门的调用。如果并未按照RESTful规范设计接口,则需要针对接口的参数进行高度的定制化修改,使得接口维护成本大大增加。

(2)使接口适应移动端的调用。以调取用户信息为例,在PC端,通过用户ID即可通过JSON获取全部用户信息。但在移动端,我们还需要考虑流量因素,需要进行精准查询。API接口化,可以使移动端的接口只获取精确信息。

API接口化很重要,但是已经存在的不标准的接口如何转化为标准化接口呢?一般来说企业代码不易维护,无法通过修改原有代码将接口标准化。行之有效的方法是使用API网关进行API适配,相当于通过插口的转换头将原来不标准的接口标准化。

大数据治理如何激活数据?

如上图所示,输入“GET/say/hello?id=123”,但后端只识别“GET/say/hi?num=123”的请求,并且输出XML格式的数据,只需在接口前添加一个API网关,即可按照系统要求将输入内容转换为后端可识别的格式,并且输出标准的JSON格式。

这样,通过API网关即可将接口转换为统一标准,无需再修改原来的接口。

二、API自动构建

当接口不标准时我们可以通过API网关进行适配,但对于传统数据文件、个人数据库等没有接口的数据又该如何进行开放?

ETI(Extract Transform Interface)技术可以将数据提取出来,无需书写代码自动构建接口。

大数据治理如何激活数据?

如上图所示,将数据通过ETI技术从数据库中抽取出来,根据用户设定好的Schema接转换为RESTful接口。

三、API网关与Lambda

大数据治理如何激活数据?

如上图所示,我们可以在API网关与后端数据库之间添加一个适配层——棱镜(PRISM-LB),通过PRISM-LB可以将请求转发到后端由DOCKER组成的Lambda集群。Lambda其实是一个用户可编程的平台,类似于超轻量级的PaaS,用户可以在该平台上不受CPU、虚拟机限制,通过输入代码来处理用户请求并进行分析。

应用场景:

(1)智能设备会不定期向云端POST数据,我们可以对Lambda设定一个简单的多函数,API网关可以通过Lambda进行边缘计算,将数据筛选、聚合,然后向将符合函数要求的数据传送到云端,大大降低数据传输量。

(2)用户向云端GET数据时,通过触发Lambda,将数据的相关访问日志推送到大数据分析平台进行分析,并将分析结果汇总发送邮件。

四、API防攻击

对外开放的API易遭到CC攻击等安全威胁。有别于仿造IP以破坏业务为目的的DDoS攻击,CC攻击主要通过真实的访问来窃取利益。

大数据治理如何激活数据?
DDoS攻击与CC攻击的区别

针对CC攻击,可以通过内核级拦截、机器学习算法进行智能拦截,有效保护接口安全。

大数据治理如何激活数据?

传统CC攻击的防火墙是采用HTTP拒绝方式,当防火墙被触发后返回403/401,CC防火墙的内核包丢弃方式大大增加CC攻击成本,同时采用机器学习算法使分析性能达到6000万次/分钟。

五、API加速

API加速主要采用接口异步化与L2 Cache两种技术。

(1)接口异步化:当接口访问量过大时,通过队列自动将请求异步化。

大数据治理如何激活数据?

以上图场景为例,企业对外提供查询接口,当访问量过大时,后端数据库承载能力不足,导致接口服务变慢,最终导致调用者后续业务受到拖累。接口支持异步化后,当用户调用接口时首先返回“OK”,实际请求进入队列,调用成功后返回调用者“back”,不影响调用者其他业务与场景。

(2)L2 Cache:在不影响业务的情况下,通过对接口进行Cache,使接口响应速度、并发能力大幅提高。

大数据治理如何激活数据?

上图是测试接口的加速效果,通过L2 Cache进行接口加速后,后端负载CPU空闲率提高10倍,压力大幅降低;接口平均请求时间从0.8秒降低至不到0.2秒,性能提升3-4倍。

目前,针对上述日益增长的数据需求,白山为数据的产生、传输、消费和归档提供完整的生命周期服务。在接口加速和治理方面,白山云聚合平台CLN-X的主要功能如下图所示:

大数据治理如何激活数据?

在数据治理和多云管理方面,白山云科技的云聚合产品将陆续推出更多解决方案。进一步了解详情,可添加白山官方微信(微信号:baishancloud)与我们联系。

原创文章,作者:白山码路长,如若转载,请注明出处:http://blog.baishan.com/serverless-engine/dashujuzhiliruhejihuoshuju

发表评论

登录后才能评论