企业大数据中心搭建方案

企业大数据中心搭建方案

企业大数据中心搭建方案

随着物联网的兴起,it时代转向了dt大数据时代,越来越多的企业开始建设大数据中心,然后基于数据中心集成数据分析、数据预测、数据归类等服务,那么对于一个大型实体企业,如何搭建一个数据中心呢,今天我们就来讲述一下,大型实体企业如何搭建自己的大数据中心。

一、数据中心底层架构

先看看架构图

企业大数据中心搭建方案

我们先从底层开始说

第一层:基础资源层,主要是物理硬件这一块,通过虚拟化云服务实现资源的自动伸缩与配置

第二层:存储计算层,这一层主要是讲数据存储下来,存储方式有三种,第一种是hadoop的hdfs分布式文件系统,第二种方式是mpp分布式数据库,第三种是传统的数据仓库,中间件存储一些临时数据,那么计算这一块可以分为离线计算与实时流式计算,主要还是基于hadop的map/reduce框架,及storm和kafka

第三层:采集层,这一层主要对数据进行采集、清洗、质量把控、分发等操作。

第四层:管理层,主要管理大数据中心的数据权限,日志、资源、安全、元数据等。

第五层:api接口层,主要对外提供数据接口,方便应用层进行调用。

第六层:应用层,基于大数据中心提供的数据接口开发的应用,如数据可视化、数据挖掘、分析预测等。

二、数据中心结构

企业大数据中心搭建方案

数据中心通过采集企业各个业务流程的数据,如订单数据、生成数据、销售数据、库存数据等,通过数据中心内部的etl处理,将数据进行离线运算或实时流式运算,最终生成我们所需要的核心数据。

核心数据通过paas、saas、daas反过来支撑企业的其他业务,如销量预测、交易风险预测等,数据中心除了采集企业内部的数据,还可以采集第三方的数据,比如竞品销量数据等。

子公司一方面上传数据,一方面获取数据中心的共享数据,提高了企业内部的生产效率。

三、数据治理方法

随着企业业务的开展,数据量与日俱增,对整个开发、架构和运营体系造成巨大的压力,如何有效地进行数据的保值与增值,需要建立大数据中心的数据治理和数据资产运营管理体系,实现数据管理的降本增效,提升数据管理能力与数据价值。

1、数据标准管理

当前大数据时代下,数据作为企业最有价值的核心资产,成为企业间竞争的核心因素;企业级大数据中心将不断引入企业外部数据等海量结构化、 半结构化数据,数据管理、运维难度加大,亟需建立大数据平台完整的数据规则管理、标准开发以及运维体系:数据规则管理体系须加强大数据中心的数据管控,增强数据模型设计、数据字典规则设置等管理流程标准化、规范化。

支撑面向 PAAS 服务开放的图形化开发工具 ,支持应用商在企业级大数据平台进行开发、调用,面向多租户实现图形化的开发界面及统一封装函数库的集成;通过可视化拖拽方式对 API 进行编排,实现数据建模过程,满足业务部门自助开发的需求。运用类 SQL 语言实现传统 DB 、HADOOP 、MPP 等平台的统一操作,屏蔽差异。标准运维体系,解决大数据平台各系统串行调度模式无法满足多平台协作、大并发处理的要求,通过对各平台数据处理任务基于输入表解耦,简化调度配置及监控运维工作,提高了整体执行效率。

2、元数据管理

元数据管理属于企业级大数据中心的数据管理域的基础模块,基于元数据的关联分析能力和图形化展现能力,通过元数据api实现能力开放,为大数据中心的数据资产管理、数据质量管理、数据开发共享、数据安全和业务应用提供辅助功能支撑,提升企业大数据平台的运维管理水平和用户感知。

企业级大数据中心的元数据包括技术元数据、业务元数据和管理元数据三类, 涵盖大数据中心的资源池层、数据采集和分发、数据计算和存储、api层和数据应用。

与传统数据仓库相比,企业级大数据平台元数据管理的差异主要体现在两个方面:分布式存储和计算框架
企业级大数据中心采用 MPP 数据库、Hadoop 分布式存储和计算框架,以降低数据存储和处理成本,提升系统横向扩展能力,支持互联网业务发展和大批量数据处理分析的需要。数据源接口文件以 HDFS 文件的形式进入 Hadoop 平台,经过一到多个步骤的 ETL 处理后进入 HIVE 、HBASE 或者MPP 数据库中。 

与传统数据仓库相比, 大数据平台的数据实体数量更庞大,数据处理过程更复杂。

在大数据平台多租户环境下,要求元数据管理模块为每个租户分别提供逻辑上独立的元数据存储库、元数据获取功能、管理功能和应用功能。
每个租户可以通过调用元数据管理模块的API 实现元数据的扩展管理功能和应用功能,租户之间可以通过共享沙箱实现元数据的共享访问。

3、数据质量管理

数据质量管理是企业级大数据平台数据管理域的核心子系统之一,提供数据质量监控、告警、问题分析处理和数据质量评估等功能,旨在建立大数据平台数据加载处理和应用各个关键环节、关键实体的数据质量监控预警机制,及时发现、报告、处理大数据平台中的数据质量问题,保障大数据平台的数据质量。

数据质量管理目标是保障企业级大数据平台数据准确性、合法性、及时性等,并为大数据平台运维人员提供数据的波动性、平衡性、合理性等管理手段,管理范围涵盖大数据中心的数据源、资源池层、数据采集和分发、数据计算和存储、能力开放层和数据应用层。

{{collectdata}}

网友评论0