云和恩墨大数据平台



云和恩墨大数据平台,是云和恩墨大数据团队多年实践经验积累而成的一站式大数据应用开发和数据管理平台。为企业提供全面的、 稳定的、安全易用的基础大数据平台架构支持, 企业业务专家仅需专注业务场景,通过恩墨大数据平台构建复杂业务模型, 深度挖掘企业数据价值。不再为垂直扩展成本高昂而困扰,根据需要可以随时通过增加集群节点数量的方式线性的提高系统处理能力。


1565147487626013928.png


平台介绍


平台主要分为大数据开发套件和 Hadoop 发行版两部分。
●  大数据开发套件核心为数据开发、任务运维、自助分析、数据管理、安全认证、租户隔离等。
●  大数据开发套件将数据开发、数据分析、数据 ETL、数据挖掘 、数据建模等数据科学工作通过工作流的方式有效地串联,提高了数据开发工程师、数据分析工程师和数据科学家的工作效率。
●  Hadoop 发行版涵盖了恩墨大数据所有底层平台组件,包括自研组件、基于开源改造的组件。丰富而全面的组件,能提供完善的平台能力,使其能轻易地构建不同领域的解决方案,满足不同类型的业务需求。


平台特点


恩墨大数据平台具有以下特点
●  敏捷易用, 从业务场景角度出发设计的用户操作界面全面提高了系统的易用性,结束了平台命令行运维的繁琐状态。数据开发工程师和数据分析师通过简单拖拽和表单填写即可完成数据相关工作。数据科学家也可以无感知的, 少量甚至不用学习大数据技术就可以完成数据科学工作。
●  成熟稳定, 持续的需求驱动多次往复打磨平台,云和恩墨各业务验证。最大单集群规模超过500台, 已达成半年无技术故障处理每日10万余任务, 日均扫描数据总量30余PB。
●  安全可靠, 平台提供多租户支持,各租户之间资源软隔离。最底层使用Kerberos认证, 最大化保证数据安全性和集群隔离性。集成Ranger实现类似于RDBMS的细粒度权限控制。在以上基础上提供完善的审计功●  通过对用户平台行为的记录、分析和汇报,用来帮助事后生成合规报告、事故追根溯源, 最大化提高平台安全性。


平台核心功能


恩墨大数据平台具有以下核心功能:
●  可视化开发套件, 用户可以进行数据开发、任务运维、自助分析、数据管理。 大数据开发套件极大的降低了大数据技术门槛,帮助企业快速落地大数据项目。


1565147651623041608.png


  •  数据开发模块提供数据库传输、SQL、Spark、OLAP Cube、MapReduce 及 Script 各种类型任务的敏捷开发界面,任务开发者通过拖拽创建任务方便地进行数据集成、 数据 ETL、数据分析等数据工作。 开发人员能根据自身业务场景按需管理任务调度,开发可以设置任务的执行顺序、执行依赖、优先级以及执行周期。针对任务失败的情况,设置重试次数、重试间隔及报警规则。最后,任务产生的结果可以对接主流 BI 系统进行数据可视化分析,或直接回流到线上系统支撑辅助线上业务。
  •  任务运维模块包含可视化的任务管理和实例运维。
      a. 任务管理:运维人员或具备部分运维权限的开发人员可以查看负责产品线任务列表及各个任务的状态、创建人、修改时间、最近执行时间及调度信息。针对单个任务,用户可以查看详情(包括修改历史、 执行历史及执行计划)、编辑任务或补数据。
      b. 实例运维:运维人员查看任务实例列表及各个实例的状态、运行方式、开始时间、 结束时间、运行时长、计划执行时间及提交人信息。此外,用户可以按照不同的维度 (开始时间、关键字、运行方式、状态及提交人)快速定位实例。针对单个实例,用户可以查看详情、实时日志。
  •  自助分析提供交互式数据分析的 Notebook。单个 Notebook 切分成不同段落, 便于分析师使用多个段落同时进行交互式分析。除了交互式数据分析, 用户可以使用自助分析进行历史数据查询和自助取数。
  •  数据管理模块包括元数据管理、数据源管理、权限设置及权限查看。
      a. 通过元数据主题视图,企业可以方便直观的实现数仓分层,用户可以根据主题快速定位表。
      b. 数据源管理提供登记关系型数据库数据源的入口。登记数据源后,数据开发工程师可以将数据源的数据集成到恩墨大数据平台,并做进一步的操作如数据 ETL 和数据分析。 目前支持的关系型数据库包括 MySQL、SQL Server、PostgreSQL、DB2 及 Oracle。 除了数据源登记,项目管理员可以修改、删除数据源或测试数据源连通性。
      c. 通过权限管理,项目管理员可以按照角色进行细粒度权限控制,并且针对某个角色,授予库、表和列的不同权限。此外,用户可以查看各个角色的授权情况。

●  调度系统, 用户可以通过调度系统灵活方便地配置和调度大数据 ETL 任务。支持 Sqoop、 Hive、Spark、Hadoop MR、Script、Java 等类型的大数据任务,通过配置任务之间的依赖关系,可以灵活地组织任务流。支持任务流的定期调度、历史回溯调度、历史任务重跑等多种调度方式。支持跨任务流的任务依赖和任务的细粒度分配,并且所有服务节点都实现了高可用机制。

1565147849519039535.png

  •  单个任务执行, 调度系统支持几乎所有主流的大数据类型任务,对任务的执行进行了严格的权限控制和资源隔离,保证用户任务正常执行。用户可以灵活便捷地配置任务参数。每个任务的执行采用独立进程执行的方式,任务插件的升级和扩展不会对系统平台使用有任何影响。
  •  任务流执行控制, 调度系统除了支持多种形式的调度方式以外,还支持多维度的精细化的调度参数的设置: 支持多层级的任务流并发执行,内置多种任务异常处理策略,提供多种任务流执行状态的通知报警方案。
  •  调度系统还支持执行 sql 执行结果的预览和下载,任务执行日志的预览、保存和下载等提高用户使用体验和能快速问题定位的功能。

●  交互式分析查询, Impala 是基于 MPP 架构的新型查询系统,它能提供比现有 SQL-on-Hadoop 引擎更简易使用和快速查询的特点,支持标准的 ANSI SQL 语法; Impala 通过Hive元数据查询存储在多种存储系统上的主数据。Impala 具有较好的可扩展性,可以很好的与典型 BI 应用系统协同工作,对于即席查询(Ad-hoc 查询)需求无疑是首选工具。 云和恩墨大数据团队还对社区版做了大量源码级修改, 极大的提高了Impala在使用和运维上的便捷性。


●  数据安全, 平台通过3A全面保证数据安全。 3A为: 认证 (Authentication)、授权(Authorization)、审计(Audit)
  •  认证, 认证是用户进入系统的第一道屏障。采用 MIT 开发的 Kerberos 做用户级别的认证。Kerberos 的设计主要针对 client-server 模型,基于加密方法建立用户(和系统)识别自己的方法,对个人通信以安全的手段进行身份认证,用户和服务器都能验证对方的身份。
  •  授权, 平台提供基于角色和个人的访问控制。对 HDFS、Hive 等实现了统一的,细粒度的数据访问控制。从数据角度,可以查看当前何种角色/何人有何种权限。从角色/个人角度,可以查看对哪些数据有何种权限。
  •  审计, 提供较直观的整体评估和事件跟踪,包括实时监测对系统敏感信息的访问和操作行为,根据规则设定报警并及拦截违规操作,收集并记录行为,可检索所有记录。 


●  数据可靠性, Hadoop 通过数千台机器组成大规模集群提供超大规模数据存储和计算能力,当集群规模变大以后机器的各类型故障将变得频繁,其中最为突出的就是磁盘故障。例如: 假设硬盘年故障率 3%,以 300 台规模的集群计算,每台机器 6~10 块数据盘,一年中将会有 50~90 块左右的磁盘故障,这对于数据可靠性来说是一个巨大的挑战。HDFS 通过多方面的技术手段来保证数据可靠性。
  •  通过把数据多副本保存到多台机器来避免磁盘损坏导致数据丢失的风险。
  •  通过自动恢复副本的能力,保证在磁盘损坏后维持集群中数据的副本数。
  •  恩墨大数据平台在依赖HDFS可靠性的同时, 还通过大数据平台的运维监控模块, 对每个节点从硬件、操作系统、进程状态到业务层面进行监控,及时发现各类异常状态,并及时产生告警,使故障检测时间和修复时间大大缩短,从而保证集群稳定性与数据可靠性。


●  平台运维和监控, 恩墨大数据平台包含安装部署、配置管理、监控告警等组件与集群管理功能
  •  提供富安装包模式,无需外网或者部署 Repo 仓库即可完成安装部署,更适用于企业环境的安装部署。
  •  丰富监控能力,让问题更显而易见。
  •  丰富告警能力,不止支持短信邮件,还支持微信、企业微信、钉钉等常用企业通讯工具。


平台应用场景


●  企业已完成信息化转型, 数据仍然存在孤岛现象, 可以通过恩墨大数据平台打通数据, 实现数据的统一管理和整合。
●  企业已具备初步的大数据基础能力, 大数据应用处于报表阶段(大数据初级应用阶段), 企业希望挖掘出自身数据中的价值, 为优化企业运营或为企业决策提供参考, 通过云和恩墨大数据平台可以针对数据分析场景快速建模, 使企业具备数据分析能力和提供数据决策能力, 为企业从业务驱动转向为数据驱动打下坚实的基础。
●  企业已具备大数据技术能力和历史数据分析能力, 且通过构建多维立方体(Cube)使绝大多数非技术人员能自助的多维度查询数据, 尚未具备挖掘历史数据潜在规律、预测未来走向的数据预测和决策能力, 通过云和恩墨大数据平台可以针对历史全量数据快速构建算法模型, 使企业具备数据预测和提供数据决策能力。
●  企业已具备完善的大数据技术生态和完善的数据分析、预测、决策能力。 云和恩墨大数据团队可以提供持续的大数据技术咨询、培训认证和灾难救援服务,为企业数据驱动保驾护航,全面并持续提升企业数据从业者的技术能力。