商务网站创建设计方案,md5(wordpress),甘肃一建考试最新消息,徐州网站开发要多少钱大数据架构设计Hadoop有3个核心组件#xff1a;分布式文件系统HDFS#xff1b;分布式运算编程框架MapReduce#xff1b;分布式资源调度平台YARN。HBase#xff0c;Hadoop dataBase#xff0c;基于HDFS的NoSQL数据库#xff0c;面向列式的内存存储#xff0c;定期将内存数…大数据架构设计 Hadoop有3个核心组件分布式文件系统HDFS分布式运算编程框架MapReduce分布式资源调度平台YARN。 HBaseHadoop dataBase基于HDFS的NoSQL数据库面向列式的内存存储定期将内存数据刷新到磁盘(刷盘)。使用LSM树结构存储结构。不支持SQL、没有表关系、无法join操作不支持事务仅支持行级事务、不支持回滚。MySQL4张表在HBase对应1个表、4个列。离线计算数据流程实时计算数据流程专业术语OLTP联机事务处理Online Transaction Processing。OLAP联机实时分析Online Analytical Processing。HTAP混合事务和分析处理Hybrid Transaction Analytical Processing。MPP大规模并行处理Massively Parallel Processing。数据仓库与分层ODS 数据接入层所有的数据首先接入ODS层数据复杂多样粒度最粗。DIM 维表层根据维度及其属性将数据平台上构建的物理化的表采用宽表设计的原则。DWD 数据仓库层经过ODS清洗、处理后的一致性、准确的、干净的数据。DWS 数据集市层该层数据是面向主题来组织的轻度汇总级的数据。DWT 数据应用层 为了满足具体的分析需求而构建的高度汇总的数据。ADS 层为各种报表提供数据。大数据组件存储框架HBase、TiDB、ClickHouse、InfluxDB时序数据库、GraphQL、Elasticsearch、Apache Doris等。数据同步转换组件Sqoop、canal、DataX、maxwell、Debezium、Flink-CDC、Kettle、StreamSets。离线批量计算分析引擎MapReduce、Yarn、Hive、Spark。Hive无物理存储功能、逻辑表定义元数据实时流式计算引擎Flink、Storm、Spark Streaming。存储层HDFS、Apache Ozone、S3、OSS、Ceph、GlusterFS。数据湖Apache Hudi、Apache Iceberg、Delta Lake。任务调度工具Azkaban、Airflow、Oozie、Dolphin、Scheduler。ETL数据抽取工具Kettle、StreamSets、Apache NiFi、Airbyte。Hodoop集群管理工具、大数据运维Ambari、CDHCloudera版本、HDPHortonwork版、CDPCloudera和Hortonwork合并版本收费、USDP国产UCloud版、CRH基于Apache AmbariApache BigTop、TDH星环收费闭源。