2020年04月的内容

HDFS

MapReduce2深入浅析

MapReduce2深入浅析
一、MapReduce2工作机制 1.1、MapReduce2的架构图 MapReduce2工作机制.png 1.2、MapReduce2运作步骤 说在前头的话,上图中有一个ResoureceManager,这是一个资源调度器,说白了就是管资源的,在MapReduce1时,所有的事情都是交给Jobtracker来做,包括资源调度,在MapRedu……继续阅读 »

HDFS

Hadoop学习(五)——YARN运行原理剖析

Hadoop学习(五)——YARN运行原理剖析
一、YARN的诞生 在hadoop1.0版本是没有yarn的概念的,而在hadoop2.0版本以上才出现了yarn,人们是希望有一套合理的管理机制,来控制整个集群的资源管理,可以搭配多种计算框架比如MapReduce,spark等等,于是才出现了yarn。 二、YARN的基本架构 yarn和hdfs一样也是一个主从架构(master、slave),分为 R……继续阅读 »

Kafka

kafka集群扩容后的数据迁移

kafka集群扩容后的数据迁移
最近我们生产环境的kafka集群有增加节点的需求,然而kafka在新增节点后并不会像elasticsearch那样感知到新节点加入后自动将数据reblance到新集群中,因此这个过程需要我们手动分配。一番折腾之后,实现了增加kafka集群节点并将原有数据均匀分配到扩容后的集群。下面结合一个例子谈一下整个过程。 ……继续阅读 »

Kafka

Apache Kafka 在 360 的深度实践

Apache Kafka 在 360 的深度实践
1、消息队列选型 2、Kafka在360商业化的现状 3、Kafka client框架 4、数据高可用 5、负载均衡 6、鉴授权与ACL方案 7、Quota机制 8、跨IDC的数据同步 9、监控告警 10、线上问题及解决方案 ……继续阅读 »

Flink

Ververica Platform-阿里巴巴全新Flink企业版揭秘

Ververica Platform-阿里巴巴全新Flink企业版揭秘
随着人工智能时代的降临,数据量的爆发,在典型的大数据业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。2017年基于Flink开发的实时计算产品正式服务于阿里巴巴集团内部,并从搜索和推荐两大场景开始应用。目前阿里巴巴及下属所有子公司,都采用实时计算产品来处理所有的实时业务。本文介绍Ververica Platfor……继续阅读 »

Flink

Flink State 有可能代替数据库吗?

Flink State 有可能代替数据库吗?
有状态的计算作为容错以及数据一致性的保证,是当今实时计算必不可少的特性之一,流行的实时计算引擎包括 Google Dataflow、Flink、Spark (Structure) Streaming、Kafka Streams 都分别提供对内置 State 的支持。State 的引入使得实时应用可以不依赖外部数据库来存储元数据及中间数据,部分情况下甚至可以直……继续阅读 »

Flink

Flink 源码之内存管理Flink

Flink 源码之内存管理Flink
flink的MemorySegment是Flink管理的内存片段。该类是一个抽象类。它的实现既可以是堆内存,也可以是堆外内存,甚至是两者同时使用。使用MemorySegment这个类型管理内存,无需知道内存片段是堆内、堆外还是混合,一视同仁。 ……继续阅读 »