2020年04月11日的内容

Hive调优

Hive优化目标在有限的资源下,执行效率更高常见问题数据倾斜 map数设置 reduce数设置其他 ……继续阅读 »

Hadoop+HBase+Spark+Hive环境搭建

摘要：大数据门槛较高，仅仅环境的搭建可能就要耗费我们大量的精力，本文总结了作者是如何搭建大数据环境的（单机版和集群版），希望能帮助学弟学妹们更快地走上大数据学习之路。 0. 准备安装包 1. Windows下安装Ubuntu双系统 Hadoop等大数据开源框架是不支持Windows系统的，所以需要先安装一个Linux双系统。当然，如果你有一台单……继续阅读 »

HDFS

独家 | 一文读懂Hadoop（一）：综述独家 | 一文读懂Hadoop（一）：综述

随着全球经济的不断发展，大数据时代早已悄悄到来，而Hadoop又是大数据环境的基础，想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0，也意味着一直有一群人在对Hadoop不断的做优化，不仅如此，各个Hadoop的商业版本也有好多公司正在使用，这也印证了它的商业价值。读者可以通过阅读“一文读懂H……继续阅读 »

HDFS

MapReduce2深入浅析

一、MapReduce2工作机制 1.1、MapReduce2的架构图 MapReduce2工作机制.png 1.2、MapReduce2运作步骤说在前头的话，上图中有一个ResoureceManager，这是一个资源调度器，说白了就是管资源的，在MapReduce1时，所有的事情都是交给Jobtracker来做，包括资源调度，在MapRedu……继续阅读 »

HDFS

Hadoop学习（五）——YARN运行原理剖析

一、YARN的诞生在hadoop1.0版本是没有yarn的概念的，而在hadoop2.0版本以上才出现了yarn，人们是希望有一套合理的管理机制，来控制整个集群的资源管理，可以搭配多种计算框架比如MapReduce，spark等等，于是才出现了yarn。二、YARN的基本架构 yarn和hdfs一样也是一个主从架构（master、slave），分为 R……继续阅读 »

Kafka

kafka集群扩容后的数据迁移

最近我们生产环境的kafka集群有增加节点的需求，然而kafka在新增节点后并不会像elasticsearch那样感知到新节点加入后自动将数据reblance到新集群中，因此这个过程需要我们手动分配。一番折腾之后，实现了增加kafka集群节点并将原有数据均匀分配到扩容后的集群。下面结合一个例子谈一下整个过程。 ……继续阅读 »

Kafka

Apache Kafka 在 360 的深度实践

1、消息队列选型 2、Kafka在360商业化的现状 3、Kafka client框架 4、数据高可用 5、负载均衡 6、鉴授权与ACL方案 7、Quota机制 8、跨IDC的数据同步 9、监控告警 10、线上问题及解决方案 ……继续阅读 »

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30