2020年04月的内容

bigdata

(转载)Apache Doris 在美团外卖数仓中的应用实践

(转载)Apache Doris 在美团外卖数仓中的应用实践
本文侧重于以 Doris 引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我……继续阅读 »

Spark

SparkSql 的Join 实现

SparkSql 的Join 实现
Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。 SparkSQL总体流程介绍 在阐述Join实现之前,我……继续阅读 »

HDFS

Hadoop+HBase+Spark+Hive环境搭建

Hadoop+HBase+Spark+Hive环境搭建
摘要:大数据门槛较高,仅仅环境的搭建可能就要耗费我们大量的精力,本文总结了作者是如何搭建大数据环境的(单机版和集群版),希望能帮助学弟学妹们更快地走上大数据学习之路。 0. 准备安装包   1. Windows下安装Ubuntu双系统 Hadoop等大数据开源框架是不支持Windows系统的,所以需要先安装一个Linux双系统。当然,如果你有一台单……继续阅读 »

HDFS

独家 | 一文读懂Hadoop(一):综述独家 | 一文读懂Hadoop(一):综述

独家 | 一文读懂Hadoop(一):综述独家 | 一文读懂Hadoop(一):综述
随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。 读者可以通过阅读“一文读懂H……继续阅读 »