2020年04月的内容

数据仓库中的缓慢变化维度（SCD)

数据仓库中的缓慢变化维度（SCD)，数仓，缓慢变化维度 ……继续阅读 »

Flink 新场景：OLAP 引擎性能优化及应用案例

摘要：本文由阿里巴巴技术专家贺小令（晓令）分享，主要介绍 Apache Flink 新场景 OLAP 引擎，内容分为以下四部分：背景介绍 Flink OLAP 引擎案例介绍未来计划 ……继续阅读 »

Java

JVM 发生 OOM 的 8 种原因、及解决办法

JVM 发生 OOM 的 8 种原因、及解决办法 ……继续阅读 »

bigdata

Flink 新场景：OLAP 引擎性能优化及应用案例

主要介绍 Apache Flink 新场景 OLAP 引擎，内容分为以下四部分：背景介绍 Flink OLAP 引擎案例介绍未来计划 ……继续阅读 »

bigdata

(转载)Apache Doris 在美团外卖数仓中的应用实践

本文侧重于以 Doris 引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下，各种数据引擎百花齐放，但由于业务的复杂性与多样性，目前并没有哪个引擎能够适配所有业务场景，因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化，同时兼顾研发、生产与运维成本的最小化，建设持续进步的数仓能力，也欢迎大家多给我……继续阅读 »

Spark

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once

在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的。 ……继续阅读 »

Spark

SparkSql 的Join 实现

Spark SQL 之 Join 实现 Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流，作为开发者，我们有必要了解Join在Spark中是如何组织运行的。 SparkSQL总体流程介绍在阐述Join实现之前，我……继续阅读 »

hive及数仓

Hive调优

Hive优化目标在有限的资源下,执行效率更高常见问题数据倾斜 map数设置 reduce数设置其他 ……继续阅读 »

HDFS

Hadoop+HBase+Spark+Hive环境搭建

摘要：大数据门槛较高，仅仅环境的搭建可能就要耗费我们大量的精力，本文总结了作者是如何搭建大数据环境的（单机版和集群版），希望能帮助学弟学妹们更快地走上大数据学习之路。 0. 准备安装包 1. Windows下安装Ubuntu双系统 Hadoop等大数据开源框架是不支持Windows系统的，所以需要先安装一个Linux双系统。当然，如果你有一台单……继续阅读 »

HDFS

独家 | 一文读懂Hadoop（一）：综述独家 | 一文读懂Hadoop（一）：综述

随着全球经济的不断发展，大数据时代早已悄悄到来，而Hadoop又是大数据环境的基础，想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0，也意味着一直有一群人在对Hadoop不断的做优化，不仅如此，各个Hadoop的商业版本也有好多公司正在使用，这也印证了它的商业价值。读者可以通过阅读“一文读懂H……继续阅读 »

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30