Flink系列之二Flink的窗口和水印

通常来讲,Window 就是用来对一个无限的流设置一个有限的集合,在有界的数据集上进行操作的一种机制。window 又可以分为基于时间(Time-based)的 window 以及基于数量(Count-based)的 window。

本文就 Flink 的窗口类型逐一分析,深入理解 fink 的窗口机制以及事件水印在数据流中的作用。

继续阅读

Flink系列之一初探flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。Flink不仅能同时提供支持高吞吐和严格一次(exactly-once)语义的实时计算,还能提供批量数据处理。

Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink被设计为可在所有常见的集群环境中运行、并能以内存速度和任意规模进行计算。

本文主要介绍内容如下:
新手如何理解 Flink?
Flink 的基本概念。
无界数据和有界数据的区别。
flink 的执行引擎原理。

继续阅读

详解kafka配置文件server.properties

server.properties是Kafka的主要配置文件,下面简单介绍其中的相关配置项的含义。必须修改的配置项就是log.dirs,其他配置可以根据需求自行修改。

Kafka服务端是否可以根据请求自动创建Topic,默认是true。如果打开此选项,下面三种请求会触发Topic自动创建:
①Producer向某个不存在的Topic写人消息
②Consumer从某个不存在的Topic读取消息
③Consumer从某个不存在的Topic 读取消息

继续阅读

CentOS7.2离线安装CDH集群

Cloudera 版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于 Web 的用户界面,支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。

一、概述
二、安装部署
1. 机器规划
2. 软件包下载
3. 基础环境部署
3.1 关闭防火墙,修改 hostname,修改 hosts
① 关闭防火墙
② 修改hostname
③ 修改 hosts(CHD机器配置,在3台机器上都需要配置)
④ 关闭 selinux( 3 台机器均要执行)
⑤ linux 系统 swappiness 参数在内存与交换分区之间优化
⑥ 禁用大内存页面
3.2 节点SSH免密互通
3.3 yum源更新
3.4 基础依赖包安装
3.5 NTP时间同步
4. 安装JAVA环境
5. 安装MariaDB
6. 创建CM所需数据库
三、安装CM5
1. 各节点所需安装包准备
2. 初始化 CM5 数据库
3. 启动 CM5
四、安装CDH

继续阅读