2020年11月24日

Flink系列之一初探flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。Flink不仅能同时提供支持高吞吐和严格一次(exactly-once)语义的实时计算,还能提供批量数据处理。

Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink被设计为可在所有常见的集群环境中运行、并能以内存速度和任意规模进行计算。

本文主要介绍内容如下:
新手如何理解 Flink?
Flink 的基本概念。
无界数据和有界数据的区别。
flink 的执行引擎原理。

Read More
CDH

CentOS7.2离线安装CDH集群

Cloudera 版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于 Web 的用户界面,支持大多数 Hadoop 组件,包括 HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。

一、概述
二、安装部署
1. 机器规划
2. 软件包下载
3. 基础环境部署
3.1 关闭防火墙,修改 hostname,修改 hosts
① 关闭防火墙
② 修改hostname
③ 修改 hosts(CHD机器配置,在3台机器上都需要配置)
④ 关闭 selinux( 3 台机器均要执行)
⑤ linux 系统 swappiness 参数在内存与交换分区之间优化
⑥ 禁用大内存页面
3.2 节点SSH免密互通
3.3 yum源更新
3.4 基础依赖包安装
3.5 NTP时间同步
4. 安装JAVA环境
5. 安装MariaDB
6. 创建CM所需数据库
三、安装CM5
1. 各节点所需安装包准备
2. 初始化 CM5 数据库
3. 启动 CM5
四、安装CDH

Read More