linux 服务安装 Anaconda2

Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。

Anaconda具有如下特点:1. 开源;2. 安装过程简单;3. 高性能使用Python和R语言;4. 免费的社区支持

其特点的实现主要基于Anaconda拥有的:1. 拥有完整的conda依赖包;2.良好的环境管理器;3.1,000+开源库(模块)

如果日常工作或学习并不必要使用1,000多个库,那么可以考虑安装Miniconda(图形界面下载及命令行安装请戳),这里不过多介绍Miniconda的安装及使用。

继续阅读

Flink系列之二Flink的窗口和水印

通常来讲,Window 就是用来对一个无限的流设置一个有限的集合,在有界的数据集上进行操作的一种机制。window 又可以分为基于时间(Time-based)的 window 以及基于数量(Count-based)的 window。

本文就 Flink 的窗口类型逐一分析,深入理解 fink 的窗口机制以及事件水印在数据流中的作用。

继续阅读

Flink系列之一初探flink

Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。Flink不仅能同时提供支持高吞吐和严格一次(exactly-once)语义的实时计算,还能提供批量数据处理。

Apache Flink 是一个用于对无边界和有边界数据流进行有状态计算的框架和分布式处理引擎。Flink被设计为可在所有常见的集群环境中运行、并能以内存速度和任意规模进行计算。

本文主要介绍内容如下:
新手如何理解 Flink?
Flink 的基本概念。
无界数据和有界数据的区别。
flink 的执行引擎原理。

继续阅读