Skip to content

Commit

Permalink
Revise the unreasonable parts of the first two chapters.
Browse files Browse the repository at this point in the history
  • Loading branch information
hainaweiben committed Jul 4, 2024
1 parent 5f77182 commit dfbe12f
Show file tree
Hide file tree
Showing 12 changed files with 470 additions and 295 deletions.
32 changes: 19 additions & 13 deletions doc/ch-big-data-intro/batch-stream.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,51 +17,57 @@ name: data-and-data-stream

在本书以及其他官方资料中,也会将单条事件称为一条数据或一个元素(Element)。在本书后文的描述中,事件、数据、元素这 3 个概念均可以用来表示数据流中的某个元素。

## 1.2.2 批处理与流处理
## 批处理与流处理

### 1. 批处理
### 批处理

批处理(Batch Processing)是指对一批数据进行处理。我们身边的批处理比比皆是,最常见的批处理例子有:微信运动每天晚上有一个批处理任务,把用户好友一天所走的步数统计一遍,生成排序结果后推送给用户;银行信用卡中心每月账单日有一个批处理任务,把一个月的消费总额统计一次,生成用户月度账单;国家统计局每季度对经济数据做一次统计,公布季度国内生产总值(GDP)。可见,批处理任务一般是对一段时间的数据聚合后进行处理的。对于数据量庞大的应用,如微信运动、银行信用卡中心等情景,一段时间内积累的数据总量非常大,计算非常耗时。

### 2. 流处理
### 流处理

如前文所述,数据其实是以流(Stream)的方式持续不断地产生着的,流处理(Stream Processing)就是对数据流进行处理。时间就是金钱,对数据流进行分析和处理,获取实时数据价值越发重要。如 “双十一电商大促销”,管理者要以秒级的响应时间查看实时销售业绩、库存信息以及与竞品的对比结果,以争取更多的决策时间;股票交易要以毫秒级的速度来对新信息做出响应;风险控制要对每一份欺诈交易迅速做出处理,以减少不必要的损失;网络运营商要以极快速度发现网络和数据中心的故障;等等。以上这些场景,一旦出现故障,造成服务的延迟,损失都难以估量。因此,响应速度越快,越能减少损失、增加收入。而 IoT 和 5G 的兴起将为数据生成提供更完美的底层技术基础,海量的数据在 IoT 设备上采集,并通过高速的 5G 通道传输到服务器,庞大的实时数据流将汹涌而至,流处理的需求肯定会爆炸式增长。

## 1.2.3 为什么需要一个优秀的流处理框架
## 为什么需要一个优秀的流处理框架

处理实时流的系统通常被称为流计算框架、实时计算框架或流处理框架。下面就来解释为何需要一个可靠的流处理框架。

### 1. 股票交易的业务场景
### 股票交易的业务场景

我们都知道股票交易非常依赖各类信息,一些有可能影响股票市场价格的信息经常首发于财经网站、微博、微信等社交媒体平台上。作为人类的我们不可能 24 小时一直监控各类媒体,如果有一个自动化的系统来做一些分析和预警,将为决策者争取到更多时间。

假设我们有数只股票的交易数据流,我们可以通过这个数据流来计算以 10 秒为一个时间窗口的股票价格波动,选出那些超过 5% 变化幅度的股票,并将这些股票与媒体的实时文本数据做相关分析,以判断媒体上的哪些实时信息会影响股票价格。当相关分析的结果足够有说服力时,可以将这个系统部署到生产环境,实时处理股票与媒体数据,产生分析报表,并发送给交易人员。那么,如何构建一个可靠的程序来解决上述业务场景问题呢?

### 2. 生产者 - 消费者模型
### 生产者 - 消费者模型

处理流数据一般使用 “生产者 - 消费者”(Producer-Consumer)模型来解决问题。如图 1-6 所示,生产者生成数据,将数据发送到一个缓存区域(Buffer),消费者从缓存区域中消费数据。这里我们暂且不关心生产者如何生产数据,以及数据如何缓存,我们只关心如何实现消费者。
处理流数据一般使用 “生产者 - 消费者”(Producer-Consumer)模型来解决问题。如 {numref}`producer-consumer` 所示,生产者生成数据,将数据发送到一个缓存区域(Buffer),消费者从缓存区域中消费数据。这里我们暂且不关心生产者如何生产数据,以及数据如何缓存,我们只关心如何实现消费者。

![图 1-6 生产者 - 消费者模型](./img/producer-consumer.png)
```{figure} ./img/producer-consumer.png
---
width: 60%
name: producer-consumer
---
生产者 - 消费者模型
```

在股票交易的场景中,我们可以启动一个进程来实现消费者,该进程以 10 秒为一个时间窗口,统计时间窗口内的交易情况,找到波动最大的那些股票。同时,该进程也对新流入的媒体文本进行分析。这个逻辑看起来很容易实现,但深挖之后会发现问题繁多。

### 3. 流处理框架要解决的诸多问题
### 流处理框架要解决的诸多问题

#### (1) 可扩展性
#### 可扩展性

股票交易和媒体文本的数据量都非常大,仅以微博为例,平均每秒有上千条、每天有上亿条微博数据。一般情况下,单个节点无法处理这样规模的数据,这时候需要使用分布式计算。假如我们使用类似 MPI 的框架,需要手动设计分治算法,这对很多程序员来说有一定的挑战性。

随着数据不断增多,我们能否保证我们的程序能够快速扩展到更多的节点上,以应对更多的计算需求?具体而言,当计算需求增多时,计算资源能否线性增加而不是耗费大量的资源,程序的代码逻辑能否保持简单而不会变得极其复杂?一个具有可扩展性的系统必须能够优雅地解决这些问题。

#### (2) 数据倾斜
#### 数据倾斜

在分布式计算中,数据需要按照某种规则分布到各个节点上。假如数据路由规则设计得不够完善,当数据本身分布不均匀时,会发生数据倾斜,这很可能导致部分节点数据量远大于其他节点。这样的后果是:轻则负载重的节点延迟过高,重则引发整个系统的崩溃。假如一条突发新闻在网络媒体平台引发激烈的讨论和分析,数据突增,程序很可能会崩溃。数据倾斜是分布式计算中经常面临的一个问题。

#### (3) 容错性
#### 容错性

整个系统崩溃重启后,之前的那些计算如何恢复?或者部分节点发生故障,如何将该节点上的计算迁移到其他的节点上?我们需要一个机制来做故障恢复,以增强系统的容错性。

#### (4) 时序错乱
#### 时序错乱

限于网络条件和其他各种潜在影响因素,流处理引擎处理某个事件的时间并不是事件本来发生的时间。比如,你想统计上午 11:00:00 到 11:00:10 的交易情况,然而发生在 11:00:05 的某项交易因网络延迟没能抵达,这时候要直接放弃这项交易吗?绝大多数情况下我们会让程序等待,比如我们会假设数据最晚不会延迟超过 10 分钟,因此程序会等待 10 分钟。等待一次也还能接受,但是如果有多个节点在并行处理呢?每个节点等待一段时间,最后做数据聚合时就要等待更长时间。

Expand Down
32 changes: 17 additions & 15 deletions doc/ch-big-data-intro/bigdata-programming-languages.md
Original file line number Diff line number Diff line change
@@ -1,31 +1,33 @@
(bigdata-programming-languages)=
# 编程语言的选择

大数据编程一般会使用Java、Scala和Python等编程语言,Flink目前也支持上述3种语言,本节从大数据编程的角度来分析几种编程语言的优劣。
大数据编程一般会使用 Java、Scala 和 Python 等编程语言,Flink 目前也支持上述 3 种语言,本节从大数据编程的角度来分析几种编程语言的优劣。

## 1.6.1 Java和Scala
## Java 和 Scala

Java是“老牌”企业级编程语言。Java相比C/C++更易上手,支持多线程,其生态圈中可用的第三方库众多。Java虚拟机(Java Virtual Machine,JVM)保证了程序的可移植性,可以快速部署到不同计算机上,是很多分布式系统首选的编程语言,比如Hadoop和Flink的绝大多数代码都是用Java编写的,这些框架提供了丰富的文档,网络社区的支持好。因此,进行大数据编程,Java编程是必备的技能。相比一些新型编程语言,Java的缺点是代码有点冗长
Java 是“老牌”企业级编程语言。Java 相比 C/C++ 更易上手,支持多线程,其生态圈中可用的第三方库众多。Java 虚拟机(Java Virtual Machine,JVM)保证了程序的可移植性,可以快速部署到不同计算机上,是很多分布式系统首选的编程语言,比如 Hadoop 和 Flink 的绝大多数代码都是用 Java 编写的,这些框架提供了丰富的文档,网络社区的支持好。因此,进行大数据编程,Java 编程是必备的技能。相比一些新型编程语言,Java 的缺点是代码有点冗长

Scala是一门基于JVM的编程语言。相比Java,Scala的特色是函数式编程。函数式编程非常适合大数据处理,我们将在第2章进一步介绍函数式编程思想。在并行计算方面,Scala支持Actor模型,Actor模型是一种更为先进的并行计算编程模型,很多大数据框架都基于Actor模型。Spark、Flink和Kafka都是基于Actor模型的大数据框架。Scala可以直接调用Java的代码,相比Java,Scala代码更为简洁和紧凑。凡事都有两面性,Scala虽然灵活简洁,但是不容易掌握,即使是有一定Java基础的开发者,也需要花一定时间系统了解Scala
Scala 是一门基于 JVM 的编程语言。相比 Java,Scala 的特色是函数式编程。函数式编程非常适合大数据处理,我们将在第 2 章进一步介绍函数式编程思想。在并行计算方面,Scala 支持 Actor 模型,Actor 模型是一种更为先进的并行计算编程模型,很多大数据框架都基于 Actor 模型。Spark、Flink 和 Kafka 都是基于 Actor 模型的大数据框架。Scala 可以直接调用 Java 的代码,相比 Java,Scala 代码更为简洁和紧凑。凡事都有两面性,Scala 虽然灵活简洁,但是不容易掌握,即使是有一定 Java 基础的开发者,也需要花一定时间系统了解 Scala

另外,Java和Scala在互相学习和借鉴。Java 8开始引入了Lambda表达式和链式调用,能够支持函数式编程,部分语法与Scala越来越接近,代码也更加简洁。
另外,Java 和 Scala 在互相学习和借鉴。Java 8 开始引入了 Lambda 表达式和链式调用,能够支持函数式编程,部分语法与 Scala 越来越接近,代码也更加简洁。

**注意**
:::{note}

这里的Lambda表达式与1.4.1小节介绍的Lambda架构不同。Lambda表达式基于函数式编程,是一种编写代码的方式。Lambda架构主要指如何同时处理流批数据,是一种大数据架构。
这里的 Lambda 表达式与 1.4.1 小节介绍的 Lambda 架构不同。Lambda 表达式基于函数式编程,是一种编写代码的方式。Lambda 架构主要指如何同时处理流批数据,是一种大数据架构。

Flink的核心代码由Java和Scala编写,为这两种语言提供丰富强大的API,程序员可根据自己和团队的习惯从Java和Scala中选择。本书基于以下两点考虑,决定主要以Java来演示Flink的编程。
:::

- Flink目前绝大多数代码和功能均由Java实现,考虑到本书会展示一些Flink中基于Java的源码和接口,为了避免读者在Java和Scala两种语言间混淆,将主要使用Java展示一些Flink的核心概念。
- 不同读者的编程语言基础不一样,Scala用户往往有一定的Java编程基础,而Java用户可能对Scala并不熟悉。而且Scala的语法非常灵活,一不小心可能出现莫名其妙的错误,初学者难以自行解决,而Scala相对应的书籍和教程不多。或者说Scala用户一般能够兼容Java,而Java用户学习Scala的成本较高。
Flink 的核心代码由 Java 和 Scala 编写,为这两种语言提供丰富强大的 API,程序员可根据自己和团队的习惯从 Java 和 Scala 中选择。本书基于以下两点考虑,决定主要以 Java 来演示 Flink 的编程。

此外,由于大多数Spark作业基于Scala,很多大数据工程师要同时负责Spark和Flink两套业务逻辑,加上Flink的Scala API与Spark比较接近,本书也会在一些地方提示Scala用户在使用Flink时的必要注意事项,并在随书附赠的工程中提供Java和Scala两个版本的代码,方便读者学习。
- Flink 目前绝大多数代码和功能均由 Java 实现,考虑到本书会展示一些 Flink 中基于 Java 的源码和接口,为了避免读者在 Java 和 Scala 两种语言间混淆,将主要使用 Java 展示一些 Flink 的核心概念。
- 不同读者的编程语言基础不一样,Scala 用户往往有一定的 Java 编程基础,而 Java 用户可能对 Scala 并不熟悉。而且 Scala 的语法非常灵活,一不小心可能出现莫名其妙的错误,初学者难以自行解决,而 Scala 相对应的书籍和教程不多。或者说 Scala 用户一般能够兼容 Java,而 Java 用户学习 Scala 的成本较高。

## 1.6.2 Python
此外,由于大多数 Spark 作业基于 Scala,很多大数据工程师要同时负责 Spark 和 Flink 两套业务逻辑,加上 Flink 的 Scala API 与 Spark 比较接近,本书也会在一些地方提示 Scala 用户在使用 Flink 时的必要注意事项,并在随书附赠的工程中提供 Java 和 Scala 两个版本的代码,方便读者学习。

Python无疑是近几年来编程语言界的“明星”。Python简单易用,有大量第三方库,支持Web、科学计算和机器学习,被广泛应用到人工智能领域。大数据生态圈的各项技术对Python支持力度也很大,Hadoop、Spark、Kafka、HBase等技术都有Python版本的API。鉴于Python在机器学习和大数据领域的流行程度,Flink社区非常重视对Python API的支持,正在积极完善Flink的Python接口。相比Java和Scala,Python API还处于完善阶段,迭代速度非常快。Flink的Python API名为PyFlink,是在1.9版本之后逐渐完善的,但相比Java和Scala还不够完善。考虑到Python和Java/Scala有较大区别,本书的绝大多数内容均基于Java相关知识,且PyFlink也在不断迭代、完善,本书暂时不探讨PyFlink。
## Python

## 1.6.3 SQL
Python 无疑是近几年来编程语言界的“明星”。Python 简单易用,有大量第三方库,支持 Web、科学计算和机器学习,被广泛应用到人工智能领域。大数据生态圈的各项技术对 Python 支持力度也很大,Hadoop、Spark、Kafka、HBase 等技术都有 Python 版本的 API。鉴于 Python 在机器学习和大数据领域的流行程度,Flink 社区非常重视对 Python API 的支持,正在积极完善 Flink 的 Python 接口。相比 Java 和 Scala,Python API 还处于完善阶段,迭代速度非常快。Flink 的 Python API 名为 PyFlink,是在 1.9 版本之后逐渐完善的,但相比 Java 和 Scala 还不够完善。考虑到 Python 和 Java/Scala 有较大区别,本书的绝大多数内容均基于 Java 相关知识,且 PyFlink 也在不断迭代、完善,本书暂时不探讨 PyFlink。

严格来说,SQL并不是一种全能的编程语言,而是一种在数据库上对数据进行操作的语言,相比Java、Scala和Python,SQL的上手门槛更低,它在结构化数据的查询上有绝对的优势。一些非计算机相关专业出身的读者可以在短期内掌握SQL,并进行数据分析。随着数据科学的兴起,越来越多的岗位开始要求候选人有SQL技能,包括数据分析师、数据产品经理和数据运营等岗位。Flink把这种面向结构化查询的需求封装成了表(Table),对外提供Table API 和 SQL的调用接口,提供了非常成熟的SQL支持。SQL的学习和编写成本很低,利用它能够处理相对简单的业务逻辑,其非常适合在企业内被大规模推广。本书第8章将重点介绍Table API 和SQL的使用方法。
## SQL

严格来说,SQL 并不是一种全能的编程语言,而是一种在数据库上对数据进行操作的语言,相比 Java、Scala 和 Python,SQL 的上手门槛更低,它在结构化数据的查询上有绝对的优势。一些非计算机相关专业出身的读者可以在短期内掌握 SQL,并进行数据分析。随着数据科学的兴起,越来越多的岗位开始要求候选人有 SQL 技能,包括数据分析师、数据产品经理和数据运营等岗位。Flink 把这种面向结构化查询的需求封装成了表(Table),对外提供 Table API 和 SQL 的调用接口,提供了非常成熟的 SQL 支持。SQL 的学习和编写成本很低,利用它能够处理相对简单的业务逻辑,其非常适合在企业内被大规模推广。本书第 8 章将重点介绍 Table API 和 SQL 的使用方法。
Loading

0 comments on commit dfbe12f

Please sign in to comment.