FLINK WEEKLY 2019/41

Zili Chen Sun, 13 Oct 2019 23:33:17 -0700

FLINK WEEKLY 2019/41 <https://zhuanlan.zhihu.com/p/86580243>


很高兴和大家分享上周 FLINK 社区的发展。上周 Stephan Ewen 在 Flink Forward Berlin 上宣布了基于 FLINK
的通用计算库 Stateful Function <https://statefun.io/>，使用 Stateful Function 可以将
FLINK 的应用场景扩展到现有的几乎所有数据系统上。具体的邮件链接参考本次 WEEKLY 最后的社区发展部分
用户问题

Flink 1.8 版本如何进行 TaskManager 的资源控制
<https://lists.apache.org/x/thread.html/532ce04c42d9ff5919e24a4a96c96d1ade28366e0a10e288eca0a41e@%3Cuser-zh.flink.apache.org%3E>

升级 FLINK 1.5 到 1.8 并切换 runtime 框架到 FLIP-6 之后遇到的资源配置问题

文件重命名
<https://lists.apache.org/x/thread.html/d97dcb34df06abdcf798b1990c34a7e4554b5744696d64e03de4b9b4@%3Cuser-zh.flink.apache.org%3E>

一定程度上自定义 StreamingFileSink 产生的文件的名称

Flink SQL ：Unknown or invalid SQL statement.
<https://lists.apache.org/x/thread.html/997e8cef26275e568bc561895e53516c13273620ce026e052af7804f@%3Cuser-zh.flink.apache.org%3E>

FLINK SQL Client 对 SQL 的支持局限性，不支持 create table 语句

How to write stream data to other Hadoop Cluster by StreamingFileSink
<https://lists.apache.org/x/thread.html/36b7cc7831aab3cd1819c476d9a7026d3786fc03a07af1fba5c4a22f@%3Cuser-zh.flink.apache.org%3E>

FLINK 作业将输出写到另一个 Hadoop 集群上所需要的配置，避免 FLINK 无法解析另一个集群的相关信息

基于savepoint 调小并发的问题
<https://lists.apache.org/x/thread.html/09bb8643ed98d659dffa154a24c7517153b99410a6020e9cf86ac6dc@%3Cuser-zh.flink.apache.org%3E>

从 savepoint 中启动作业时修改原先配置的并发度，但是最大并发不能改变

flink checkpoint超时问题
<https://lists.apache.org/x/thread.html/e0fd97ff49a8c08ad3baed2276ea5cc5421cb6ba67891980fac3bc56@%3Cuser-zh.flink.apache.org%3E>

排查 checkpoint 问题可以参考这篇文章 <https://mp.weixin.qq.com/s/0jTVXa9ktyLynwvRelRYYg>

Flink集群迁移savepoint还保留原集群地址问题讨论
<https://lists.apache.org/x/thread.html/48ff400a37e674f38baacb657ab70f5c42f09176987b59d43c5c3343@%3Cuser-zh.flink.apache.org%3E>

目前 FLINK savepoint 保存的是文件的绝对路径，因此不支持移动到另一个 HDFS 集群上启动。作为临时方案，可以通过修改 meta
文件的非正规方法绕过

flink1.9 webui exception日志显示问题
<https://lists.apache.org/x/thread.html/77e1d2d5f304ae1bbec438336392f9fc964a8c8cd31948026863fe01@%3Cuser-zh.flink.apache.org%3E>

FLINK 1.9 之后 Web UI 显示异常问题，可能与 1.9 对 failover 的策略更新有关，暂无定论

Flink StreamingFileSink.forBulkFormat to HDFS
<https://lists.apache.org/x/thread.html/aa865bed6b9476b042df9e75c39a5649bd500d0fe2c8fbcb614988ac@%3Cuser-zh.flink.apache.org%3E>

支持使用 ORC 格式的 Hive 表消费 Kafka 数据到 HDFS

Group by multiple fields
<https://lists.apache.org/x/thread.html/6f6a2ab2a6b63ece1333ac390ac4d972a0d6e12f692257b9807f1517@%3Cuser.flink.apache.org%3E>

基于多个 field 做 group by 的 API 调用方法

[SURVEY] How do people upgrade their Flink applications?
<https://lists.apache.org/x/thread.html/a53a320eb02b8b322204fb62292a31e02b2721189b6c7e7288f94933@%3Cuser.flink.apache.org%3E>

关于升级 FLINK 应用的调查，阿里的工程师简要介绍了他们的经验

Backpressure tuning/failure
<https://lists.apache.org/x/thread.html/0e5dbf1fd573ab55e1d462496ba94a39c3dce5ba449b19e48e73b625@%3Cuser.flink.apache.org%3E>

关于 FLINK 反压的调优方法的问题
开发讨论

[DISCUSS] Drop Python 2 support for 1.10
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Drop-Python-2-support-for-1-10-td33824.html>

Dian Fu 发起了在 1.10 中移除 FLINK 对 Python2 的支持的讨论，目前 FLINK 正在实现新的 Python
API。该讨论已基本达成一致，正在投票中

Mongo Connector
<https://lists.apache.org/x/thread.html/30a6c58838e68d8ffffb843818f54cc9692d6cb0a13d7921b50741a7@%3Cdev.flink.apache.org%3E>

Vijay Srinivasaraghavan 发起了关于 FLINK Mongo 连接器的讨论

[DISCUSS] FLIP-76: Unaligned checkpoints
<https://lists.apache.org/x/thread.html/a2b58b7b2b24b9bd4814b2aa51d2fc44b08a919eddbb5b1256be5b6a@%3Cdev.flink.apache.org%3E>

Arvid Heise 的 FLIP-76 得到了非常好的反响，该 FLIP 旨在优化反压情况下的 checkpoint 性能

[DISCUSS] FLIP-77: Introduce ConfigOptions with Data Types
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-77-Introduce-ConfigOptions-with-Data-Types-td33902.html>

Timo Walther 的 FLIP-77 由 FLIP-54 分裂而来，作为演化 FLINK 配置的一部分，首先支持 ConfigOptions
中带有数据类型信息

[SURVEY] How do you use ExternallyInducedSource or WithMasterCheckpointHook
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/SURVEY-How-do-you-use-ExternallyInducedSource-or-WithMasterCheckpointHook-td33864.html>

Biao Liu 发起了对 FLINK 用户使用 ExternallyInducedSource 和 WithMasterCheckpointHook
接口的调查。这将对他主导的 CheckpointCoordinator 的线程模型重构有所帮助，并有助于保证重构工作不会影响现有的使用场景
社区发展

[PROPOSAL] Contribute Stateful Functions to Apache Flink
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/PROPOSAL-Contribute-Stateful-Functions-to-Apache-Flink-td33913.html>

Stephan Ewen 在 Flink Forward Berlin 上宣布了基于 FLINK 的通用计算库 Stateful Function
<https://statefun.io/>，使用 Stateful Function 可以将 FLINK
的应用场景扩展到现有的几乎所有数据系统上。这个邮件旨在将 Stateful Function 贡献回 FLINK
的代码仓库中。目前主要对是否接受贡献和代码以独立仓库存在还是整合进 FLINK 主仓库进行讨论

[VOTE] Release 1.9.1, release candidate #1
<http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/VOTE-Release-1-9-1-release-candidate-1-td33637.html>

FLINK 1.9.1 的发布稳步进行中，目前已经收到若干正面的反馈，对应的发布页也已经就绪。有望在本周发出

FLINK WEEKLY 2019/41

回复