官网文档和样例的不完整性和不严谨性的问题

2021-04-24 Thread xue...@outlook.com
Flink1.10的集群,用hdfs做backend 无论从flink最早的版本到flink 1.12都存在的一些文档和样例的不完整,或者说相同的代码,因输入源不同导致的结果差异。 比如说下面链接中的样例 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/stream/operators/process_function.html 如果输入源分别为 1. 一次性从内存中的List读取数据 2. 一次性从文件目录读取读取数据 3. 持续从文件目录读取数据 4.

flink预加载数据的方式

2020-06-11 Thread xue...@outlook.com
环境背景:flink 1.10 standalone cluster 原因:因数据处理,需要动态的增加OutputTag做数据流的分流 即因业务原因,需要有些A数据先运行计算好后,才能被使用B、C、D类数据流结合处理后的结果后的结果流,才能使用A数据流。但A是变化的。 目的:除了Rich方式在open中能够预加载数据外(即先于数据流处理其他数据),是否还有其他方式 在flink的流式计算中没有什么比较好的办法,实施流之间的数据结果依赖。 我试过使用流式数据处理A;使用流式数据处理{B、C、D}在Function_XXX中使用A的结果流

回复: 关于使用IngressTime,window过小的问题

2020-06-01 Thread xue...@outlook.com
kId=550986>应用 发件人: xue...@outlook.com<mailto:xue...@outlook.com> 发送时间: 2020年6月1日 22:27 收件人: user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题: 回复: 关于使用IngressTime,window过小的问题 如果不使用window,那么输出会按照ValueState的存量的key的ValueState聚合 输出 ``` ++

回复: 关于使用IngressTime,window过小的问题

2020-06-01 Thread xue...@outlook.com
; (k2,22) ``` 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用 发件人: xue...@outlook.com<mailto:xue...@outlook.com> 发送时间: 2020年6月1日 22:22 收件人: user-zh<mailto:user-zh@flink.apache.org> 主题: 关于使用IngressTime,window过小的问题 Flink 1.10,wind

关于使用IngressTime,window过小的问题

2020-06-01 Thread xue...@outlook.com
Flink 1.10,windows 10 flink api验证 代码如下 ``` import org.apache.flink.api.java.functions.KeySelector; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.TimeCharacteristic; import org.apache.flink.streaming.api.datastream.DataStreamSource; import

回复: Re:Re: RichMapFunction的问题

2020-05-25 Thread xue...@outlook.com
在 2020-05-25 11:47:48,"tison" 写道: >关于第一个问题,最好细化一下【各种问题】是什么问题。 > >关于第二个问题,我印象中目前 Flink 不支持按并发(SubTask)级别指定调度的位置,绕过方案可以是设置每个 TM 仅持有一个 >Slot。这方面我抄送 Xintong,或许他的工作能帮到你。 > >Best, >tison. > > >xue...@outlook.com 于2020年5月25日周一 上午11:29写道: > >> 遇到两个问题: >

回复: RichMapFunction的问题

2020-05-25 Thread xue...@outlook.com
Song<mailto:tonysong...@gmail.com> 主题: Re: RichMapFunction的问题 关于第一个问题,最好细化一下【各种问题】是什么问题。 关于第二个问题,我印象中目前 Flink 不支持按并发(SubTask)级别指定调度的位置,绕过方案可以是设置每个 TM 仅持有一个 Slot。这方面我抄送 Xintong,或许他的工作能帮到你。 Best, tison. xue...@outlook.com 于2020年5月25日周一 上午11:29写道: > 遇到两个问题: > 背景:flink v1.10集群,几十台主机,每

RichMapFunction的问题

2020-05-24 Thread xue...@outlook.com
遇到两个问题: 背景:flink v1.10集群,几十台主机,每台CPU 16,内存 50G,整个job的并发是200 比如我的一个RichMapFunction在open中会加载存量数据。 因维度数据和主数据是非常离散的,因此这些维度数据都需要加载到内存 1、这个RichMapFunction的并发度上不去,只能整到4,并发度上去后各种问题,但从主机内存以及分配给taskmanager的内存足够; 2、这个RichMapFunction的所有slot都分配到同一个taskmanager上,即同一个主机。没有找到接口可以分散到不同的taskmanager上; 说简单点:

双流JOIN的源代码解读

2020-04-26 Thread xue...@outlook.com
DataStream 双流join时,看代码是使用CoGroupedStream的TaggedUnion,把T1,T2变成TaggedUnion统一对象后,union流后处理的,但是未找到如何处理UnionKeySelector unionKeySelector,即对T1.key.equals(T2.key)进行处理的代码在哪里,这个有人知道吗 ``` UnionTypeInfo unionType = new UnionTypeInfo<>(input1.getType(), input2.getType()); UnionKeySelector unionKeySelector

flink待优化的列表,希望flink PMC 解决

2020-04-20 Thread xue...@outlook.com
1、 maven大包涉及到长期的工程维护问题 现在官网提供的maven打包方式,直接把第三方包解开后按照目录方式存放 而不是维持maven depend on的标准的jar包方式(带版本) 现在这种方式不利于软件的项目长期管理,项目长期累月运行后, 随着人员变化以及版本升级,会带来很多版本兼容和识别的工程问题 期望flink在1.10.0的后续版本改进该问题,可能需要更改运行时的classloader 2、 维度数据通过RichXXXFunction的open重复加载,浪费存储空间的问题

回复: 双流Join 基于IngressTime计算后在按照Keyby sum聚集后每次计算结果不一致的问题

2020-04-15 Thread xue...@outlook.com
双流join对数据和环境的要求很严格,这样适用的业务场景就会有限。没有办法保证环境和数据一致是严格符合的 发送自 Windows 10 版邮件应用 发件人: tison 发送时间: 2020年4月15日 22:26 收件人: user-zh 主题: Re: 双流Join 基于IngressTime计算后在按照Keyby sum聚集后每次计算结果不一致的问题 FYI

flink maven打包

2020-03-18 Thread xue...@outlook.com
现在官网提供的maven打包方式,直接把第三方包解开后按照目录方式存放 而不是维持maven depend on的标准的jar包方式(带版本) 现在这种方式不利于软件的项目长期管理,项目长期累月运行后, 随着人员变化以及版本升级,会带来很多版本兼容和识别的工程问题 期望flink在1.10.0的后续版本改进该问题,可能需要更改运行时的classloader 发送自 Windows 10 版邮件应用