Re: flink 设置broadcastStream 的MapStateDescriptor

2021-01-17 文章 赵一旦
key和value都是你自己设置的,看你需要设置什么类型哈。这个不是强制的。 你的map state的key和value在具体业务场景下需要什么类型,那个地方就设置什么类型的TypeInformation,懂吧。 smq <374060...@qq.com> 于2021年1月18日周一 下午12:18写道: > 发自我的iPhone > > > -- 原始邮件 -- > 发件人: 明启 孙 <374060...@qq.com > 发送时间: 2021年1月18日 11:30 > 收件人: user-zh 主题:

flink1.10.1 merge??????????scala??????????????????flink??bug??

2021-01-17 文章 bigdata
?? org.apache.flink.table.planner.codegen.CodeGenException: No matching merge method found for AggregateFunction com.autoai.cns.udaf.PercentileUDAF'mergescala??java?? flink1.10.1

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 赵一旦
我看你还写到 “每分钟触发统计一次结果”,你是不是做了自定义trigger啥的,导致逻辑不对了。 默认情况就可以实现你要的效果,不要自定义trigger哈这里。 赵一旦 于2021年1月18日周一 下午3:52写道: > 补充下,是针对每个key,每1min输出一个结果。采用1h窗口,1min滑动窗口。 > > > > 赵一旦 于2021年1月18日周一 下午3:51写道: > >> 你貌似没懂我的意思。我的意思是你的需求和sliding window的效果应该就是一样的。 >> 不是很清楚你表达的最早什么的是什么含义。 >> >> 基于event time做sliding

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 赵一旦
补充下,是针对每个key,每1min输出一个结果。采用1h窗口,1min滑动窗口。 赵一旦 于2021年1月18日周一 下午3:51写道: > 你貌似没懂我的意思。我的意思是你的需求和sliding window的效果应该就是一样的。 > 不是很清楚你表达的最早什么的是什么含义。 > > 基于event time做sliding window,只要你没设置其他东西,就应该是1min输出一个结果而已哈。 > > eriendeng 于2021年1月18日周一 上午11:42写道: > >>

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 赵一旦
你貌似没懂我的意思。我的意思是你的需求和sliding window的效果应该就是一样的。 不是很清楚你表达的最早什么的是什么含义。 基于event time做sliding window,只要你没设置其他东西,就应该是1min输出一个结果而已哈。 eriendeng 于2021年1月18日周一 上午11:42写道: > 只要sliding出来才满足你每分钟执行的滑动要求吧?至于你只要最早/新的某一条,你可以从window groupby得出的流再次group > by然后再用window时间筛选你要的数据。 > > > > -- > Sent from:

??????????: flink sql hop????????udaf????????????merge??????????????????????

2021-01-17 文章 bigdata
?? class PercentileUDAF extends AggregateFunction[String, ListBuffer[Float]]{ // val percentile1 = 0.5 val percentile2 = 0.75 val percentile3 = 0.98 val percentile4 = 0.99 override def getValue(accumulator: ListBuffer[Float]): String = { // val

Re: flink sql 消费kafka 消息 写入Hive不提交分区

2021-01-17 文章 花乞丐
多谢各位的耐心回答,我已经找到问题了,目前是水印使用有点问题,是我自己的问题,不好意思各位 修改之后,发现还是无法提交分区数据,经调试发现,watermark值目前是ok,但是其次是,由于Flink的toMills方法使用的UTC时间,导致我们从分区提取值时,比原始值大了8个小时,因此,导致水印一直小于 partition_time+commitDelay。接下来进行相应处理即可。

????: flink sql hop????????udaf????????????merge??????????????????????

2021-01-17 文章 Evan
?? ?? bigdata ?? 2021-01-18 14:52 user-zh ?? flink sql hopudafmerge?? ?? flink1.10.1

flink sql hop????????udaf????????????merge??????????????????????

2021-01-17 文章 bigdata
?? flink1.10.1 sql??hop??udaf??merge??merge?? org.apache.flink.table.planner.codegen.CodeGenException: No matching merge method found for AggregateFunction com.autoai.cns.udaf.PercentileUDAF' merge ??

Re: 回复: flink sql 消费kafka 消息 写入Hive不提交分区

2021-01-17 文章 Shengkai Fang
这种情况一般是kafka的某个分区,不存在数据,导致总体的watermark不前进。遇到这种情况一般是需要手动设置idle source[1]。但是社区的watemark push down存在一些问题[2],已经在修复了。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/config.html#table-exec-source-idle-timeout [2]

转发:flink 设置broadcastStream 的MapStateDescriptor

2021-01-17 文章 smq
发自我的iPhone -- 原始邮件 -- 发件人: 明启 孙 <374060...@qq.com 发送时间: 2021年1月18日 11:30 收件人: user-zh

flink sql hop????????udaf????????????merge??????????????????????

2021-01-17 文章 bigdata
?? flink1.10.1 sql??hop??udaf??merge??merge?? org.apache.flink.table.planner.codegen.CodeGenException: No matching merge method found for AggregateFunction com.autoai.cns.udaf.PercentileUDAF' merge ??

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 eriendeng
只要sliding出来才满足你每分钟执行的滑动要求吧?至于你只要最早/新的某一条,你可以从window groupby得出的流再次group by然后再用window时间筛选你要的数据。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink sql 消费kafka 消息 写入Hive不提交分区

2021-01-17 文章 花乞丐
代码已经附上,我现在是数据已经写入hdfs,有文件生产,但是目前添加的水印无效,所以一直没有更新metastore信息,导致metastore中一直没有分区信息,必须在hive shell中执行命令:hive (ods)> msck repair table order_info。之后才可以查询到数据,经过debug发现,在分区提交的时候,需要判断水印的值比从分区提取的值+延迟时间大,才会提交分区,但是现在,水印的值一直是Long.MIN_VALUE,导致一直无法提交水印,我在代码中已经设置了水印,是不是我的水印设置姿势不对,还请指教! package

flink 设置broadcastStream 的MapStateDescriptor

2021-01-17 文章 明启 孙
大家好: MapStateDescriptor (String name, TypeInformation keyTypeInfo, TypeInformation valueTypeInfo)中的第二个参数key值得是什么,其中value指的是状态值,在网上看到key大部分用的是String类型,不知道这个key是根据什么指定的。 smq

Re: 回复: flink sql 消费kafka 消息 写入Hive不提交分区

2021-01-17 文章 花乞丐
package com.zallsteel.flink.app.log; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import com.google.gson.Gson; import com.google.gson.JsonArray; import com.google.gson.JsonElement; import com.google.gson.JsonParser; import com.zallsteel.flink.entity.ChangelogVO;

flink native k8s 有计划支持hostAlias配置码?

2021-01-17 文章 高函
请问社区有计划支持native k8s模式下配置hostAlais码? 如果自己扩展的话,需要在模块中添加对应的hostAlais的配置项,并打包自定义的docker 镜像码? 谢谢~

Re: 回复:flink怎么读kafka offset

2021-01-17 文章 hoose
我理解的是这样,虽然不是从savepoint里恢复,但kafka consumer_topic有了我们之前保存的groupid,那么默认的是flink是这样设置: setStartFromGroupOffsets():默认值,从当前消费组记录的偏移量开始,接着上次的偏移量消费 这样可以理解还是从上次提交的offset开始继续消费对吧? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 marble.zh...@coinflex.com.INVALID
是的, 现在的问题是sliding会产生多个结果,而我只要输出最早的那个窗口的结果数据。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink CEP 动态加载 pattern

2021-01-17 文章 mokaful
Hi,对于动态更新cep pattern这个问题,不知道楼主现在有啥突破可以借鉴一下呢? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink监控

2021-01-17 文章 penguin.
那请问对于每个节点的CPU、内存使用率以及节点之间的通信量如何进行实时监控获取数据呢? 在 2021-01-18 10:15:22,"赵一旦" 写道: >slot好像只是逻辑概念,监控意义不大,没有资源隔离。 > >penguin. 于2021年1月15日周五 下午5:06写道: > >> Hi, >> flink集群中,能对TaskManager的每个TaskSlot进行监控吗?比如每个slot的cpu和内存使用率之类的指标。 >> >> >> penguin

回复: yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 刘海
还有一个问题,我已经有一个job在运行了,当我再次提交一个job运行的时候输出下面这些信息,去yarn查看发现job并未启动起来,有遇到过这个现象吗? [root@cdh1 flink-1.12.0]# ./bin/flink run -d -t yarn-per-job -D jobmanager.memory.process.size=1.5GB -D taskmanager.memory.process.size=3GB -D heartbeat.timeout=180

回复: yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 刘海
是我本地服务器的路径,需要在三个节点上都上传这个jar包吗? 放在 /opt/flink-1.12.0/examples目录下了 | | 刘海 | | liuha...@163.com | 签名由网易邮箱大师定制 在2021年1月18日 10:38,Yangze Guo 写道: 请问这个路径是你本地的路径么?需要client端能根据这个路径找到jar包 Best, Yangze Guo On Mon, Jan 18, 2021 at 10:34 AM 刘海 wrote: 你好 根据你的建议我试了一下 将提交命令改为: ./bin/flink run -d -t

Re: yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 Yangze Guo
请问这个路径是你本地的路径么?需要client端能根据这个路径找到jar包 Best, Yangze Guo On Mon, Jan 18, 2021 at 10:34 AM 刘海 wrote: > > 你好 > 根据你的建议我试了一下 > 将提交命令改为: ./bin/flink run -d -t yarn-per-job -tm 1536 -jm 3072 -D > jobmanager.memory.process.size=1.5GB -D taskmanager.memory.process.size=3GB > -D

????

2021-01-17 文章 Tent
Thanks, BR, Tent

回复: yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 刘海
你好 根据你的建议我试了一下 将提交命令改为: ./bin/flink run -d -t yarn-per-job -tm 1536 -jm 3072 -D jobmanager.memory.process.size=1.5GB -D taskmanager.memory.process.size=3GB -D heartbeat.timeout=180 /opt/flink-1.12.0/examples/myProject/bi-wxfx-fqd-1.0.1.jar jar包我使用了一个绝对路径:

flink sql hop????????udaf????

2021-01-17 文章 bigdata
?? flink1.10.1 sql??hop??udaf??merge??merge?? org.apache.flink.table.planner.codegen.CodeGenException: No matching merge method found for AggregateFunction com.autoai.cns.udaf.PercentileUDAF' def merge(accumulator:

PROCTIME()函数语义问题

2021-01-17 文章 smailxie
如果PROMCTIME()函数的语义指的是机器处理record的本地时间,那为什么flink要取UTC时区的时间? -- Name:谢波 Mobile:13764228893

Re: flink滑动窗口输出结果的问题

2021-01-17 文章 赵一旦
从你的描述来看,你说的貌似就是sliding window呀。 9-10,9.01-10.01... marble.zh...@coinflex.com.INVALID 于2021年1月15日周五 下午5:45写道: > 大家好, 我现在的场景需求是,窗口size是1个小时,每分钟触发统计一次结果。比如现在是10点钟,则统计9点到10点的结果。 > 下一分钟则在10:01分时触发统计9:01到10:01的结果。 > > 如果用Sliding window, 比如.timeWindow(Time.hours(1L), Time.minutes(1)), >

Re: flink监控

2021-01-17 文章 赵一旦
slot好像只是逻辑概念,监控意义不大,没有资源隔离。 penguin. 于2021年1月15日周五 下午5:06写道: > Hi, > flink集群中,能对TaskManager的每个TaskSlot进行监控吗?比如每个slot的cpu和内存使用率之类的指标。 > > > penguin

Re: yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 Yangze Guo
Hi, 请使用 -D -tm -jm 不需要加y前缀 Best, Yangze Guo Best, Yangze Guo On Mon, Jan 18, 2021 at 9:19 AM 刘海 wrote: > > > 刘海 > liuha...@163.com > 签名由 网易邮箱大师 定制 > 在2021年1月18日 09:15,刘海 写道: > > Hi Dear All, >请教各位一个问题,下面是我的集群配置: > 1、我现在使用的是flink1.12版本; > 2、基于CDH6.3.2搭建的hadoop三个节点的集群,使用CDH自带的yarn集群; >

Re: flink1.12.0 HA on k8s native运行一段时间后jobmanager-leader产生大量ConfigMap问题

2021-01-17 文章 macdoor
您好,我刚刚开始使用 flink 1.12.1 HA on k8s,发现jobmanager大约半小时左右会restart,都是这种错误,您遇到过吗?谢谢! 2021-01-17 04:52:12,399 INFO org.apache.flink.runtime.jobmaster.slotpool.SlotPoolImpl [] - Suspending SlotPool. 2021-01-17 04:52:12,399 INFO org.apache.flink.runtime.jobmaster.JobMaster [] -

K8s HA Session模式下1.12.1 jobmanager 周期性 restart

2021-01-17 文章 macdoor
大约几十分钟就会restart,请教大佬们有查的思路,每次抛出的错误都是一样的,运行一段时间也会积累很多ConfigMap,下面是一个具体的错误 错误内容 2021-01-17 04:16:46,116 ERROR org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] - Fatal error occurred in ResourceManager. org.apache.flink.runtime.leaderretrieval.LeaderRetrievalException: Error

回复:yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 刘海
| | 刘海 | | liuha...@163.com | 签名由网易邮箱大师定制 在2021年1月18日 09:15,刘海 写道: Hi Dear All, 请教各位一个问题,下面是我的集群配置: 1、我现在使用的是flink1.12版本; 2、基于CDH6.3.2搭建的hadoop三个节点的集群,使用CDH自带的yarn集群; 3、flink运行模式:Per-Job Cluster on yarn(三个节点,没每个节点48核64G内存); 4、以下是我三个节点的 flink-conf.yaml

yarn Per-Job Cluster Mode提交任务时 通过cli指定的内存参数无效

2021-01-17 文章 刘海
Hi Dear All, 请教各位一个问题,下面是我的集群配置: 1、我现在使用的是flink1.12版本; 2、基于CDH6.3.2搭建的hadoop三个节点的集群,使用CDH自带的yarn集群; 3、flink运行模式:Per-Job Cluster on yarn(三个节点,没每个节点48核64G内存); 4、以下是我三个节点的 flink-conf.yaml 的配置,三个flink节点除了jobmanager.rpc.address不同外其它配置都一样:

????: flink sql hop????udaf????

2021-01-17 文章 Evan
merge??marge Evan Cheng 2021??1??18??09:00:07 bigdata ?? 2021-01-17 22:31 user-zh ?? flink sql hopudaf ?? flink1.10.1sql

flink sql hop????udaf????

2021-01-17 文章 bigdata
?? flink1.10.1sql hop??udafmarge?? org.apache.flink.table.api.ValidationException: Function class 'com.autoai.cns.udaf.PercentileUDAF' does not implement at least one method named 'merge' which is public, not abstract and (in case of table

flink sql hop????udaf????

2021-01-17 文章 bigdata
?? flink1.10.1sql hop??udafmarge?? org.apache.flink.table.api.ValidationException: Function class 'com.autoai.cns.udaf.PercentileUDAF' does not implement at least one method named 'merge' which is public, not abstract and (in case of table

[Announce] Zeppelin 0.9.0 is released (Flink on Zeppelin)

2021-01-17 文章 Jeff Zhang
Hi flink folks, I'd like to tell you that Zeppelin 0.9.0 is officially released, in this new version we made a big refactoring and improvement on flink support. It supports 3 major versions of flink (1.10, 1.11, 1.12) You can download zeppelin 0.9.0 here. http://zeppelin.apache.org/download.html

flink集群监控

2021-01-17 文章 penguin.
Hello, 请问在flink集群中, 怎么对TaskManager的每个TaskSlot进行监控呢?比如每个slot的cpu和内存使用率以及slot通信量之类的指标。 有什么办法来获取节点间的通信量呢? 多谢! penguin

Re:Re: Re: 请教个Flink checkpoint的问题

2021-01-17 文章 邮件帮助中心
1:先前测试过使用stopWithSavepoint时会将之前成功保存的checkpoint数据给删除掉,后来我们查看了下源码,里面描述如下,就是调用该方法时Flink会将程序设置成Finished态的,可能和实际使用场景有出入。 /** * Stops a program on Flink cluster whose job-manager is configured in this client's configuration. * Stopping works only for streaming programs. Be aware, that the program

??????flink??????kafka offset

2021-01-17 文章 ??????
savepoint??flink-kafka-connector?? Kafka https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/connectors/kafka.html | | ?? | | 18500348...@163.com | ?? ??2021??1??16?? 19:38?? ??

Re: Re: 请教个Flink checkpoint的问题

2021-01-17 文章 Congxian Qiu
Hi 你可以看一下是不是 作业的状态变成了 FINISH 了,现在 Flink 在 FINISH 的时候,会删除 checkpoint(就算设置了 retain on cancel 也会删除) PS :FLINK-18263 正在讨论是否在 Job 变为 FINISH 状态后保留 checkpoint [1] https://issues.apache.org/jira/browse/FLINK-18263 Best, Congxian yinghua...@163.com 于2021年1月15日周五 上午11:23写道: >