需求: 事实表实时Join Kudu中的维度表,用来补全维度。
为加快查询速度,先从Kudu中查询数据,查询到数据后放入Redis缓存,下次查询先从Redis中取,取不到再从Kudu中查。
遇到的问题:
1、不用Redis缓存,checkpoint很快,效率很高。
2、用Redis缓存,用Jedis,但不用连接池,效率很低。
3、用Redis缓存,用Redis连接池,效率更低。
请教下:
1、从Kudu中取数据,不用缓存可以吗。
2、在AsyncIO中,用lettuce异步客户端,和flink netty不兼容。
3、在AsyncIO中,用Jedis连接池,flink
这种Join场景,用上缓存后,理论上应该更快,但为啥会变慢呢。
王佩 于2019年8月6日周二 下午10:09写道:
> 需求: 事实表实时Join Kudu中的维度表,用来补全维度。
>
> 为加快查询速度,先从Kudu中查询数据,查询到数据后放入Redis缓存,下次查询先从Redis中取,取不到再从Kudu中查。
>
> 遇到的问题:
> 1、不用Redis缓存,checkpoint很快,效率很高。
> 2、用Redis缓存,用Jedis,但不用连接池,效率很低。
> 3、用Redis缓存,用Redis连接池,效率更低。
>
> 请教下:
>
你好,
可以用lettuce做异步客户端,排除lettuce的netty依赖,用flink的netty,就可以了集成lettuce了
王佩 于2019年8月6日 周二22:11写道:
> 这种Join场景,用上缓存后,理论上应该更快,但为啥会变慢呢。
>
> 王佩 于2019年8月6日周二 下午10:09写道:
>
> > 需求: 事实表实时Join Kudu中的维度表,用来补全维度。
> >
> > 为加快查询速度,先从Kudu中查询数据,查询到数据后放入Redis缓存,下次查询先从Redis中取,取不到再从Kudu中查。
> >
> > 遇到的问题:
> >
唐老师您好:
我这里指的是checkpoint时存储数据的file system,这里我用的是HDFS。
按照老师的说法,我可不可以这样理解(在Flink on yarn 以及 使用 RocksDBStateBackend 的场景下):
1.做增量checkpoint的时候,taskmanager默认异步的将数据写入rocksdb和hdfs中(数据是相同的)。
你好,
谢谢!已经找到原因了
发件人: Biao Liu
发送时间: 2019年8月6日 13:55
收件人: user-zh
主题: Re: jobmanager 日志异常
你好,
> org.apache.flink.runtime.entrypoint.ClusterEntrypoint - RECEIVED
> SIGNAL 15: SIGTERM. Shutting down as requested.
这是收到了 signal 15 了 [1],Wong 说得对,搜一下 yarn node manager 或者 yarn
1.
你对增量checkpoint的理解以及taskmanager和RocksDB之间的关系理解不太对。RocksDBKeyedStateBackend使用RocksDB存储state数据,可以理解成其是taskmanager的一部分,实际上是单机的概念。增量checkpoint的时候,RocksDB会在同步阶段将其所有数据刷写到磁盘上,Flink框架选择之前没有上传的sst文件,异步上传到HDFS。如果没有开启local
recovery,那么新启动的taskmanager会从hdfs上下载全量的数据文件进行恢复。
2.
向session cluster 提交job 出错,麻烦各位老师帮忙看下,给点排查提示 THX~
环境:
blink 1.8.0
用docker 方式启动的flink session cluster,flink 集群独立,我从集群外的一个docker
节点提交job(该节点的flink-conf.yaml 配置与flink 集群内的配置一致)
--
报错信息:
The program finished
问题是 Ask timed out on [Actor[akka://flink/user/dispatcher#-273192824]] after
[1 ms]. Sender[null] sent message of type "org.apache.flink.runtime.rpc.
messages.LocalFencedMessage".
也就是 submit job 的时候在请求 Dispatcher 的时候 akka ask timeout
了,可以检查一下配置的地址和端口是否正确,或者贴出你的相关配置。
Best,
tison.
王智
Hi all,
请问用Flink sql做双流join。如果希望两个流都只保存每个key的最新的数据,这样相当于每次join都只输出最新的一条记录。请问这种场景sql支持吗
thanks
各位大佬好,
请问是否可以像下面这样捕获job异常, 如果不行应当怎么处理,或者有没有更好的方式?
谢谢...
try {
env.execute("jobName");
} catch (Throwable e) {
*//log..报警*
}
10 matches
Mail list logo