而且大家推荐怎么设置呢,我可能默认就G1了。不清楚G1是否也需要精调。
我目前设置的内存还是比较大的。(50G的,100G的TaskManager都有),这么大heap,是否需要特别设置啥呢?
或者是否有必要拆小,比如设置10Gheap,然后把taskmanager数量提上去。
yidan zhao 于2021年3月9日周二 下午2:56写道:
> 好的,我会看下。
> 然后我今天发现我好多个集群GC collector不一样。
> 目前发现3种,默认的是G1。flink conf中配置了env.java.opts:
> "-XX:-OmitStackTraceInFastThrow
好的,我会看下。
然后我今天发现我好多个集群GC collector不一样。
目前发现3种,默认的是G1。flink conf中配置了env.java.opts:
"-XX:-OmitStackTraceInFastThrow"的情况出现了2种,一种是Parallel GC with 83
threads,还有一种是Mark Sweep Compact GC。
大佬们,Flink是根据内存大小有什么动态调整吗。
不使用G1我大概理解了,可能设置了java.opts这个是覆盖,不是追加。本身我只是希望设置下-XX:-OmitStackTraceInFastThrow而已。
杨杰 <471
请问您这个问题解决了吗,我的也有这个错误信息
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我用oss设置,状态信息能写入,但是oss日志总是提示如下的信息,有遇到过吗?
2021-03-08 20:18:58.512 [INFO][cluster-io-thread-2]:
o.a.f.f.o.s.c.a.o.c.u.LogUtils 66 logException - [Server]Unable to execute
HTTP request: Not Found
[ErrorCode]: NoSuchKey
[RequestId]: 604616328586350B9C61
[HostId]: null
--
Sent from: http://apac
我也遇到了同样的问题,请问最后是怎么解决的?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我跟你使用的方法一样,也是加工数据源创建临时view然后传递到sink,其中用到了rowtime,遇到和你同样的错,请问是怎么解决的最后
--
Sent from: http://apache-flink.147419.n8.nabble.com/
对,离线和实时的计算语义本来就是不一样的,所以这个地方也没有特别完美的解决方案,一般都是 case by case 看一下。
有一些显而易见的问题比如 Join 是否关联成功这种还是比较容易查,其他的确实不太好判断。
--
Sent from: http://apache-flink.147419.n8.nabble.com/
请教一下各位大佬,flink哪个版本与hive3.x以上的版本兼容性更好呢,目前在flink版本上做选择,后续暂不会升级,希望大佬们给点建议。
谢谢大佬答疑。
我先尝试使用 YarnClusterDescriptor 这些类提交Job。看看后续使用情况 是否合适
-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/
>意思是可以通过相关API,去读一个jar包并提交Job吗?要提交到的集群也是通过配置参数传入代码里,是大
概这样的一个过程吗?有相关的文档或者demo吗?我在网上一直找不到相关内容。
是的,目前公开的 API 是命令行,内部是 ClusterDescriptor、CliFrontend
等一系列类在驱动。定制的时候通常直接根据内部类来编程,但是它们不是公开接口,可能随时会改变。目前没有更好的办法。
>如果和自己系统集成的话,是把这些页面以超链接的形式集成到系统里面吗,在系统dashboard中点某个按钮,跳转到flink webui的某一个模块里?
这个集成有很多种办法了,包括你页面
谢谢提供思路,刚通过接口编程这个思路找到了一些文章和demo。
-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/
好的,谢谢!
---原始邮件---
发件人: "Rui Li"https://issues.apache.org/jira/browse/FLINK-20913
有关了,这个issue是1.12.2修复的,可以升级一下试试。
On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com> wrote:
> 您好!
> hive.metastore.sasl.enabled 是true
>
>
> 启动sql client的时候,可以正常读取到认证信息,并读取metastore的表名。
>
>
> 读和写,认证就失败了。
>
>
>
运行 1.12.2 standalone 集群,不定期会出现类似这种错误,请问这有可能是什么原因导致的?谢谢!
Caused by: java.io.IOException: Failed to fetch BLOB
fb90d0fce9ff3ad8353ea97e46f9c913/p-bc0d39187ed200f9df64f90463534862858961a2-2ff77a5adb95af29376c6699173c3969
from hb3-dev-gem-svc1-000/10.30.69.13:43003 and store it under
/home/gum/flink_t
我之前测试过slide window,可以使用。就是无法在session window中使用,group windowed table不支持。
--
Sent from: http://apache-flink.147419.n8.nabble.com/
谢谢回复!
这两天有事回复晚了抱歉。
我flink job是运行在hadoop集群的,即On Yarn模式。
根据您所说的
1.[通过 FLINK 和 YARN 或 k8s
的接口进行编程,管理元数据,管理用户文件,支持提交作业及之后管理作业状态],意思是可以通过相关API,去读一个jar包并提交Job吗?要提交到的集群也是通过配置参数传入代码里,是大概这样的一个过程吗?有相关的文档或者demo吗?我在网上一直找不到相关内容。
2. [Flink 本身有一个 Web
前端,可以支持你要的大部分功能],这个我清楚,也经常打开这个webUI查看日志,那如果和自己系统集成的话,是把这
Hi,
1.12 还不支持session window的udaf,在1.13上将提供这部分的支持,具体可以关注JIRA[1]。
然后,1.12是支持ProcessFunction和KeyedProcessFunction的,具体可以参考代码[2]
[1] https://issues.apache.org/jira/browse/FLINK-21630
[2]
https://github.com/apache/flink/blob/release-1.12/flink-python/pyflink/datastream/functions.py
Best,
Xingbo
Hongyu
我也想知道,我看文档,目前pyflink似乎还不支持processfunction
在2021年03月08日 19:03,kk 写道:
hi,all:
一账号一段时间内连续操作为一个pv,间隔时间超过阈值后会记为新的pv。系统需要获取流式日志,使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢!!!
session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_
hi,all:
一账号一段时间内连续操作为一个pv,间隔时间超过阈值后会记为新的pv。系统需要获取流式日志,使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢!!!
session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_path('source') \
.window(session_window) \
.group_by("w,pv_id"
那应该就是跟https://issues.apache.org/jira/browse/FLINK-20913
有关了,这个issue是1.12.2修复的,可以升级一下试试。
On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com> wrote:
> 您好!
> hive.metastore.sasl.enabled 是true
>
>
> 启动sql client的时候,可以正常读取到认证信息,并读取metastore的表名。
>
>
> 读和写,认证就失败了。
>
>
>
> ---原始邮件---
> 发件人: "Rui Li"
恩,这里有个问题就是,假设我们以离线结果为基准去对比,但离线结果一般天级或小时级,但实时部分可能是秒级的,两个结果在连线环境做比较,也不好去看这个结果有差异的时候,到底实时计算部分有没有问题!
有很多种原因可能会导致这个结果不准确。。。比如flink sql的bug或都流式消息丢失了等等!
--
Sent from: http://apache-flink.147419.n8.nabble.com/
你好,
可以看下具体那个 TaskManager 的日志,我之前遇到的这种情况一般都是内存用超被容器(比如Yarn)Kill 掉或者是 TaskManager
里面抛异常了。如果是 received signal 15 一般就是被容器 kill 掉了,可以看下容器的日志,其他情况可以看下具体的异常。
Smile
--
Sent from: http://apache-flink.147419.n8.nabble.com/
1:当DataStream是由 一个table 经过 group by rowtime 转换过来的就无法触发窗口
例如:
tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select msg,rowtime
from test group by msg,rowtime"));
// 获得 DataStream,并定义wtm生成
SingleOutputStreamOperator r =
tableEnv.toRetractStream(tableEnv.from("test3"), Row.class)
.filter
你好,
实时和离线对数的问题确实也比较难,没有很完美的解决方案。
一般可以考虑把实时产出结果也落离线表,然后对两张离线表做对比,离线 Join 上然后跑具体对比逻辑即可。
Smile
jindy_liu wrote
> 有没有大佬有思路可以参考下?
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
--
Sent from: http://apache-flink.147419.n8.nabble.com/
23 matches
Mail list logo