Re: Re: 求助帖:flink 连接kafka source 部署集群报错

2020-01-14 文章 JingsongLee
Hi, 我怀疑的你这样打包会导致meta-inf.services的文件相互覆盖。 你试试把flink-json和flink-kafka的jar直接放入flink/lib下 Best, Jingsong Lee -- From:Others <41486...@qq.com> Send Time:2020年1月15日(星期三) 15:27 To:user-zh@flink.apache.org JingsongLee Subject:回复: Re:

Re: 求助帖:flink 连接kafka source 部署集群报错

2020-01-14 文章 JingsongLee
Hi, 你是不是没有把Json的jar包放入lib下?看起来你的User jar也没用jar-with-dependencies,所以也不会包含json的jar。 Best, Jingsong Lee -- From:Others <41486...@qq.com> Send Time:2020年1月15日(星期三) 15:03 To:user-zh Subject:求助帖:flink 连接kafka source 部署集群报错 我使用的flink

??????:flink ????kafka source ????????????

2020-01-14 文章 Others
flink ??1.9.1 ?? 2020-01-15 11:57:44,255 ERROR org.apache.flink.runtime.webmonitor.handlers.JarRunHandler- Unhandled exception. org.apache.flink.client.program.ProgramInvocationException: The main method caused an error:

Re: Re: flink on yarn jdk版本问题

2020-01-14 文章 tison
玄学问题,升级 JDK 小版本可接,或与类型擦除有关 你可以share一下 JM 侧的日志,应该有作业执行异常 Best, tison. 郑 洁锋 于2020年1月15日周三 下午2:17写道: > Hi, > > 非常感谢,可以了,我在flink-conf.yaml中添加了如下配置项即可正常运行 yarn-session.sh了,且Flink > Dashboard也能正常查看了 > > containerized.master.env.JAVA_HOME: /usr/java/jdk1.8.0_25/ > >

Re: Re: flink on yarn jdk版本问题

2020-01-14 文章 郑 洁锋
Hi, 非常感谢,可以了,我在flink-conf.yaml中添加了如下配置项即可正常运行 yarn-session.sh了,且Flink Dashboard也能正常查看了 containerized.master.env.JAVA_HOME: /usr/java/jdk1.8.0_25/ containerized.taskmanager.env.JAVA_HOME: /usr/java/jdk1.8.0_25/

Re: flink on yarn jdk版本问题

2020-01-14 文章 Benchao Li
Hi , Flink也支持传递环境变量的,也可以尝试一下: https://ci.apache.org/projects/flink/flink-docs-master/ops/config.html#configuration-runtime-environment-variables 郑 洁锋 于2020年1月15日周三 上午11:34写道: > Hi, > > 我们使用了TDH中的yarn(hadoop2.7,jdk1.7),原先使用spark的时候,也遇到过jdk版本最低1.8的情况,我们是通过如下方式解决的(考虑到现场公用TDH集群不能更改): >

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 JingsongLee
Hi ren, Blink的deduplication功能应该是能match你的需求。[1] [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/queries.html#deduplication Best, Jingsong Lee -- From:Caizhi Weng Send Time:2020年1月15日(星期三) 11:53

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Caizhi Weng
Hi, Flink 目前认为所有的 source 都是 append only 的,retract、upsert 等都是内部处理时的概念,对用户是不可见的。 所以目前你只能先通过 group by 和 last_value 等方式实现功能。不过 1.11 有计划支持这样的需求。 Ren Xie 于2020年1月14日周二 下午9:30写道: > 谢谢 > > 考虑过group by , 实际中 一个好多字段的表, 保不准就是那个字段发生了变化. > > 请问 类似的双流操作在开发中常见吗, 怎么都搜不到相似的使用, 按理谁流依赖另一个流做处理 应该算常见吧 > >

flink on yarn jdk版本问题

2020-01-14 文章 郑 洁锋
Hi, 我们使用了TDH中的yarn(hadoop2.7,jdk1.7),原先使用spark的时候,也遇到过jdk版本最低1.8的情况,我们是通过如下方式解决的(考虑到现场公用TDH集群不能更改): spark-submit中可以通过添加参数 --conf "spark.yarn.appMasterEnv.JAVA_HOME=/usr/java/jdk1.8.0_25/" --conf "spark.executorEnv.JAVA_HOME=/usr/java/jdk1.8.0_25/"来指定当前spark任务特定在yarn中执行时的jdk目录

Re: 咨询一下 RocksDB 状态后端的调优经验

2020-01-14 文章 LakeShen
是否能够是用增量的 Checkpoint方式 DONG, Weike 于2020年1月14日周二 下午9:10写道: > Hi, > > 感谢两位前辈的经验分享,我会细细拜读这里的优化方式,也衷心期待 Flink 1.10 可以早日顺利发布。 > > 再次感谢你们的贡献 :) > > Sincerely, > Weike > > On Tue, Jan 14, 2020 at 8:54 PM Yu Li wrote: > > > Hi, > > > > 如唐云所述,FLINK-7289 [1] > >

Re: 关于使用Flink RocksDBStateBackend问题

2020-01-14 文章 Yun Tang
Hi 使用自定义options factory的话,我们会认为是高级用户,自然也就完全交由用户进行配置,至于write buffer size如何配置,可以参考PredefinedOptions [1] 的使用方法。 [1]

关于使用Flink RocksDBStateBackend问题

2020-01-14 文章 chanamper
Hi 在使用RocksDBStateBackend过程中,有些问题想请教一下 采用自定义的optionsFactory后,flink-conf.yaml配置文件中的RocksDB Configurable Options相关参数配置不生效,请问一下要如何使其中的state.backend.rocksdb.writebuffer.size等参数生效? OptionsFactory optionsFactory = new OptionsFactory() { @Override public DBOptions createDBOptions(DBOptions

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Ren Xie
谢谢 考虑过group by , 实际中 一个好多字段的表, 保不准就是那个字段发生了变化. 请问 类似的双流操作在开发中常见吗, 怎么都搜不到相似的使用, 按理谁流依赖另一个流做处理 应该算常见吧 还是说我这样的需求呀 实现呀 是野路子? Yuan,Youjun 于2020年1月14日周二 下午8:22写道: > 取决于具体的场景。想到的有如下几种方案: > 1,group by student_id和student_name,而不是只group by > student_id。当然前提是修改同名名字不会推送一条消息到流1. > 2,过滤掉update的消息 >

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Ren Xie
谢谢解答! 稍微用代码写了一下, 如下: public class JoinMain1 { private static final String host = "127.0.0.1"; private static final intport = 9000; private static final intport1 = 9001; public static void main(String[] args) throws Exception { StreamExecutionEnvironment env =

Re: 咨询一下 RocksDB 状态后端的调优经验

2020-01-14 文章 DONG, Weike
Hi, 感谢两位前辈的经验分享,我会细细拜读这里的优化方式,也衷心期待 Flink 1.10 可以早日顺利发布。 再次感谢你们的贡献 :) Sincerely, Weike On Tue, Jan 14, 2020 at 8:54 PM Yu Li wrote: > Hi, > > 如唐云所述,FLINK-7289 [1] > 所有的开发工作已经完成,目前剩余的工作是补充end-to-end测试以及完善文档,因此release-1.10分支的代码功能已经完全可用了 > > >

Re: 咨询一下 RocksDB 状态后端的调优经验

2020-01-14 文章 Yu Li
Hi, 如唐云所述,FLINK-7289 [1] 所有的开发工作已经完成,目前剩余的工作是补充end-to-end测试以及完善文档,因此release-1.10分支的代码功能已经完全可用了 我们建议使用FLINK-7289实现的方式来控制rocksdb内存,这将极大的简化用户所需的配置,只需要设置"state.backend.rocksdb.memory.managed"为true并调整managed memory大小,或者通过"state.backend.rocksdb.memory.fixed-per-slot" 配置对应单个slot RocksDB可使用的最大内存即可

回复: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Yuan,Youjun
取决于具体的场景。想到的有如下几种方案: 1,group by student_id和student_name,而不是只group by student_id。当然前提是修改同名名字不会推送一条消息到流1. 2,过滤掉update的消息 3,基于时间窗口的聚合,对于student表的数据,每n秒输出一个唯一的student_id,然后再与score流join。 -邮件原件- 发件人: xin Destiny 发送时间: Tuesday, January 14, 2020 6:39 PM 收件人: user-zh@flink.apache.org 主题: Re:

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 xin Destiny
Hi, 如果说插入两条update操作呢,一次分数是-97,一次是97 Ren Xie 于2020年1月14日周二 下午6:20写道: > 实际场景还是有点复杂的, 便于理解 我简化成这样的, 简化后的这个, 没有实际的代码, 抱歉 > > 大致 写一下 也就是这样了 > ```sql > select sum(score) > from > student t1 inner join score t2 on t1.student_id = t2.std_id > where > t1.student_id = 11 > ``` > 然后 > >

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Ren Xie
实际场景还是有点复杂的, 便于理解 我简化成这样的, 简化后的这个, 没有实际的代码, 抱歉 大致 写一下 也就是这样了 ```sql select sum(score) from student t1 inner join score t2 on t1.student_id = t2.std_id where t1.student_id = 11 ``` 然后 ```Java String sql = ↑; Table t = tEnv.sqlQuery(sql); DataStream stream1 = tEnv.toAppendStream(t,

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Caizhi Weng
Hi, 有可能的话,是否方便提供一下代码呢? Ren Xie 于2020年1月14日周二 下午5:38写道: > 学生 > student_id name > 11 foo > > 学科分数 > id name score std_id > 100 math 97 11 > 101 english 98 11 > > 有如下一个场景(假设只有一个学生) > > 基于binlog检测这2个表的变化, 计算这个学生的总分数, 使用了Table/SQL API join操作计算 > > 假设insert以上数据后到达某时刻, 以上数据都进入了flink, 计算出这个学生总分数 97 +

Re: 1.90版本的Flinksql相关使用问题

2020-01-14 文章 Caizhi Weng
Hi, 邮件里的图片挂了,请上传到外部图库并把链接贴在邮件里。 format 等的填写可以参考: https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/connect.html 往事Ψ随风 <1322015...@qq.com> 于2020年1月14日周二 下午4:10写道: > > > > -- 原始邮件 -- > *发件人:* "往事Ψ随风"<1322015...@qq.com>; > *发送时间:* 2020年1月14日(星期二)

求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 Ren Xie
学生 student_id name 11 foo 学科分数 id name score std_id 100 math 97 11 101 english 98 11 有如下一个场景(假设只有一个学生) 基于binlog检测这2个表的变化, 计算这个学生的总分数, 使用了Table/SQL API join操作计算 假设insert以上数据后到达某时刻, 以上数据都进入了flink, 计算出这个学生总分数 97 + 98 = 195 但此时发现学生姓名登记错误, 于是进行了修改, 结果此时Flink中学生流中有2个事件(insert的一个+update的一个),

??????1.90??????Flinksql????????????

2020-01-14 文章 ??????????
---- ??:"??"<1322015...@qq.com; :2020??1??14??(??) 3:56 ??:"user-zh-subscribe"