Re: Flink yarn session exception
你可以看看lib里面的包跟官网的要求是不是一样的 发自我的iPhone -- Original -- From: Rainie Li https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html < https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/hadoop.html Best, Paul Lam 2020年7月16日 15:46,Rainie Li
回复:【Flink的shuffle mode】
那就是说datasream默认模式就是pipeline,而批模式是batch,批的模式是存在shuffle情况下,需要等shuffle操作造成,才能发送到下游.那如果批应用有shuffle操作和没有shuffle的,是都要等这个shuffle操作完成了才能一起发给下游,还是说其他非shuffle操作完成了可以先发给下游,不用等shuffle操作完成一起再发送? 发自我的iPhone -- 原始邮件 -- 发件人: Jingsong Li
回复: 回复: 回复: Flink双流Join问题
Hi, 感觉有点不对,我试着用stream1输入: 1 tom1 1553503185000 1 tom2 1553503186000 1 tom3 1553503187000 1 tom4 1553503188000 1 tom_late 1553503185000 stream2输入: 1 jerry2 1553503186000 1 jerry3 1553503187000 1 jerry4 1553503188000 但是结果打印的是: currentTimeStamp: 1553503185000,Key:1,EventTime:1553503185000,前一条数据的水位线:0 4 (1,tom1,1553503185000) currentTimeStamp: 1553503186000,Key:1,EventTime:1553503186000,前一条数据的水位线:1553503185000 4 (1,tom2,1553503186000) currentTimeStamp: 1553503187000,Key:1,EventTime:1553503187000,前一条数据的水位线:1553503186000 4 (1,tom3,1553503187000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503188000,前一条数据的水位线:1553503187000 4 (1,tom4,1553503188000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503185000,前一条数据的水位线:1553503188000 4 (1,tom_late,1553503185000) currentTimeStamp: 1553503186000,Key:1,EventTime:1553503186000,前一条数据的水位线:0 3 (1,jerry2,1553503186000) currentTimeStamp: 1553503187000,Key:1,EventTime:1553503187000,前一条数据的水位线:1553503186000 3 (1,jerry3,1553503187000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503188000,前一条数据的水位线:1553503187000 3 (1,jerry4,1553503188000) 2 tom1=jerry2 2 tom1=jerry3 2 tom2=jerry2 2 tom2=jerry3 2 tom3=jerry2 2 tom3=jerry3 2 tom_late=jerry2 2 tom_late=jerry3 我第二个流的窗口是[1553503186000,1553503188000),怎么判断出stream1中那条迟到的是没过期的? 谢谢. --原始邮件-- 发件人:"libenchao"https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html gt; gt; 相关代码 gt; public static long getWindowStartWithOffset(long timestamp, long offset, gt; long windowSize) { gt; amp;nbsp;nbsp; return timestamp - (timestamp - offset + windowSize) % windowSize; gt; } gt; gt; 在 2020/4/4 下午6:30,“忝忝向仧”<153488...@qq.comamp;gt; 写入: gt; gt; amp;nbsp;amp;nbsp;amp;nbsp; 额,你的意思是滚动3秒的窗口开始和结束应该是 gt; amp;nbsp;amp;nbsp;amp;nbsp; 100055000 % 3 得出结果再拿到[start,end). gt; amp;nbsp;amp;nbsp;amp;nbsp; 比如100055000 % 3 gt; 的结果是100053000,那么窗口是[100053000,100056000) gt; amp;nbsp;amp;nbsp;amp;nbsp; 是这么理解吧 gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; --amp;amp;nbsp;原始邮件amp;amp;nbsp;-- gt; amp;nbsp;amp;nbsp;amp;nbsp; 发件人:amp;amp;nbsp;"lee.roval"< lee.ro...@gmail.comamp;amp;gt;; gt; amp;nbsp;amp;nbsp;amp;nbsp; 发送时间:amp;amp;nbsp;2020年4月4日(星期六) 晚上6:25 gt; amp;nbsp;amp;nbsp;amp;nbsp; 收件人:amp;amp;nbsp;" user-zh@flink.apache.org"< gt; user-zh@flink.apache.orgamp;amp;gt;; gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; 主题:amp;amp;nbsp;Re: 回复: Flink双流Join问题 gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; 55000的窗口分配,是对windowSize 求模然后拿到start 和 end。 不是从你首条记录开始算。 gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; 在 2020/4/4 下午6:23,“忝忝向仧”< 153488...@qq.comamp;amp;gt; 写入: gt; amp;nbsp;amp;nbsp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; 对,我只是回复把前面那串省略了,没写. gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; gt; [100053000,100056000),为什么是100053000开始? gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; 我第一条输入的是 gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; 1,tom1,100055000 gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; gt; --amp;amp;amp;nbsp;原始邮件amp;amp;amp;nbsp;-- gt; amp;nbsp;amp;nbsp;amp;nbsp; amp;amp;nbsp;amp;amp;nbsp;amp;amp;nbsp; gt; 发件人:amp;amp;amp;nbsp;"libenchao"
回复: 回复: 回复: Flink双流Join问题
额,明白了,意思是说两个流情况下 比如,stream1里面晚来的那条 1 tom_late 1553503185000的水印是1553503188000 但是stream2里面,这条1,jerry1,1553503185000的水印是1553503185000 所以取最小的,因此还是会被打印? 是这么理解么? --原始邮件-- 发件人:"libenchao"https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 相关代码 public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) { nbsp; return timestamp - (timestamp - offset + windowSize) % windowSize; } 在 2020/4/4 下午6:30,“忝忝向仧”<153488...@qq.comgt; 写入: nbsp;nbsp;nbsp; 额,你的意思是滚动3秒的窗口开始和结束应该是 nbsp;nbsp;nbsp; 100055000 % 3 得出结果再拿到[start,end). nbsp;nbsp;nbsp; 比如100055000 % 3 的结果是100053000,那么窗口是[100053000,100056000) nbsp;nbsp;nbsp; 是这么理解吧 nbsp;nbsp;nbsp; nbsp;nbsp;nbsp; nbsp;nbsp;nbsp; --amp;nbsp;原始邮件amp;nbsp;-- nbsp;nbsp;nbsp; 发件人:amp;nbsp;"lee.roval"
回复: 回复: 回复: Flink双流Join问题
Hi: 还有个疑问,我特意构造了个乱序的消息,还是3秒一个窗口 stream1: 1 tom1 1553503185000 1 tom2 1553503186000 1 tom3 1553503187000 1 tom4 1553503188000 1 tom_late 1553503185000 stream2: 1 jerry1 1553503185000 1 jerry2 1553503186000 1 jerry3 1553503187000 1 jerry4 1553503188000 我代码还是之前的代码,定义水印都是maxDelayAllowed = 0L;也就是没有设置最大延时时间. 那么,tom_late这条乱序,在第一个窗口[1553503185000,1553503188000)内不应该被输出吧? 但是结果还是输出了,这个是为什么? currentTimeStamp: 1553503185000,Key:1,EventTime:1553503185000,前一条数据的水位线:0 4 (1,tom1,1553503185000) currentTimeStamp: 1553503186000,Key:1,EventTime:1553503186000,前一条数据的水位线:1553503185000 4 (1,tom2,1553503186000) currentTimeStamp: 1553503187000,Key:1,EventTime:1553503187000,前一条数据的水位线:1553503186000 4 (1,tom3,1553503187000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503188000,前一条数据的水位线:1553503187000 4 (1,tom4,1553503188000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503185000,前一条数据的水位线:1553503188000 4 (1,tom_late,1553503185000) currentTimeStamp: 1553503189000,Key:2,EventTime:1553503189000,前一条数据的水位线:1553503188000 4 (2,tom5,1553503189000) currentTimeStamp: 1553503191000,Key:2,EventTime:1553503191000,前一条数据的水位线:1553503189000 4 (2,tom6,1553503191000) currentTimeStamp: 1553503192000,Key:2,EventTime:1553503192000,前一条数据的水位线:1553503191000 4 (2,tom7,1553503192000) currentTimeStamp: 1553503193000,Key:2,EventTime:1553503193000,前一条数据的水位线:1553503192000 4 (2,tom8,1553503193000) currentTimeStamp: 1553503185000,Key:1,EventTime:1553503185000,前一条数据的水位线:0 3 (1,jerry1,1553503185000) currentTimeStamp: 1553503186000,Key:1,EventTime:1553503186000,前一条数据的水位线:1553503185000 3 (1,jerry2,1553503186000) currentTimeStamp: 1553503187000,Key:1,EventTime:1553503187000,前一条数据的水位线:1553503186000 3 (1,jerry3,1553503187000) currentTimeStamp: 1553503188000,Key:1,EventTime:1553503188000,前一条数据的水位线:1553503187000 3 (1,jerry4,1553503188000) 2 tom1=jerry1 2 tom1=jerry2 2 tom1=jerry3 2 tom2=jerry1 2 tom2=jerry2 2 tom2=jerry3 2 tom3=jerry1 2 tom3=jerry2 2 tom3=jerry3 2 tom_late=jerry1 2 tom_late=jerry2 2 tom_late=jerry3 --原始邮件-- 发件人:"Djeng Lee"https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 相关代码 public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) { return timestamp - (timestamp - offset + windowSize) % windowSize; } 在 2020/4/4 下午6:30,“忝忝向仧”<153488...@qq.com 写入: 额,你的意思是滚动3秒的窗口开始和结束应该是 100055000 % 3 得出结果再拿到[start,end). 比如100055000 % 3 的结果是100053000,那么窗口是[100053000,100056000) 是这么理解吧 --nbsp;原始邮件nbsp;-- 发件人:nbsp;"lee.roval"
回复: 回复: 回复: Flink双流Join问题
文档说明: https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 这个网页我打不开,有其他的地址么? 谢谢 --原始邮件-- 发件人:"Djeng Lee"https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/event_timestamps_watermarks.html 相关代码 public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) { return timestamp - (timestamp - offset + windowSize) % windowSize; } 在 2020/4/4 下午6:30,“忝忝向仧”<153488...@qq.com 写入: 额,你的意思是滚动3秒的窗口开始和结束应该是 100055000 % 3 得出结果再拿到[start,end). 比如100055000 % 3 的结果是100053000,那么窗口是[100053000,100056000) 是这么理解吧 --nbsp;原始邮件nbsp;-- 发件人:nbsp;"lee.roval"
回复: 回复: Flink双流Join问题
额,你的意思是滚动3秒的窗口开始和结束应该是 100055000 % 3 得出结果再拿到[start,end). 比如100055000 % 3 的结果是100053000,那么窗口是[100053000,100056000) 是这么理解吧 --原始邮件-- 发件人:"lee.roval"
回复: Flink双流Join问题
对,我只是回复把前面那串省略了,没写. [100053000,100056000),为什么是100053000开始? 我第一条输入的是 1,tom1,100055000 --原始邮件-- 发件人:"libenchao"