Re:回复: flink日志级别问题

2019-08-27 Thread 高飞龙
我也遇到同样的问题,目的是希望在web上只看到error的日志,我们不用es -- 高飞龙 手机 +86 18710107193 gaofeilong198...@163.com 在 2019-08-27 19:51:35,"王金海" 写道: >可以日志同步到ES,然后检索error类型的 >至于是否可以代码自定义,自己也没试过 > > >csbl...@163.com >Have a nice day ! > > >在2019年08月27日 19:46,王金海 写道: >日志同步到ES,然后检索error类型的 >至于是否可以代码自定义,就不太清楚了 > >

Re: flink1.9 Blink planner create view 问题

2019-08-27 Thread Jark Wu
1.9 还不支持 create view 语法。如果要注册一个 view,可以通过下面的办法: Table table = tEnv.sqlQuery(“select * from T”) tEnv.registerTable(“v1”, table); 然后你就可以在之后的sql 中直接查询 v1了 Best, Jark > 在 2019年8月28日,11:39,hb <343122...@163.com> 写道: > >

Re: [ANNOUNCE] Apache Flink 1.9.0 released

2019-08-27 Thread Fabian Hueske
Hi everyone, The Docker images for Flink 1.9.0 with Scala 2.12 are available now :-) Cheers, Fabian Oytun Tez schrieb am Di., 27. Aug. 2019, 21:18: > Thank you, Fabian! We are migrating soon once 2.12 is available. > > Cheers, > > --- > Oytun Tez > > *M O T A W O R D* > The World's Fastest

Re: kafka流与hive表join问题

2019-08-27 Thread Jark Wu
Hi like, > udtf加载完后是一种什么情况,是每一个task都会维护一份hive数据吗? 是的 > 还有一个问题就是1.9中的维表join是不是跟现在一样呢?有什么特别的地方吗? 1.9 中支持的维表 join,只支持 lookup 方式查询维表,其实现方式和 UDTF 是类似的。 Best, Jark > 在 2019年8月28日,10:57,like 写道: > > Hi Jark > > >

flink1.9 Blink planner create view 问题

2019-08-27 Thread hb
注册了T表后,创建view报错 tEnv.sqlUpdate(s"create view v1 as select * from T") Exception in thread "main" org.apache.flink.table.api.TableException: Unsupported node type SqlCreateView 是用错方法了,还是不支持

回复: kafka流与hive表join问题

2019-08-27 Thread like
Hi Jark 非常感谢你提供的方案,我不了解udtf加载完后是一种什么情况,是每一个task都会维护一份hive数据吗?这应该会带来很大的开销。还有一个问题就是1.9中的维表join是不是跟现在一样呢?有什么特别的地方吗? 在2019年8月28日 10:10,Jark Wu 写道: Hi, 看了你的问题,主要有两个问题。 1. join hive 维表,没加载完就有 join 输出了。 2. hive 加载完后,就不再做 checkpoint 了。 第一个问题,目前flink 还没有内置支持hive 维表的支持。你可以自己实现一个 udtf 去拉取 hive

Re: 在子查询上使用row_number over返回的rn都是1

2019-08-27 Thread ddwcg
因为sink到hbase,使用一个column存了top5的list,sink前我要组合一下这个list > 在 2019年8月28日,10:12,Jark Wu 写道: > > 为什么还需要后面接 process operator 呢? Flink TopN 已经帮你维护好了 state,直接输出到一个 update sink > 中就可以了。 > > > Best, > Jark > >> 在 2019年8月28日,10:08,ddwcg <3149768...@qq.com> 写道: >> >> process >

Re: 在子查询上使用row_number over返回的rn都是1

2019-08-27 Thread Jark Wu
为什么还需要后面接 process operator 呢? Flink TopN 已经帮你维护好了 state,直接输出到一个 update sink 中就可以了。 Best, Jark > 在 2019年8月28日,10:08,ddwcg <3149768...@qq.com> 写道: > > process

Re: kafka流与hive表join问题

2019-08-27 Thread Jark Wu
Hi, 看了你的问题,主要有两个问题。 1. join hive 维表,没加载完就有 join 输出了。 2. hive 加载完后,就不再做 checkpoint 了。 第一个问题,目前flink 还没有内置支持hive 维表的支持。你可以自己实现一个 udtf 去拉取 hive 数据到内存,udtf 的 eval 方法在加载完 hive 数据之前不返回,这样可以避免没有加载完就有输出的问题。 第二个问题,目前 streaming job 中如果存在 finish vertex,是无法做 checkpoint 的。 Best, Jark > 在

Re: End of Window Marker

2019-08-27 Thread Padarn Wilson
Hi again Fabian, Thanks for pointing this out to me. In my case there is no need for keyed writing - but I do wonder if having each kafka task write only to a single partition would significantly affect performance. Actually now that I think about it, the approach to just wait for the first

Re: 在子查询上使用row_number over返回的rn都是1

2019-08-27 Thread Jark Wu
Hi, 你使用的是 flink 1.9 blink planner 吧? 首先你的 topn query 没有问题。结果也没有问题。 因为你是根据 province 分组求 top5,也就是每个省份排名前5的 id。但是现在你的数据中,每个省份只有一个 id,所以大家的排名都是1。 如果你想求全局前5名的省份,那么row_number 那里不需要定义 partition by province。 Best, Jark > 在 2019年8月27日,15:16,ddwcg <3149768...@qq.com> 写道: > > 6>

Re: [ANNOUNCE] Apache Flink 1.9.0 released

2019-08-27 Thread Oytun Tez
Thank you, Fabian! We are migrating soon once 2.12 is available. Cheers, --- Oytun Tez *M O T A W O R D* The World's Fastest Human Translation Platform. oy...@motaword.com — www.motaword.com On Tue, Aug 27, 2019 at 8:11 AM Fabian Hueske wrote: > Hi all, > > Flink 1.9 Docker images are

Re: BucketingSink - Could not invoke truncate while recovering from state

2019-08-27 Thread Gyula Fóra
Thats a nice observation! :) I haven't caught that. We need to check that for sure. Gyula On Tue, Aug 27, 2019 at 5:00 PM Kostas Kloudas wrote: > Hi Guyla, > > Thanks for looking into it. > I did not dig into it but in the trace you posted there is the line: > > Failed to TRUNCATE_FILE ...

Re: BucketingSink - Could not invoke truncate while recovering from state

2019-08-27 Thread Kostas Kloudas
Hi Guyla, Thanks for looking into it. I did not dig into it but in the trace you posted there is the line: Failed to TRUNCATE_FILE ... for **DFSClient_NONMAPREDUCE_-1189574442_56** on 172.31.114.177 because **DFSClient_NONMAPREDUCE_-1189574442_56 is already the current lease holder**. The

Re: BucketingSink - Could not invoke truncate while recovering from state

2019-08-27 Thread Gyula Fóra
Hi all! I am gonna try to resurrect this thread as I think I have hit the same issue with the StreamingFileSink: https://issues.apache.org/jira/browse/FLINK-13874 I don't have a good answer but it seems that we try to truncate before we get the lease (even though there is logic both in

Re: I'm not able to make a stream-stream Time windows JOIN in Flink SQL

2019-08-27 Thread Fabian Hueske
Hi Theo, Re your first approach: TUMBLE_START is treated as a special function.It can only be used in the SELECT clause if there is a TUMBLE function call in the GROUP BY cause. If you use FLOOR(s1.ts TO DAY) == FLOOR(s2.ts TO DAY) it should work. You can also drop one of the BETWEEN predicates

Re: Are there any news on custom trigger support for SQL/Table API?

2019-08-27 Thread Fabian Hueske
Hi Theo, The work on custom triggers has been put on hold due to some major refactorings (splitting the modules, porting Scala code to Java, new type system, new catalog interfaces, integration of the Blink planner). It's also not on the near-time roadmap AFAIK. To be honest, I'm not sure how

Assigning UID to Flink SQL queries

2019-08-27 Thread Yuval Itzchakov
Hi, We a have a bunch of Flink SQL queries running in our Flink environment. For regular Table API interactions, we can override `uid` which also gives us an indicative name for the thread/UI to look at. For Flink SQL queries, this doesn't seem the the case which results in very verbose names

Fwd: Checkpoint使用

2019-08-27 Thread Andrew Lin
1,你说的应该是savepoint吧,checkpoint是运行中failover自动恢复的,savepoint如果设置了uid,改变并行度是可以从savepoint启动的 > 下面是被转发的邮件: > > 发件人: yanggang_it_job > 主题: Checkpoint使用 > 日期: 2019年8月27日 GMT+8 下午6:08:24 > 收件人: user-zh@flink.apache.org > 回复-收件人: user-zh@flink.apache.org > > 关于flink从checkpoint的问题: >

flink1.9 hadoop3 on yarn "StoppableFunction not found"

2019-08-27 Thread Michael Ran
deal ALL : 目前在CDH6.2.0 hadoop3 上,编译了 flink 1.9 提交的时候 异常: CONSOLE#org.apache.flink.client.program.ProgramInvocationException: The program caused an error: CONSOLE# at

Re: [ANNOUNCE] Apache Flink 1.9.0 released

2019-08-27 Thread Fabian Hueske
Hi all, Flink 1.9 Docker images are available at Docker Hub [1] now. Due to some configuration issue, there are only Scala 2.11 issues at the moment but this was fixed [2]. Flink 1.9 Scala 2.12 images should be available soon. Cheers, Fabian [1] https://hub.docker.com/_/flink [2]

回复: flink日志级别问题

2019-08-27 Thread 王金海
日志同步到ES,然后检索error类型的 至于是否可以代码自定义,就不太清楚了 csbl...@163.com Have a nice day ! 在2019年08月27日 19:29,Zili Chen 写道: 另一种思路如果可以 download 日志的话可以直接文本处理挑出 ERROR 日志(x Best, tison. 陈思 <58683...@qq.com> 于2019年8月27日周二 下午6:56写道: 目的:调整flink作业日志级别为ERROR

Re: flink日志级别问题

2019-08-27 Thread Zili Chen
另一种思路如果可以 download 日志的话可以直接文本处理挑出 ERROR 日志(x Best, tison. 陈思 <58683...@qq.com> 于2019年8月27日周二 下午6:56写道: > 目的:调整flink作业日志级别为ERROR > > > 背景:公司提交flink作业只能通过公司的可视化平台,因此不能修改集群上的log4j.properties文件,现在的日志级别是INFO,日志太多不方便排错 > >

Re: flink1.9 blink planner table ddl 使用问题

2019-08-27 Thread 徐骁
珞感谢 Jark Wu 于2019年8月27日周二 下午6:49写道: > > https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/connect.html#kafka-connector > < > https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/connect.html#kafka-connector > > > > > 在 2019年8月27日,17:59,徐骁 写道: > > > >

Re: StateMigrationException thrown by state processor api

2019-08-27 Thread Paul Lam
Hi Yun, Thanks to your input, I’ve found out that states in WindowOperator are using its window serializer as the namespace serializer, so the states in TriggerContext can not be deserialized by the state processor API at the moment, as it’s using VoidNamespaceSerializer. Indeed it does ring a

maven配置错误百出

2019-08-27 Thread like
https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/hive/

Re: flink1.9 blink planner table ddl 使用问题

2019-08-27 Thread Jark Wu
https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/connect.html#kafka-connector > 在 2019年8月27日,17:59,徐骁 写道: > > 这部分有文档吗,看了好几圈没看到 > > hb <343122...@163.com> 于2019年8月26日周一

Re: flink异常恢复

2019-08-27 Thread Jeff Zhang
上个checkpoint 王金海 于2019年8月27日周二 下午6:14写道: > 讨论下flink异常重启问题 > > > 从kafka消费数据,checkpoint周期在5分钟,如果在第6分钟,因为异常导致flink任务重启,flink是从上个checkpoint恢复呢?还是从异常时的offset恢复呢? > > > > csbl...@163.com > Have a nice day ! > > -- Best Regards Jeff Zhang

flink异常恢复

2019-08-27 Thread 王金海
讨论下flink异常重启问题 从kafka消费数据,checkpoint周期在5分钟,如果在第6分钟,因为异常导致flink任务重启,flink是从上个checkpoint恢复呢?还是从异常时的offset恢复呢? csbl...@163.com Have a nice day !

Re: Checkpoint使用

2019-08-27 Thread Congxian Qiu
Hi 1. 你可以按照文档[1]从一个 retained checkpoint 进行恢复,并发度可以改变,但是你需要保证最大并发是一样的 2. 不能动态设置 checkpoint 触发时间 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/state/checkpoints.html#resuming-from-a-retained-checkpoint Best, Congxian yanggang_it_job 于2019年8月27日周二 下午6:08写道: >

Checkpoint使用

2019-08-27 Thread yanggang_it_job
关于flink从checkpoint的问题: 1、如果我的并行度发生了改变,怎么从checkpoint启动? 2、是否可以动态设置checkpoint触发时间?

Re: flink基于yarn的方式提交,log在web上看太卡了。能不能直接看log文件?

2019-08-27 Thread Jeff Zhang
你是通过flink UI看log还是yarn ui 看log ? 陈帅 于2019年8月27日周二 下午5:55写道: > flink基于yarn的方式提交,log在web上看太卡了。能不能直接看log文件? > -- Best Regards Jeff Zhang

Re: Re:回复: Re: flink1.9 blink planner table ddl 使用问题

2019-08-27 Thread 徐骁
这部分有文档吗,看了好几圈没看到 hb <343122...@163.com> 于2019年8月26日周一 下午3:34写道: > 感谢,解决了, 指定 'connector.version' = '0.11' 就可以了. > Blink SQL这方面的官方资料和文档好少啊,开发容易遇到问题. > > 在 2019-08-26 14:26:15,"hb" <343122...@163.com> 写道: > >kafka版本是 kafka_2.11-1.1.0, > >支持的kafka版本有哪些 > >在 2019-08-26

flink 1.8 sql rowtime window ????

2019-08-27 Thread 1142632215
1.mysql binlog??200-3002.??250??4001200-300?? 3.source?? 2

flink基于yarn提交,需要依赖很多第三方的包,有没有办法添加classpath之类的,本地测试总是报错

2019-08-27 Thread 陈帅
现在都是把代码打成一个胖包,每次这样,传输太麻烦了

flink基于yarn的方式提交,log在web上看太卡了。能不能直接看log文件?

2019-08-27 Thread 陈帅
flink基于yarn的方式提交,log在web上看太卡了。能不能直接看log文件?

回复: kafka流与hive表join问题

2019-08-27 Thread like
我通过hive union kafka数据来解决hive数据不更新的问题,我现在碰到的问题是hive没有加载完就开始有join数据输出,比如我取最大日期,hive读取到26号就输出了26,过一会读取到27号,又会输出27,有没有办法让hive全部加载完再join输出,这样就只会有一个值输出了? 在2019年8月27日 17:33,苏 欣 写道: 我之前试过两种方式,但都有各自的问题: 1.注册hiveCatalog然后关联kafka,这种方式会存在hive表数据读取一次后不再更新的问题。

Re: StateMigrationException thrown by state processor api

2019-08-27 Thread Yun Tang
Hi Paul Would you please share more information of the exception stack trace and the state descriptor of this map state with that window operator? For all user-facing keyed state, the namespace serializer would always be VoidNamespaceSerializer. And only window state could have different name

回复: kafka流与hive表join问题

2019-08-27 Thread like
我通过HCatInputFormat读取了hive的数据注册了一张表,然后读取kafka的数据也注册了一张表,join就是通过sql写的,没有什么代码逻辑呢。 | | like | | likeg...@163.com | 签名由网易邮箱大师定制 在2019年8月27日 17:17,Jeff Zhang 写道: 你是怎么join hive表的,能share你的代码吗? like 于2019年8月27日周二 下午5:15写道:

Re: flink1.7.2如何进行hdfs的kerberos认证

2019-08-27 Thread Jeff Zhang
See https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#kerberos-based-security 杨文生-java开发 于2019年8月27日周二 下午3:30写道: > > >public static void main(String[] args) throws Exception { > final ParameterTool parameterTool = ParameterTool > >

Re: 任务内存增长

2019-08-27 Thread Xintong Song
这个邮件列表看不到图片附件的,文本内容可以直接贴出来,图片的话需要放外部链接 Thank you~ Xintong Song On Tue, Aug 27, 2019 at 5:17 PM 张坤 wrote: > > 感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。 > > 在 2019/8/27 下午5:02,“Xintong Song” 写入: > > 你用的是heap state backend吗?可以看下checkpoint > >

Re: kafka流与hive表join问题

2019-08-27 Thread Jeff Zhang
你是怎么join hive表的,能share你的代码吗? like 于2019年8月27日周二 下午5:15写道: > 请问一下各位大佬,如何保证先加载完hive表,然后再与流join,我发现在hive还没有加载完就已经有join的结果出来,这样刚开始出来的结果是不准确的,还有一个问题是hive表加载完之后不会再做checkpoint?我目前使用的是1.7.1版本,看了1.9的维表join,blink文档说(必须加上FOR > SYSTEM_TIME AS OF >

Re: 任务内存增长

2019-08-27 Thread 张坤
感谢您的回复,checkpoint使用的rocksDB,现在查看GC日志得到以下信息,堆内存使用正常,线程数使用在500左右,线程回收,但是线程占用的内存好像并没有回收掉。 在 2019/8/27 下午5:02,“Xintong Song” 写入: 你用的是heap state backend吗?可以看下checkpoint size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。

kafka流与hive表join问题

2019-08-27 Thread like
请问一下各位大佬,如何保证先加载完hive表,然后再与流join,我发现在hive还没有加载完就已经有join的结果出来,这样刚开始出来的结果是不准确的,还有一个问题是hive表加载完之后不会再做checkpoint?我目前使用的是1.7.1版本,看了1.9的维表join,blink文档说(必须加上FOR SYSTEM_TIME AS OF PROCTIME(),表示JOIN维表当前时刻所看到的每条数据),这也就意味着跟我现在一样,没有加载完hive就会join输出了?

StateMigrationException thrown by state processor api

2019-08-27 Thread Paul Lam
Hi, I was using the new state processor api to read a savepoint produced by Flink 1.5.3, and got an StateMigrationException with message “For heap backends, the new namespace serializer must be compatible”. Concretely, the state I was trying to read is a MapState within a

kafka流与hive表join问题

2019-08-27 Thread like
请问一下,如何保证先加载完hive表,然后再与流join,我发现在hive还没有加载完就已经有join的结果出来,这样刚开始出来的结果是不准确的,还有一个问题是hive表加载完之后不会再做checkpoint?我目前使用的是1.7.1版本,看了1.9的维表join,blink文档说(必须加上FOR SYSTEM_TIME AS OF PROCTIME(),表示JOIN维表当前时刻所看到的每条数据),这也就意味着跟我现在一样,没有加载完hive就会join输出了? | | like | | likeg...@163.com | 签名由网易邮箱大师定制

Flink 1.9, MapR secure cluster, high availability

2019-08-27 Thread Maxim Parkachov
Hi everyone, I'm testing release 1.9 on MapR secure cluster. I took flink binaries from download page and trying to start Yarn session cluster. All MapR specific libraries and configs are added according to documentation. When I start yarn-session without high availability, it uses zookeeper

Re: 任务内存增长

2019-08-27 Thread Xintong Song
你用的是heap state backend吗?可以看下checkpoint size是否持续在增大,如果是的话很可能就是state增大导致的。作业运行后,随着处理的数据越来越多,state的key数量也会越来越多,大小随之增大。解决方案要么是改用RocksDB,要么是把tm内存配大为state增大留出富裕。 另外,如果checkpoint size持续增长没有趋于平缓的趋势,那么也可能state的使用有问题。 如果观察到不是state的问题,那么可能需要dump下tm的内存,看看是否哪里有内存泄露的情况。 Thank you~ Xintong Song On Mon,

flink1.7.2如何进行hdfs的kerberos认证

2019-08-27 Thread 杨文生-java开发
public static void main(String[] args) throws Exception { final ParameterTool parameterTool = ParameterTool .fromPropertiesFile(BizlogStreamWithEventTimeCleaner.class.getResourceAsStream(PROPERTIES_FILE_NAME))

在子查询上使用row_number over返回的rn都是1

2019-08-27 Thread ddwcg
如果直接查询表是没问题,但是业务需求是按汇总后的amount排序,所以有一个from子查询,请问有没有什么方法汇总后求topN select id,province,amount,rn from( select id,province,amount, row_number() over(partition by province order by amount desc ) as rn from ( select id,province,sum(amount) amount from mytable group by id,province )m )a

Re: checkpoint failure suddenly even state size less than 1 mb

2019-08-27 Thread Sushant Sawant
Hi team, Anyone for help/suggestion, now we have stopped all input in kafka, there is no processing, no sink but checkpointing is failing. Is it like once checkpoint fails it keeps failing forever until job restart. Help appreciated. Thanks & Regards, Sushant Sawant On 23 Aug 2019 12:56 p.m.,

????flink????????????????????????????

2019-08-27 Thread 1900
flink??flinkTwoPhaseCommitSinkFunction??, ?C beginTransaction ?C preCommit ?C commit ?C abort sink??MYSQL

Re: Loading dylibs

2019-08-27 Thread Vishwas Siravara
Hi Jörn, I tried that. Here is my snippet : String[] loadedlibs = getLoadedLibraries(Thread.currentThread().getContextClassLoader()); if(!containsVibeSimpleLib(loadedlibs)) { System.loadLibrary("vibesimplejava"); } Now I get the exception Unexpected errorjava.lang.UnsatisfiedLinkError: