Re:flink的高可用配置

2020-06-18 文章 chaojianok
很奇怪,我打开这封邮件什么内容都没有。 Flink 高可以用配置推荐看下这两篇文档: https://ci.apache.org/projects/flink/flink-docs-master/ops/jobmanager_high_availability.html https://ci.apache.org/projects/flink/flink-docs-master/ops/config.html At 2020-06-19 11:09:13, "Tony" wrote:

Re:Re: [DISCUSS] Upgrade HBase connector to 2.2.x

2020-06-18 文章 chaojianok
+1 to support HBase 2.x And I think the 1.4.x version can be retained for the time being, so that users who are currently using the 1.4.x version can have more time to evaluate whether their projects need to be upgraded and the cost of upgrading. At 2020-06-19 12:35:36, "Jark Wu"

Flink SQL 1.10.0窗口计算结果无法sink

2020-06-18 文章 王超
各位大神求帮忙看一下。 Flink 版本:1.10.0 Planner:blink 我在使用Flink SQL的时候遇到了一个问题,能否帮忙看一下,我尝试在寻找了解决方法,但是没有起作用。 比如我发现类似的问题 https://www.mail-archive.com/user-zh@flink.apache.org/msg03916.html 中描述的问题,根据这个mail中的解决方法我设置了timezone,但是问题没有被解决。 Flink Table Env配置 *StreamExecutionEnvironment env =

Re: [DISCUSS] Upgrade HBase connector to 2.2.x

2020-06-18 文章 Jark Wu
+1 to support HBase 2.x But not sure about dropping support for 1.4.x I cc'ed to user@ and user-zh@ to hear more feedback from users. Best, Jark On Thu, 18 Jun 2020 at 21:25, Gyula Fóra wrote: > Hi All! > > I would like to revive an old ticket >

Re: Re: 对于维表频繁更新,状态越来越大的场景如何保证数据的准确性

2020-06-18 文章 wangweigu...@stevegame.cn
可以通过异步的方式(RichAsyncFunction)进行维表关联操作,异步多线程方式进行维表读取! 发件人: Jim Chen 发送时间: 2020-06-19 10:34 收件人: user-zh 主题: Re: 对于维表频繁更新,状态越来越大的场景如何保证数据的准确性 请问下,在flink sql1.10中, localcache+异步IO,这个方案,是直接写sql关联维表就行了吗?flink sql会自动在底层做优化工作吗?如果要自己手动实现的话,有没有什么demo呢?谢谢 Jark Wu 于2020年6月17日周三 上午12:11写道: >

Re: flink 1.10 on yarn 内存超用,被kill

2020-06-18 文章 Yun Tang
Hi 单个Slot的managed memory是多少(可以通过webUI或者TM的日志观察到),rocksDB的 block cache usage会增长到多少,是一直在增长最终超过单个slot的managed memory么? RocksDB的内存托管在绝大部分场景下是work的,但是RocksDB本身的实现限制了这个功能完美发挥作用。具体涉及到LRUcache和Writebuffer manager之间的对应关系,目前RocksDB的strict cache limit和将write buffer

flink的高可用配置

2020-06-18 文章 Tony

Re: 对于维表频繁更新,状态越来越大的场景如何保证数据的准确性

2020-06-18 文章 Jim Chen
请问下,在flink sql1.10中, localcache+异步IO,这个方案,是直接写sql关联维表就行了吗?flink sql会自动在底层做优化工作吗?如果要自己手动实现的话,有没有什么demo呢?谢谢 Jark Wu 于2020年6月17日周三 上午12:11写道: > 如果更新非常频繁,又要保证关联的准确性,又要保证吞吐,那么最佳的解决方案我觉得只能是关联 changelog 了, > 只是 Flink 目前还没有原生支持维表关联一个 changelog,会在Flink SQL 1.12中去支持。 > > 当前版本下的话,可以尝试

flink 1.10 on yarn ????????????kill

2020-06-18 文章 1017517291
Hi?? ??yarn kill?? java.lang.Exception: [2020-06-19 00:33:57.249]Container [pid=771992,containerID=container_e05_1592035979967_0057_01_06] is running 745472B beyond the 'PHYSICAL'

pyflink的table api 能否根据 filed的值进行判断插入到不同的sink表中

2020-06-18 文章 jack
使用pyflink的table api 能否根据 filed的值进行判断插入到不同的sink表中? 场景:使用pyflink通过filter进行条件过滤后插入到sink中, 比如以下两条消息,logType不同,可以使用filter接口进行过滤后插入到sink表中: { "logType":"syslog", "message":"sla;flkdsjf" } { "logType":"alarm", "message":"sla;flkdsjf" } t_env.from_path("source")\

Re:Re: 项目引用flink-1.11.0,打包失败

2020-06-18 文章 Zhou Zach
import org.apache.flink.api.common.time.Time import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment import org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic} import org.apache.flink.table.api.EnvironmentSettings import

回复: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Sun.Zhu
非常感谢,我去试试 | | Sun.Zhu | | 17626017...@163.com | 签名由网易邮箱大师定制 在2020年06月18日 18:13,Rui Li 写道: 需要启动一个独立的metastore server,然后hive.metastore.uris配置的是你metastore server的地址。 最简单的场景,在本地启动metastore server命令:hive --service metastore hive.metastore.uris设置成:thrift://localhost:9083

sql-client????????????????SUCCEEDED????

2020-06-18 文章 MuChen
hi, yarn-session:bin/yarn-session.sh -n 5 -jm 1g -tm 4g -s 4 -qu root.flink -nm fsql-cli /dev/null 21 sql-clientsql?? kafkahive??joinmysql sql?? # --

flink启动主类反射异常

2020-06-18 文章 a773807...@gmail.com
大家好: 我在flink的启动主类上,配置了代码,根据入参的参数,动态反射加载对应的类来启动不同的flink job, 在本地拉起是可以实现这个功能,但是部署到集群上的时候,就显示反射异常,请问是什么问题? 具体日志: 2020-06-18 20:14:06,354 ERROR org.apache.flink.runtime.webmonitor.handlers.JarPlanHandler - Unhandled exception. org.apache.flink.client.program.ProgramInvocationException: The

Re: 项目引用flink-1.11.0,打包失败

2020-06-18 文章 Jark Wu
能贴下完整代码吗? (imports 部分) Best, Jark On Thu, 18 Jun 2020 at 19:18, Zhou Zach wrote: > > > flink-1.10.0版本,引用的是org.apache.flink.table.api.java.StreamTableEnvironment,换成flink-1.11.0时,intellij > idea提示要换成org.apache.flink.table.api.bridge.java.StreamTableEnvironment,Intellij > Idea

Flink 多Sink 数据一致性保证

2020-06-18 文章 xueaohui_...@163.com
如上图所示,目前通过把作业加入多个sink,这种场景下面当hbase写入的失败的时候,不影响kakfa的写入。期望hbase写入失败,kafka也不发送。 如何保证hbase和kafka的写入为原子性呢? 不知道flink是否有多sink的二阶段提交方案。 xueaohui_...@163.com

项目引用flink-1.11.0,打包失败

2020-06-18 文章 Zhou Zach
flink-1.10.0版本,引用的是org.apache.flink.table.api.java.StreamTableEnvironment,换成flink-1.11.0时,intellij idea提示要换成org.apache.flink.table.api.bridge.java.StreamTableEnvironment,Intellij Idea Build可以成功,就是打包的时候出错。。 [ERROR]

Re: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Rui Li
需要启动一个独立的metastore server,然后hive.metastore.uris配置的是你metastore server的地址。 最简单的场景,在本地启动metastore server命令:hive --service metastore hive.metastore.uris设置成:thrift://localhost:9083 更详细的metastore使用方法可以参考hive文档: https://cwiki.apache.org/confluence/display/Hive/AdminManual+Metastore+Administration On

Re: flink1.7.2-JDBCAppendTableSink,如何按间隔时间写入数据

2020-06-18 文章 Leonard Xu
Hello 1.7.2是比较老的版本了, 可以考虑下升级新的版本,新的版本都支持你所需的功能的。 1.10.0 && 1.10.1 文档[1],对应的两个参数: 'connector.write.flush.max-rows' = '5000', -- optional, flush max size (includes all append, upsert and delete records), -- over this

Re: flink1.10.1 SQL 作业 netty报错, 求帮助

2020-06-18 文章 Jark Wu
看起来是一个已知问题: https://issues.apache.org/jira/browse/FLINK-17479 On Wed, 17 Jun 2020 at 11:00, hb <343122...@163.com> wrote: > flink1.10.1 写的 SQL 作业, 开始运行3个小时正常, checkpoint也正常. > 然后,checkpoint失败了, 作业一直卡在RESTARTING 状态不动. > > TaskManager 日志: > 2020-06-16 20:38:16,640 INFO

Re: flink sql 窗口场景的问题

2020-06-18 文章 Leonard Xu
Hi, 窗口输出可以加emit策略,在watermark未触发时提前输出window的中间结果,不过社区目前标注的是experimental的功能,生产环境中应谨慎使用。 table.exec.emit.early-fire.enabled table.exec.emit.early-fire.delay 可以参考[1]。 Best Leonard Xu [1]

Re: FileInputFormat 使用问题

2020-06-18 文章 john
嗨,找到问题了吗?我也遇到了 > 2020年6月1日 下午2:48,阿华田 写道: > > //初始化任务参数 > ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); > FileInputFormat fileInputFormat = new TextInputFormat(new > Path("hdfs://arc/success_fid_flow ")); > fileInputFormat.setNestedFileEnumeration(true); >

Re:Re: flink1.7.2-JDBCAppendTableSink,如何按间隔时间写入数据

2020-06-18 文章 nicygan
请问timeout值是多少?在哪里可设置? 在 2020-06-18 17:43:31,"Benchao Li" 写道: >我理解现在就是你想要的效果。 >batch-size和timeout两个条件是达到一个就会flush的。 > >nicygan 于2020年6月18日周四 下午5:05写道: > >> dear all: >> 我想用JDBCAppendTableSink向Mysql写数据,可以设置批量大小,不能设置间隔时间。 >> >> >> JDBCAppendTableSink sink =

Re: flink1.7.2-JDBCAppendTableSink,如何按间隔时间写入数据

2020-06-18 文章 Benchao Li
我理解现在就是你想要的效果。 batch-size和timeout两个条件是达到一个就会flush的。 nicygan 于2020年6月18日周四 下午5:05写道: > dear all: > 我想用JDBCAppendTableSink向Mysql写数据,可以设置批量大小,不能设置间隔时间。 > > > JDBCAppendTableSink sink = JDBCAppendTableSink.builder().setBatchSize(1) > .setDrivername("com.mysql.jdbc.Driver") >

Re: flink sql 窗口场景的问题

2020-06-18 文章 john
嗨,推荐你使用这个:窗口实用触发器 ContinuousEventTimeTrigger > 2020年6月3日 下午10:29,Sun.Zhu <17626017...@163.com> 写道: > > hi > 你是要每条数据都计算当前5分钟内的聚合值吗?如果是这样的话可以考虑使用over window > > > | | > Sun.Zhu > | > | > 17626017...@163.com > | > 签名由网易邮箱大师定制 > > > 在2020年06月3日 02:56,steven chen 写道: > hi : >

回复: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Sun.Zhu
对应这种改动还是挺大的,有对应的说明文档吗? hive.metastore.uris 这个需要怎么配置,有样例吗? | | Sun.Zhu | | 17626017...@163.com | 签名由网易邮箱大师定制 在2020年06月18日 17:01,Rui Li 写道: 是的,embedded模式需要添加额外的jar包,容易导致依赖冲突。而且生产环境中embedded模式也比较少见,所以在1.11中HiveCatalog已经不允许embedded模式了。 On Thu, Jun 18, 2020 at 4:53 PM Leonard Xu wrote: Hi 在

flink1.7.2-JDBCAppendTableSink,如何按间隔时间写入数据

2020-06-18 文章 nicygan
dear all: 我想用JDBCAppendTableSink向Mysql写数据,可以设置批量大小,不能设置间隔时间。 JDBCAppendTableSink sink = JDBCAppendTableSink.builder().setBatchSize(1) .setDrivername("com.mysql.jdbc.Driver") .setDBUrl("jdbc:mysql://localhost:3306/flink") .setUsername("root")

sql-client????????????????SUCCEEDED????

2020-06-18 文章 MuChen
hi, yarn-session:bin/yarn-session.sh -n 5 -jm 1g -tm 4g -s 4 -qu root.flink -nm fsql-cli /dev/null 21 sql-clientsql?? kafkahive??joinmysql

Re: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Rui Li
是的,embedded模式需要添加额外的jar包,容易导致依赖冲突。而且生产环境中embedded模式也比较少见,所以在1.11中HiveCatalog已经不允许embedded模式了。 On Thu, Jun 18, 2020 at 4:53 PM Leonard Xu wrote: > > Hi > > > 在 2020年6月18日,16:45,Sun.Zhu <17626017...@163.com> 写道: > > > > Caused by: java.lang.IllegalArgumentException: Embedded metastore is not >

Re: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Leonard Xu
Hi > 在 2020年6月18日,16:45,Sun.Zhu <17626017...@163.com> 写道: > > Caused by: java.lang.IllegalArgumentException: Embedded metastore is not > allowed. Make sure you have set a valid value for hive.metastore.uris 错误的原因应该是这个,flink 集成 hive 时 不支持embedded metastore的,你的 hive 需要起一个hive metastore

回复: sqlclient集成hiveCatalog查询kafka表问题

2020-06-18 文章 Sun.Zhu
Hi,Rui Li 我把connector的包也替换成1.11的了,结果sql-cli启动报错 Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue. at org.apache.flink.table.client.SqlClient.main(SqlClient.java:213) Caused by:

回复:env.readFile 递归监控目录 如何清理状态(历史目录)

2020-06-18 文章 star
感谢您的建议!如果我把hdfs目录删掉,flink里对应的状态也会清掉吗? 发自我的iPhone -- 原始邮件 -- 发件人: Jark Wu https://issues.apache.org/jira/browse/FLINK-18357; 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。 Best, Jark On Wed, 17 Jun 2020 at 14:04, star

Re: env.readFile 递归监控目录 如何清理状态(历史目录)

2020-06-18 文章 Jark Wu
Hi, 我觉得这个也许可以先从业务上解决。比如你可以有另一个作业定期去 HDFS 上把过期的数据清理掉(比如半个月前的?)。 另外,我也开了一个 issue 去跟进这个问题,看看社区里面对这块比较熟的同学有没有更好的建议。FLINK-18357 我的一个初步的想法是,是否可以有一个 inactive-interval 去标记一个子目录已经不会有新文件产生了,这样 checkpoint 就不用跟踪这个子目录下的所有文件。 Best, Jark On Wed, 17 Jun

Re: Flink kerberos环境下多个keytab认证问题

2020-06-18 文章 john
不必写在配置文件里,在提交的时候使用 -yD 动态指定参数。-yD use value for given property。这个参数可以多个。 另外在提交的时候,可以使用klist命令看下默认的principal是哪个。 使用:kinit -kt .keytab 可以更改default principal 也就是切换用户。你可以试下。 > 2020年6月12日 上午11:36,zhangjunjie1...@163.com 写道: > >Flink1.9环境下,搭建Flink on