Re: 关于flink sql 1.10 source并行度自动推断的疑问

2020-03-25 文章 Jingsong Li
Hi, 就像Zhenghua所说,各个tasks是去抢split的,而不是平均分配,所以一旦后面的tasks没有调度起来,前面的tasks会把split抢光的。 但是少slots多并发的场景并不少见,前面tasks读取太多数据可能会让性能/容错都不友好。所以我们也需要引入平均分配的策略。创建了个JIRA [1], FYI. [1]https://issues.apache.org/jira/browse/FLINK-16787 Best, Jingsong Lee On Wed, Mar 25, 2020 at 6:25 PM Chief wrote: > hi

Re: 关于 SQL DATE_FORMAT 的时区设置的构想

2020-03-25 文章 Jark Wu
顺便说一下,目前 localtimestamp 的实现看起来是没有问题的。@Dong 你可以先用 localtimestamp 。 在标准里面,以及一些常见数据库中(如 postgres[1], oracle[2]),localtimestamp 是 without time zone 的实现, 其值是 session zone 看到的值,等于 cast(current_timestamp as timestamp without time zone)。 所以目前 localtimestamp 的实现应该是没有问题的。 举个例子,理论上,这两个函数的行为应该如下: > SET

flink动态分区写入hive如何处理数据倾斜的问题

2020-03-25 文章 Jun Zhang
大家好: 有一个类似的sql 拿官网的这个做示例:INSERT OVERWRITE myparttable SELECT 'Tom', 25, 'type_1', '2019-08-08’; 如果实际上第三个type字段,某一种type数据量特别大,导致了数据倾斜,这种情况一般怎么处理呢? 谢谢。

Re: 关于 SQL DATE_FORMAT 的时区设置的构想

2020-03-25 文章 Kurt Young
我们先改成 timestamp with local zone,如果这个字段的类型在整个query里都没变过,那个 with time zone的效果也差不多了。 Best, Kurt On Wed, Mar 25, 2020 at 8:43 PM Zhenghua Gao wrote: > Hi Jark, > > 这里的确是有问题的。 > 目前的问题是Calcite本身并不支持TIMESTAMP WITH TIME ZONE. > > *Best Regards,* > *Zhenghua Gao* > > > On Tue, Mar 24, 2020 at 11:00 PM

Re: 关于 SQL DATE_FORMAT 的时区设置的构想

2020-03-25 文章 Zhenghua Gao
Hi Jark, 这里的确是有问题的。 目前的问题是Calcite本身并不支持TIMESTAMP WITH TIME ZONE. *Best Regards,* *Zhenghua Gao* On Tue, Mar 24, 2020 at 11:00 PM Jark Wu wrote: > Thanks for reporting this Weike. > > 首先,我觉得目前 Flink 返回 TIMESTAMP WITHOUT TIME ZONE 应该是有问题的。 > 因为 SQL 标准(SQL:2011 Part 2 Section 6.32)定义了返回类型是 WITH

Re: 回复: Flink JDBC Driver是否支持创建流数据表

2020-03-25 文章 godfrey he
hi 赵峰, 你出现的这个问题,是在classpath中找不到Kafka相关TableFactory,按照zhenghua说的方式可以解决。但是现在Flink JDBC Driver只支持Batch模式,而Kafka table source目前只支持stream模式。 Best, Godfrey Zhenghua Gao 于2020年3月25日周三 下午4:26写道: > 请确认一下 kafka connector 的jar包是否在 flink/lib 下。 > 目前的报错看起来是找不到kafka connector的jar包。 > > *Best Regards,* >

?????? ????flink sql 1.10 source????????????????????

2020-03-25 文章 Chief
hi Zhenghua Gao ?? ---- ??:"Zhenghua Gao"

Re: 关于flink sql 1.10 source并行度自动推断的疑问

2020-03-25 文章 Zhenghua Gao
Hi Chief, 目前Hive connector读取数据是通过 InputFormatSourceFunction 来实现的。 InputFormatSourceFunction 的工作模式不是预分配的模式,而是每个source task向master请求split。 如果某些source task提前调度起来且读完了所有的split,后调度起来的source task就没有数据可读了。 你可以看看JM/TM日志,确认下是不是前十个调度起来的source task读完了所有的数据。 *Best Regards,* *Zhenghua Gao* On Wed, Mar 25,

Flink1.10版本消费Kafka0.11版本,页面监控received都是0

2020-03-25 文章 Jim Chen
请教一个问题:我使用的是Flink是1.10版本消费Kafka0.11版本,直接打印出来。Flink集群是standalong模式,页面监控上的received都是0,不知道怎么回事?

Re: 回复: Flink JDBC Driver是否支持创建流数据表

2020-03-25 文章 Zhenghua Gao
请确认一下 kafka connector 的jar包是否在 flink/lib 下。 目前的报错看起来是找不到kafka connector的jar包。 *Best Regards,* *Zhenghua Gao* On Wed, Mar 25, 2020 at 4:18 PM 赵峰 wrote: > 不是语法问题,我建表也没有问题,是查询报错。你有没有试查询数据或者数据写人文件表中 > > > > > 参考下这个文档: > >

Re: 回复: Flink JDBC Driver是否支持创建流数据表

2020-03-25 文章 赵峰
不是语法问题,我建表也没有问题,是查询报错。你有没有试查询数据或者数据写人文件表中 参考下这个文档: https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html#kafka-connector 下面的语法应该是不支持的: 'format.type' = 'csv',\n" + "'format.field-delimiter' = '|'\n" 下面是我可以跑通的代码, kafka

?????? ????flink sql 1.10 source????????????????????

2020-03-25 文章 Chief
hiJun Zhang ---- ??:"Jun Zhang"

?????? ????flink sql 1.10 source????????????????????

2020-03-25 文章 Chief
hi Kurt Young hive??13??web ui

Re: ddl es 报错

2020-03-25 文章 Leonard Xu
, zhisheng 我觉得支持ES鉴权在生产中是蛮有用的功能,nice to have, 如jinhai所说,可以先提个improvement的issue,在社区里讨论下(具体参数名,这些参数应该是可选的),讨论一致后开PR就可以了。 Best, Leonard > 在 2020年3月25日,13:51,jinhai wang 写道: > > 优秀!可以提个improve issue > > > Best Regards > > jinhai...@gmail.com > >> 2020年3月25日 下午1:40,zhisheng 写道: >>

flink 1.9 状态后端为FsStateBackend,修改checkpoint时出现警告

2020-03-25 文章 guanyq
package com.guanyq.study.libraries.stateProcessorApi.FsStateBackend; import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.api.common.state.ListState; import org.apache.flink.api.common.state.ListStateDescriptor; import

Re: Re: 向您请教pyflink在windows上运行的问题,我第一次接触flink。

2020-03-25 文章 jincheng sun
上面视频中对应的word_count示例的源码应该是这个: https://github.com/sunjincheng121/enjoyment.code/blob/master/myPyFlink/enjoyment/word_count.py运行完成之后计算结果应该是写到sink_file = 'sink.csv'文件里面去了。你可以将这个文件的路径打印出来,查看这个文件内容。 另外如果您只是为了学习入门的话,建议你查阅[1][2], 我让想整理了解PyFlink最新的状况,可以查看[3]。 [1]