Re: using thin jar to replace fat jar on yarn cluster mode

2019-12-24 文章 Jingsong Li
Hi zjfplayer, First, your user fat jar should not contains any flink dependents, them should be "provided". If your goal is to reduce the deployment time of task, and you are currently using session mode, you can consider putting jars directly under lib. Best, Jingsong Lee On Mon, Dec 23, 2019 a

Re: [ANNOUNCE] Dian Fu becomes a Flink committer

2020-01-16 文章 Jingsong Li
Congratulations Dian Fu. Well deserved! Best, Jingsong Lee On Thu, Jan 16, 2020 at 6:26 PM jincheng sun wrote: > Congrats Dian Fu and welcome on board! > > Best, > Jincheng > > Shuo Cheng 于2020年1月16日周四 下午6:22写道: > >> Congratulations! Dian Fu >> >> > Xingbo Wei Zhong 于2020年1月16日周四 下午6:13写道: >

[DISCUSS] FLIP-115: Filesystem connector in Table

2020-03-13 文章 Jingsong Li
Hi everyone, I'd like to start a discussion about FLIP-115 Filesystem connector in Table [1]. This FLIP will bring: - Introduce Filesystem table factory in table, support csv/parquet/orc/json/avro formats. - Introduce streaming filesystem/hive sink in table CC to user mail list, if you have any u

Re: 关于sql-client和sql-gateway sql中的注释支持问题

2020-03-13 文章 Jingsong Li
Hi, 现在SQL-CLI是自己解析的,等到后面统一到calcite来解析后,注释应该很自然的就支持了。 @godfrey he 有计划统一到calcite来解析吗? Best, Jingsong Lee On Fri, Mar 13, 2020 at 3:23 PM 111 wrote: > 您好: > > > 最近在使用sql-client和sql-gateway时,发现不支持注释。 > > > > Flink SQL> show tables; -- testtest ; > > [ERROR] Unknown or invalid SQL statement. >

Re: [DISCUSS] FLIP-115: Filesystem connector in Table

2020-03-15 文章 Jingsong Li
s for FLIP-115. It is really useful feature for platform developers > > who manage hundreds of Flink to Hive jobs in production. > > > I think we need add 'connector.sink.username' for UserGroupInformation when > > data is written to HDFS > > > > > > 在 2020/3

Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

2020-03-16 文章 Jingsong Li
Hi, 1万行太大了,会占用太大内存。而且batchSize太大也不利于cache。 batchSize不一定要和row group一样,这种row group特别大的情况下,batchSize 够用就行了。 Best, Jingsong Lee On Tue, Mar 17, 2020 at 11:52 AM jun su wrote: > hi all: > 在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数, > 我知道根据orc索引, 读取orc文件最小的单位应该是row group(默认1w行)

Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

2020-03-17 文章 Jingsong Li
Hi, 1.10没有convert成Row,只是提供一个row的view;之前是convert成Row,这个差别对性能影响很大。 Best, Jingsong Lee On Tue, Mar 17, 2020 at 3:31 PM jun su wrote: > hi Jingsong Li, > > 感谢回复,理解了你的意思. > 这个问题是我在看flink-1.10有关orc的代码时发现的 , 我注意到flink-1.10的release notes中有提到: > 向量化读取ORC. 但是我对比老版本的代码, 一直是采用Vector

Re: 使用Flink sql insert 数据 to hive 之乱码问题

2020-03-17 文章 Jingsong Li
Hi, - SinkConversionToRow是Flink内部的数据结构转化结果,和结果正确性应该无关,具体看sink的。 - 似乎只有log一个附件,没看到乱码文件。 - 在Flink中试下“select * from temp_h1”看下结果? - 在Hive中试下“select * from temp_h1”看下结果? - 在Hive中试下“select * from temp_h2”看下结果? Best, Jingsong Lee On Tue, Mar 17, 2020 at 4:25 PM 吕先生 wrote: > 各位大佬,大家好! > > 帮看一下这个问题:我使

Re: sql关键字问题

2020-03-18 文章 Jingsong Li
Hi lucas, 赞专业的分析,看起来是Flink的bug,你可以建个Jira来跟踪。 CC: @Yuzhao Chen Best, Jingsong Lee On Wed, Mar 18, 2020 at 4:15 PM lucas.wu wrote: > 初步找到了原因 > 原来我的建表语句用了computed_column_expression 这种语义。 > 然后flink内部在使用的时候其实是把它转成了select 语句 > ... > if (columnExprs.nonEmpty) { > val fieldExprs = fieldNames > .map

Re: 使用Flink sql insert 数据 to hive 之乱码问题 (已解决)

2020-03-18 文章 Jingsong Li
Hi, 会在1.10.1里面修复。 JIRA: https://issues.apache.org/jira/browse/FLINK-16647 谢谢 @li...@apache.org Best, Jingsong Lee On Wed, Mar 18, 2020 at 4:50 PM 吕先生 wrote: > Hi > > > 经过阿里工程师的协助,现定位到这是一个压缩问题。我的Hive 开启了压缩,以减小磁盘空间的使用。Flink > sql在写入压缩文件后(textfile 格式),没有添加后缀名(正常情况下应该有“.snappy”后缀)。所以读的时候,把压缩文

Re: flink sql 1.10.0 对hive GenericUDF支持,之前的图片在邮件组不显示,重新编辑

2020-03-19 文章 Jingsong Li
Hi, GenericUDFUnixTimeStamp 这个UDF 用上了Hive的SessionState,而我们的hive-integration中目前缺少这部分的支持。 Flink也支持这个函数,你可以考虑先用Flink的函数来支持。 我创建了相关issue,会尽量在1.10.1把它修复了。 [1] https://issues.apache.org/jira/browse/FLINK-16688 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:33 AM Chief wrote: > hi all: >         现在

Re: rowtime 的类型序列化问题

2020-03-19 文章 Jingsong Li
Hi lucas, 看起来这个是query event_time字段的bug,TimeIndicatorTypeInfo导致的问题。 如果你用的是1.10,可以建个JIRA来跟踪这个问题。 Best, Jingsong Lee On Fri, Mar 20, 2020 at 11:40 AM lucas.wu wrote: > Hi all: > 建表语句 > create table `source_table`( > `SeqNo` varchar, > `Type` varchar, > `Table` varchar, > `ServerId` varchar, > `D

Re: ddl

2020-03-19 文章 Jingsong Li
Hi, 底层实现的话可以参考下[1] [1] https://github.com/apache/bahir-flink/tree/master/flink-connector-kudu Best, Jingsong Lee On Thu, Mar 19, 2020 at 11:30 PM hiliuxg <736742...@qq.com> wrote: > 你可以自己定义tablesinkfactory,flink已经预留了这个接口 > > > > > -- 原始邮件 -- > 发件人: "LakeShen" 发送

Re: Flink SQL:Too few memory segments provided. Hash Join needs at least 33 memory segments.

2020-03-20 文章 Jingsong Li
Hi, - 看堆栈你是用了老的planner,推荐使用blink planner. - 如果要在老planner上解决问题,提高Taskmanager的manage内存试试。 Best, Jingsong Lee On Fri, Mar 20, 2020 at 4:41 PM 烟虫李彦卓 <1229766...@qq.com> wrote: > Hi, All: > > 我在使用Flink1.10.0的SQL时,遇到了一个问题: > > > Caused by: java.lang.IllegalArgumentException: Too few memory segmen

Re: Flink SQL1.10 大表join如何优化?

2020-03-22 文章 Jingsong Li
gments > > 2020-03-21 09:23:16,598 INFO > > org.apache.flink.table.runtime.hashtable.BinaryHashBucketArea - The > rehash > > take 9 ms for 65536 segments > > 2020-03-21 09:23:16,611 INFO > > org.apache.flink.table.runtime.hashtable.BinaryHashBucketArea - T

Re: Flink SQL1.10 大表join如何优化?

2020-03-22 文章 Jingsong Li
行度都是1了... > > > | | > xinghalo > | > | > xingh...@163.com > | > 签名由网易邮箱大师定制 > > > 在2020年03月23日 09:33,Jingsong Li 写道: > Hi, > > 看起来你的Join SQL是有Key等值条件的,所以它可以做分布式的Join。 > 但是你的并发为1,一般来说我们分布式的计算都不会设成1,不然就是单机运算了。 > > 就像Kurt所说, 修改你的并发: > table.exec.reso

Re: Flink SQL1.10 大表join如何优化?

2020-03-22 文章 Jingsong Li
只有source(包括和source chain起来的算子)的并行度是推断的,后续shuffle过后的节点都是依赖这个参数。 Best, Jingsong Lee On Mon, Mar 23, 2020 at 11:01 AM 111 wrote: > Hi jingsong, > 非常感谢,我以为这里的并行度是自动推断的, 没注意这个参数。我试试哈 > > > | | > xinghalo > | > | > xingh...@163.com > | > 签名由网易邮箱大师定制 > > > 在

Re: Flink 1.10 的 JDBCUpsertOutputFormat flush方法的重试机制无法生效

2020-03-23 文章 Jingsong Li
Hi, 是否[1]能解决你的问题呢?还是说需要单独判断不同的exceptions? [1] https://issues.apache.org/jira/browse/FLINK-16281 Best, Jingsong Lee On Mon, Mar 23, 2020 at 2:34 PM lucas.wu wrote: > hi ,我们之前写mysql遇到过这种问题,因为任务的open函数是任务启动的时候调用的,是只调用一次的。而open函数里面会对jdbc > connection进行初始化,当jdbc > conection因为各种原因断开的时候,例如空闲时间超过max_

Re: Flink 1.10 的 JDBCUpsertOutputFormat flush方法的重试机制无法生效

2020-03-23 文章 Jingsong Li
,这里的重试如果加上判断,如果connection被关闭,则进行重新尝试连接,直到三次都异常才退出,这样会不会更好点。 > > > > > -- 原始邮件 ------ > 发件人: "Jingsong Li" 发送时间: 2020年3月23日(星期一) 下午3:19 > 收件人: "user-zh" > 主题: Re: Flink 1.10 的 JDBCUpsertOutputFormat flush方法的重试机制无法生效 > >

Re: 关于flink sql 1.10 source并行度自动推断的疑问

2020-03-25 文章 Jingsong Li
Hi, 就像Zhenghua所说,各个tasks是去抢split的,而不是平均分配,所以一旦后面的tasks没有调度起来,前面的tasks会把split抢光的。 但是少slots多并发的场景并不少见,前面tasks读取太多数据可能会让性能/容错都不友好。所以我们也需要引入平均分配的策略。创建了个JIRA [1], FYI. [1]https://issues.apache.org/jira/browse/FLINK-16787 Best, Jingsong Lee On Wed, Mar 25, 2020 at 6:25 PM Chief wrote: > hi Zhenghu

Re: (无主题)

2020-03-26 文章 Jingsong Li
Hi, - 是否是计算规模的问题? 集群大小合适吗?并发合适吗? - 是否是Plan不优的问题? Hive的表有做Analysis吗? CC: user Best, Jingsong Lee On Thu, Mar 26, 2020 at 8:27 PM 被惊艳的时光 <2521929...@qq.com> wrote: > > hello,你好,有个关于flink-sql-benchmark工具的问题需要请教下,在做tpc-ds测试时,当数据量达到4T时(flink版本1.10),q43,q67,q70这三条sql执行出错了,都是在hashjoin的时候失败啦,报错信息是has

Re: flinksql如何控制结果输出的频率

2020-03-26 文章 Jingsong Li
Hi, For #1: 创建级联的两级window: - 1分钟窗口 - 5分钟窗口,计算只是保存数据,发送明细数据结果 Best, Jingsong Lee

Re: Flink实时写入hive异常

2020-03-31 文章 Jingsong Li
t into > xxx_table时,报了如下异常。这个看不懂啥原因,求大神指教。 > cc @Jingsong Li @Jark Wu > > > > > org.apache.flink.table.api.TableException: Stream Tables can only be > emitted by AppendStreamTableSink, RetractStreamTableSink, or &g

Re: Re: Flink实时写入hive异常

2020-04-01 文章 Jingsong Li
t; enough rules to produce a node with desired properties > > > > > > > 在 2020-04-01 14:49:41,"Jingsong Li" 写道: > >Hi, > > > >异常的意思是现在hive sink还不支持streaming模式,只能用于batch模式中。功能正在开发中[1] > > > >[1] > >https://cwiki.apache.org/confluence

Re: Re: Re: Flink实时写入hive异常

2020-04-01 文章 Jingsong Li
; > > > > > > 在 2020-04-01 15:01:32,"Jingsong Li" 写道: > > Hi, > > Batch模式来支持Kafka -> Hive,也是不推荐的哦,FLIP-115后才可以在streaming模式支持这类场景。 > > 你可以描述下详细堆栈、应用场景、SQL吗? > > Best, > Jingsong Lee > > On Wed, Apr 1,

Re: Flink实时写入hive异常

2020-04-01 文章 Jingsong Li
1么? > > > > > > > > > > > > > > > > > 在 2020-04-01 15:01:32,"Jingsong Li" 写道: > > Hi, > > > Batch模式来支持Kafka -> Hive,也是不推荐的哦,FLIP-115后才可以在streaming模式支持这类场景。 > > > 你可以描述下详细堆栈、应用场景、SQL吗? >

Re: Flink实时写入hive异常

2020-04-01 文章 Jingsong Li
是的,有关的,这个umbrella issue就是FLIP-115. Best, Jingsong Lee On Wed, Apr 1, 2020 at 10:57 PM 叶贤勋 wrote: > Hi jingsong, > 我看这个issue[1] 你提了关于支持hive streaming sink的两个pr,这部分代码是否跟Flip-115相关? > > > [1] https://issues.apache.org/jira/browse/FLINK-14255 > > > | | > 叶贤勋 > | > | > yxx_c...@163.com > | > 签名由网易邮箱

Re: Flink 1.10.0 HiveModule 函数问题

2020-04-01 文章 Jingsong Li
Hi, GenericUDTFExplode是一个UDTF。 Flink中使用UDTF的方式是标准SQL的方式: "select x from db1.nested, lateral table(explode(a)) as T(x)" 你试下。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/functions/udfs.html#table-functions Best, Jingsong Lee On Thu, Apr 2, 2020 at 11:22 AM Yaoting Gong

Re: 关于Flink1.10.0 flink-hbase guava依赖冲突问题

2020-04-09 文章 Jingsong Li
Hi, 是的,作业运行起来是没问题的,因为都shade过,但是很不幸的是IDEA运行单测就会有问题。。。 目前可以通过mvn test的方式来运行单测。 Best, Jingsong Lee On Thu, Apr 9, 2020 at 9:34 PM Yun Gao wrote: > 现在的现象是作业运行起来会有报错么?能发一下pom和大体的作业的样子不? > > > -- > From:111 > Send Time:2020 Apr. 9 (Th

Re: flink sql ddl 不支持primary key

2020-04-14 文章 Jingsong Li
Hi, 是的,现在是不支持,老的sink没有使用这个primary key来做upsert,但是在1.11里新的sink接口会打通DDL的primary key的。[1] [1]https://issues.apache.org/jira/browse/FLINK-17030 Best, Jingsong Lee On Tue, Apr 14, 2020 at 5:38 PM 叶贤勋 wrote: > Hi all: > 我看源码在将sqlNode转换CreateTableOperator[1]时,还是不支持primary key配置,但是sql > parser是已经能

Re: flink sql string char 不兼容?

2020-04-21 文章 Jingsong Li
Hi, - 首先1.10中把char Insert到varchar中是支持的,可以再check下哪里有没有问题吗? - 'false'应该是char(5)而不是char(4) Best, Jingsong Lee On Tue, Apr 21, 2020 at 9:01 PM Leonard Xu wrote: > Hi > > CHAR(n) 、VARCHAR 在SQL语义里是不同的类型,SQL里写的 ‘false’ 常量会解析到CHAR(n) > 因为常量长度已经确定会选择使用CHAR(n), > 目前是Flink还不支持CHAR(n) 和 VARCHAR 类型之间的隐式转换,

Re: 关于StreamingFileSink

2020-04-22 文章 Jingsong Li
Hi, 按我的理解:.part-4-13.inprogressx/part-4-14.inprogressx 就是残留文件了,因为它所在checkpoint并没有finish,所以它不会被读到,也不会影响作业的运行,也不会继续改变了。 Best, Jingsong Lee On Tue, Apr 21, 2020 at 4:38 PM Leonard Xu wrote: > Hello,图挂了,可以搞个图床了挂链接到邮件列表。。。 > 另外问下为什么不从最新的cp开始恢复作业呢?这样我理解会有脏数据吧。 > > > 在 2020年4月19日,23:23,Yu

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-22 文章 Jingsong Li
Hi, 先确认下你的Jar包里有没有 meta-inf-services的文件?里面确定有Kafka? 如果有,再确认下"TableEnvironmentImpl.sqlQuery"调用时候的ThreadClassLoader? 因为现在默认是通过ThreadClassLoader来获取Factory的。 Best, Jingsong Lee On Wed, Apr 22, 2020 at 5:30 PM 宇张 wrote: > 我这面使用Standalone模式运行Flink任务,但是Uber > Jar里面的TableSourceFactory不能被加载,即使设置了class

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-22 文章 Jingsong Li
-1.10.0/bin/flink run -c com.data.main.StreamMain > ./flink_1.10_test-1.0-jar-with-dependencies.jar) > 3、再确认下"TableEnvironmentImpl.sqlQuery"调用时候的ThreadClassLoader? > 这个指的是打印当前线程的classloader嘛Thread.currentThread().getContextClassLoader() > > > > On Wed, Apr 22, 2020 at 6:00 PM Jingsong

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-22 文章 Jingsong Li
able.factories.TableFactory的内容,里面有没有KafkaTableSourceSinkFactory > > 这个没有,只有org.apache.flink.formats.json.JsonRowFormatFactory > > 》拿到ClassLoader后看下能不能取到KafkaTableSourceSinkFactory的class > > 这个能拿到 > > > > 这么看来 貌似是 mvn打包有问题: > > mvn clean package -DskipTests > &

Re: 关于RetractStream流写mysql出现java.sql.SQLException: No value specified for parameter 1问题

2020-04-22 文章 Jingsong Li
Hi, - JDBC是upsert sink,所以你需要toUpsertStream,而不是toRetractStream,建议你用完整的DDL来插入mysql的表。 - 这个异常看起来是JDBC的bug,你可以建个JIRA来跟踪吗? Best, Jingsong Lee On Wed, Apr 22, 2020 at 9:58 PM 1101300123 wrote: > > > 我在SQL关联后把结果写入mysql出现 No value specified for parameter 1错误? > 我的版本是1.10.0,代码如下 > JDBCUpsertT

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-22 文章 Jingsong Li
> > > implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"> > > com.akulaku.data.main.StreamMain > > > > > > *:* > > META-INF/*.SF > META-INF/*.DSA >

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-23 文章 Jingsong Li
> >> > > META-INF/*.SF > >> > > META-INF/*.DSA > >> > > META-INF/*.RSA > >> > > > >> > > > >> > > > >> > > > >> > > > >> > >

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-23 文章 Jingsong Li
; On Thu, Apr 23, 2020 at 3:43 PM Jingsong Li > wrote: > > > > 如果是这样,听起来 client 的 classloading 策略没啥问题,似乎是 SPI 加载那边的 ClassLoader > > 有问题。之前FileSystem 相关解析就出过类似的 ClassLoader 的 BUG > > > > @tison 不管怎么样,也得保证jar里的SPI文件包含Kafka的类,不然SPI没法找 > > > > @宇张 建议你仔细看下[1]

Re: 关于Flink1.10 Standalone 模式任务提交

2020-04-23 文章 Jingsong Li
.plugins.shade.resource.ApacheNoticeResourceTransformer"> > Apache Flink > UTF-8 > > > implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"> > com.akulaku.data.main.StreamMain > > > > > On Thu, Apr 23

Re: retract的问题

2020-04-23 文章 Jingsong Li
可以建个JIRA来更新文档吗?现在retract的文档的确有点confuse Best, Jingsong Lee On Thu, Apr 23, 2020 at 4:33 PM Benchao Li wrote: > 阿里云上提供的Blink应该是内部版本,跟社区版本有些不一样。我刚才说的都是基于社区版本的。 > > lec ssmi 于2020年4月23日周四 下午4:29写道: > > > 奇怪,目前我们使用阿里云的Blink,使用了join前的两个流,都是通过last_value 加上over > > window做的,然后再做的join,然后将join的结果进行tumbl

Re: Blink模式下运用collect方法快速获取结果

2020-04-24 文章 Jingsong Li
1.10里面有TableUtils了,里面有collectToList Best, Jingsong Lee On Fri, Apr 24, 2020 at 2:49 PM jun su wrote: > hi all, > > 找到了源码中BatchTableEnvUtil类使用了CollectTableSink来做collect的逻辑, > 但是下方代码运用了源码内部的private方法, 看起来不允许外部调用: > > def collect[T]( > tEnv: TableEnvironment, > table: Table, > sink: C

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-26 文章 Jingsong Li
Thanks Dian for managing this release! Best, Jingsong Lee On Sun, Apr 26, 2020 at 7:17 PM Jark Wu wrote: > Thanks Dian for being the release manager and thanks all who make this > possible. > > Best, > Jark > > On Sun, 26 Apr 2020 at 18:06, Leonard Xu wrote: > > > Thanks Dian for the release a

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jingsong Li
Hi, 你是在用Dataset还是SQL? 如果是Dataset或是Datastream 先把文件筛选出来,然后FileInputFormat.setFilePaths? Best, Jingsong Lee On Sun, Apr 26, 2020 at 10:01 PM 无痕 <95509...@qq.com> wrote: > HI ALL : >      请问下,flink批方式如何读取多路径文件或通配符文件?如下: >            /abc/202004*/t1.data  > 读2020年4月所有t1.data文件; >            /abc/20

user-zh@flink.apache.org

2020-04-26 文章 Jingsong Li
能生效 Table中就是使用FlinkKafkaProducer的,它就是一个TwoPhaseCommitSinkFunction Best, Jingsong Lee On Mon, Apr 27, 2020 at 10:50 AM lec ssmi wrote: > Hi: >将TwoPhaseCommitSinkFunction 在TableAPI中的Sink实现,能够生效吗?看案例都是DataStream > API在使用。 > 谢谢。 > -- Best, Jingsong Lee

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jingsong Li
FYI: 建了个ISSUE来支持通配符。 Best, Jingsong Lee On Mon, Apr 27, 2020 at 9:29 AM Jingsong Li wrote: > Hi, > > 你是在用Dataset还是SQL? > > 如果是Dataset或是Datastream > 先把文件筛选出来,然后FileInputFormat.setFilePaths? > > Best, > Jingsong Lee > > On Sun, Apr 26, 2020 at 10:01 PM 无痕 <

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-27 文章 Jingsong Li
; * @return True if the FileInputFormat supports multiple paths, false > otherwise. > * > * @deprecated Will be removed for Flink 2.0. > */ > @Deprecated > public boolean supportsMultiPaths() { >return false; > } > > > > > -- 原始邮件 -

Re: [DISCUSS] Hierarchies in ConfigOption

2020-04-29 文章 Jingsong Li
Thanks Timo for staring the discussion. I am +1 for "format: 'json'". Take a look to Dawid's yaml case: connector: 'filesystem' path: '...' format: 'json' format: option1: '...' option2: '...' option3: '...' Is this work? According to my understanding, 'format' key is the attribute o

Re: [DISCUSS] Hierarchies in ConfigOption

2020-04-29 文章 Jingsong Li
n' value.format.option: option1: '...' option2: '...' Best, Jingsong Lee On Thu, Apr 30, 2020 at 10:16 AM Jingsong Li wrote: > Thanks Timo for staring the discussion. > > I am +1 for "format: 'json'". > Take a look to Dawid's y

Re: flink sql 处理时间 时区问题

2020-05-05 文章 Jingsong Li
Hi, 这可能是个Bug。 Blink中默认使用timestamp WITHOUT time zone,所以它是无时区的。 而proctime目前还是带时区的产生了时间,我理解可能是应该产生无时区的时间。 CC: @Jark Wu @Zhenghua Gao Best, Jingsong Lee On Tue, May 5, 2020 at 5:43 PM 祝尚 <17626017...@163.com> wrote: > 同问,等待大佬回答 > > > 2020年5月1日 下午5:26,hb <343122...@163.com> 写道: > > > > > > > > `

Re: 关于 generic type 的问题

2020-05-05 文章 Jingsong Li
Hi, 因为List是有泛型来指定field的具体类型的,所以flink在以前没有能自动推断出来。 看起来只能用Types.POJO来自己构造PojoTypeInfo了。你可以用以下方式来指定type info: @TypeInfo(your type info factory) class pojo{ String name; List someList; } Best, Jingsong Lee On Thu, Apr 30, 2020 at 9:15 PM a511955993 wrote: > hi,咨询一个问题,我们在定义实体的时候,如果属性中使用了List,就会被

Re: Re:FlinkSQL Retraction 问题原理咨询

2020-05-05 文章 Jingsong Li
Hi, 问题一:删除数据可不单单只是retract stream的功能。upsert stream是当下游具有按key覆盖的功能时的特殊优化,除了按key覆盖外,它也需要在上游retract时删除数据,意思是upsert stream也有retract的input数据的。JDBC实现的是upsert stream的消费。 问题二:正确数据应该是: 1 {"order_id":1,"tms_company":"zhongtong"} 数据库1条记录: zhongtong 1 2 {"order_id":1,"tms_company":"yuantong"} 数据库1条记录

Re: Re:FlinkSQL Retraction 问题原理咨询

2020-05-05 文章 Jingsong Li
1 4 + zhongtong 1 > > 第1条消息:执行一个 INSERT > 第2条消息:执行了 一个 DELETE, 一个 INSERT > 第3条消息:执行了一个 INSERT ON DUPLICATE UPDATE > 第4条消息:执行了两个 INSERT ON DUPLICATE UPDATE > > > 我总结这个逻辑应该是如果 回撤导致的结果变成 0 ,就会执行 delete , 否则就是INSERT ON DUPLICATE UPDATE > > 不知道我这样理解是否正确。 > >

Re: Flink 查询hive表 初始化 Savepoint

2020-05-06 文章 Jingsong Li
Hi, 后续有规划Savepoint支持BoundedStream(在DataStream上构建批执行) 目前作为work around,或许你可以考虑先用Blink sql写到文件里(parquet,orc),再从文件里用Dataset读出来? Best, Jingsong Lee On Wed, May 6, 2020 at 7:45 PM Benchao Li wrote: > Hi, > > Blink planner是不支持Table API跟DataSet API互转的。 > Blink planner是批流统一的架构,不是基于DataSet API实现的批。 > >

Re: flink窗口函数AggregateFunction中,merge的作用和应用场景

2020-05-06 文章 Jingsong Li
Hi, 首先merge会不会导致结果不准确是完全看你的实现,这里你 的需求看起来并没有实现上的困难。 merge这个接口就是为了优化性能才提出的,就像Benchao说的那样,如果你实现了merge,引擎会给做一些pane的优化。 当然前提是merge是有效率提升的,具体根据你的实现和测试来判断。 Best, Jingsong Lee On Wed, May 6, 2020 at 9:22 PM Benchao Li wrote: > Hi, > > 如果你用的sliding window,应该是也需要实现merge的。因为sliding window本身做了一个pane的优化。

Re: flink窗口函数AggregateFunction中,merge的作用和应用场景

2020-05-06 文章 Jingsong Li
同时用set记录每个出现的数值,然后在merge的时候,将set进行合并,重新计算一遍。保证结果的准确。(没有想到以增量更新的方式准确更新merge后的结果)。可以些idea吗 > > Thanks, > Zhefu > > On Wed, May 6, 2020 at 22:00 Jingsong Li wrote: > > > Hi, > > > > 首先merge会不会导致结果不准确是完全看你的实现,这里你 的需求看起来并没有实现上的困难。 > > > > merge这个接口就是为了优化性能

Re: flink 1.10 使用 createTemporaryTable 注册表,SQL 使用 order by 报错

2020-05-07 文章 Jingsong Li
Hi, 就像异常所说,streaming sql不支持非时间字段的order by。 你是怎么来指定时间字段的呢? Best, Jingsong Lee On Fri, May 8, 2020 at 9:52 AM Hito Zhu wrote: > hi all, > flink 1.10 建议使用 createTemporaryTable 方法代替 registerTableSource > 方法,替换后报错,错误信息和SQL如下: > > Exception in thread "main" org.apache.flink.table.api.TableException:

Re: 关于flink1.10.0使用HiveModule的问题

2020-05-08 文章 Jingsong Li
Hi, 你是怎么用HiveModule的?还保留了CoreModule吗? Best, Jingsong Lee On Fri, May 8, 2020 at 4:14 PM like wrote: > 各位大佬好, > 目前我在使用HiveModule的过程中碰到了一些问题,在未使用HiveModule的时候用了REGEXP_REPLACE > 函数,这是可以正常使用的,在使用HiveModule之后却出现了问题,当我把字符替换为空的时候就会报错 > REGEXP_REPLACE('abcd', 'a', ''),大家有碰到这个问题吗?或者我能选择使用flink或者h

Re: 关于flink1.10.0使用HiveModule的问题

2020-05-08 文章 Jingsong Li
ableEnv.useDatabase("default") > tableEnv.loadModule("myhive", new HiveModule("1.2.1")) > > > > > 在2020年5月8日 16:30,Jingsong Li 写道: > Hi, > > 你是怎么用HiveModule的?还保留了CoreModule吗? > > Best, > Jingsong Lee > > On Fri, May 8, 2020 at 4:14 PM li

Re: flink sql提交读取hive的批作业出现 异常“scala MatchError : MAP”

2020-05-18 文章 Jingsong Li
Hi 云鹤, 图挂了,另外你可以发送下完整的SQL吗?(因为没看到aggregation的SQL,而异常看起来是aggregation的地方报出来的) 不好意思,这应该是Flink的bug。 Map是不支持order by,但是Map类型可以用来group by,也就是说我们需要考虑Map的类型的Shuffle(Hash)和SortAggregation(Compare)。 你可以创建一个JIRA来跟踪吗? Best, Jingsong Lee On Tue, May 19, 2020 at 11:15 AM 邹云鹤 wrote: > > Hi: > 本人使用flink sq

Re: flink sql提交读取hive的批作业出现 异常“scala MatchError : MAP”

2020-05-18 文章 Jingsong Li
eError(UnitCompiler.java:12124) > at > org.codehaus.janino.UnitCompiler.findIMethod(UnitCompiler.java:8997) > at > org.codehaus.janino.UnitCompiler.compileGet2(UnitCompiler.java:5060) > at > org.codehaus.janino.UnitCompiler.access$9100(UnitCompiler.java:215) >

Re: flink1.10怎么获得flink-shaded-hadoop包以支持hadoop3.2.1?

2020-05-19 文章 Jingsong Li
Hi, 如果能用环境变量HADOOP_CLASSPATH,最好用. [1] https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/hadoop.html#providing-hadoop-classes Best, Jingsong Lee On Wed, May 20, 2020 at 10:22 AM 刘大龙 wrote: > Hi, > 你可以看一下这两个链接: > 1: https://www.mail-archive.com/dev@flink.apache.org/msg37293.

Re: Flink convert Table to DataSet[Row]

2020-05-19 文章 Jingsong Li
Hi, 没看见有附件,请问为啥需要转车DateSet,Table里有啥搞不定呢? Best, Jingsong Lee On Wed, May 20, 2020 at 1:26 PM 张锴 wrote: > 我在测试将hive查询出的数据转换成DataSet[Row]时,出现一些无法解决的问题,代码和异常 在附件中,麻烦各位小伙伴给看一下。 > -- Best, Jingsong Lee

Re: flink sql使用维表关联时报Temporal table join currently only supports 'FOR SYSTEM_TIME AS OF' left table's proctime field, doesn't support 'PROCTIME()'

2020-05-19 文章 Jingsong Li
Hi Junbao, Xinghalo, 抱歉,现在HiveCatalog保存proctime字段是有bug的,[1]。所以就像你说的,proctime不能在建表时创建。需要在select的时候基于PROCTIME()函数生成,这样来绕过。 正在修复中,你也可以打上patch来试试,或者等下1.11.0或1.10.2的发布。 [1]https://issues.apache.org/jira/browse/FLINK-17189 Best, Jingsong Lee On Wed, May 20, 2020 at 1:58 PM wind.fly@outlook.com <

Re: Flink convert Table to DataSet[Row]

2020-05-19 文章 Jingsong Li
不好意思, 还是看不到你的图,可以考虑copy异常栈。 方便问一下后续的指标计算用Table/SQL搞不定吗? Best, Jingsong Lee On Wed, May 20, 2020 at 1:52 PM 张锴 wrote: > [image: 微信图片_20200520132244.png] > [image: 微信图片_20200520132343.png] > > Jingsong Li 于2020年5月20日周三 下午1:30写道: > >> Hi, >> >> 没看见有附件,请问为啥需要转

Re: 关于FlinkSQL slot数量过多的问题

2020-05-19 文章 Jingsong Li
Hi xinghalo, 第一点,限制最大slot的申请数量,千呼万唤终于在1.11有了这个feature.[1] 配置ResourceManagerOptions.MAX_SLOT_NUM(slotmanager.number-of-slots.max). 1.11即将发布。 第二点, 2.1 Batch作业默认是全blocking的边,所以Slot share是不生效的,在1.11会有更灵活的边配置:[2] 2.2 关于slotsharingGroup,两个source 在batch的配置下,是无法slotsharing的,这是由于table的batch主动配置的。[3] [1]h

Re: Flink convert Table to DataSet[Row]

2020-05-19 文章 Jingsong Li
Set[Row] // conversion to DataSet > .print() > > } > > Exception in thread "main" > org.apache.flink.table.api.ValidationException: Only tables that originate > from Scala DataSets can be converted to Scala DataSets. > at > > org.apache.flink.table.a

Re: Flink convert Table to DataSet[Row]

2020-05-20 文章 Jingsong Li
可能也有问题,flink planner可能已经不支持hive connector了。 On Wed, May 20, 2020 at 2:57 PM 张锴 wrote: > 我用的是flink1.10的,那意思只能用flink planner的方式了吗 > > Jingsong Li 于2020年5月20日周三 下午2:55写道: > > > blink planner是不支持和Dataset的转换的。 > > > > Best, > > Jingsong Lee > > >

Re: flink1.10.x 解析 arrar 问题

2020-05-20 文章 Jingsong Li
谢谢Benchao的回答。 虽然可以work around,但是这看起来应该是blink planner要去支持的事情。 我建个JIRA去跟踪下:https://issues.apache.org/jira/browse/FLINK-17855 Best, Jingsong Lee On Wed, May 20, 2020 at 8:02 PM 了不起的盖茨比 <573693...@qq.com> wrote: > 谢谢大佬,终于弄好了。谢谢。 > public TypeInformation return new > RowTypeInfo(Types.OBJECT_ARR

Re: flink如何正则读取hdfs下的文件

2020-05-20 文章 Jingsong Li
Hi, 志华, 如果在Datastream层,你可以使用FiIenputFormat.setFilesFilter来设置文件的过滤器。 目前Table层并不原生支持filter,你可以考虑自己写一个table connector。 但是更推荐的是你能把这个事情换成partition来处理,这个支持的会更自然些。 jimandlice, - 如果是1.10或以前,你需要写一个Datastream作业加上StreamingFileSink来写入Hive,并且列存格式只有parquet的支持。[1] - 如果是1.11(正在测试发布中),Table/SQL层原生支持streaming file

Re: flink如何正则读取hdfs下的文件

2020-05-21 文章 Jingsong Li
t;] > at > org.apache.flink.runtime.rest.RestClient.parseResponse(RestClient.java:389) > at > org.apache.flink.runtime.rest.RestClient.lambda$submitRequest$3(RestClient.java:373) > at > java.util.concurrent.CompletableFuture.uniCompose(CompletableFuture.java:952) >

Re: 按照官网进行flink-shell操作,出现无法解决的错误:Only BatchTableSource and InputFormatTableSource are supported in BatchTableEnvironment.

2020-05-21 文章 Jingsong Li
Hi, 不好意思,现在版本hive connector已经不支持old planner了, 但是scala shell还是默认old planner。 Best, Jingsong Lee On Thu, May 21, 2020 at 3:24 PM 张锴 wrote: > 具体操作及错误信息我贴到下面,各位大佬帮忙看下如何解决,不知道是不是BUG。 > > scala> import org.apache.flink.table.catalog.hive.HiveCatalog > import org.apache.flink.table.catalog.hive.HiveC

Re: 按照官网进行flink-shell操作,出现无法解决的错误:Only BatchTableSource and InputFormatTableSource are supported in BatchTableEnvironment.

2020-05-21 文章 Jingsong Li
li.com/video/BV1Te411W73b?p=10 > > > > 也可以到这个钉钉群讨论: 30022475 > > > > Jingsong Li 于2020年5月21日周四 下午4:43写道: > > > > > Hi, > > > > > > 不好意思,现在版本hive connector已经不支持old planner了, > > > 但是scala shell还是默认old planner。 > > > > >

Re: flink如何正则读取hdfs下的文件

2020-05-21 文章 Jingsong Li
t; Signature is customized by Netease Mail Master > > 在2020年05月21日 15:02,Jingsong Li 写道: > 看起来是因为你客户端和Server端的依赖不一致导致的问题,你检查下客户端的jars? > > Best, > Jingsong Lee > > On Thu, May 21, 2020 at 2:57 PM 阿华田 wrote: > > > public static void main(S

Re: flink如何正则读取hdfs下的文件

2020-05-21 文章 Jingsong Li
1.11还没发布,文档还在编写中 Best, Jingsong Lee On Thu, May 21, 2020 at 7:33 PM jimandlice wrote: > 1.11的话 能提供一个demo么 > > > > > | | > jimandlice > | > | > 邮箱:jimandl...@163.com > | > > Signature is customized by Netease Mail Master > > 在2020年05月21日 19:31,J

Re: flink proctime error

2020-05-21 文章 Jingsong Li
Hi, - proctime是虚拟的一个列。 - rowtime是有真实数据的列。 看起来你需要在sink_table里定义rowtime,比如像这样: CREATE TABLE sink_table ( ip VARCHAR, proctime timestamp(3), WATERMARK FOR proctime AS proctime ) Best, Jingsong Lee On Thu, May 21, 2020 at 9:17 PM Benchao Li wrote: > 看你提供的SQL来讲

Re: flink正则读取hdfs目录下的文件

2020-05-22 文章 Jingsong Li
Hi, 我们在1.11已经支持了较完整的filesystem支持,并且支持分区。(csv,json,avro,parquet,orc) 对于灵活的read,争取在1.12完成。已经有issue了: https://issues.apache.org/jira/browse/FLINK-17398 Best, Jingsong Lee On Fri, May 22, 2020 at 10:47 AM 阿华田 wrote: > input_data = "hdfs://localhost:9002/tmp/match_bak/%s*[0-9]" % > ('2018-07-16’)

Re: Flink SQL UDF 动态类型

2020-06-09 文章 Jingsong Li
Hi all, 业务上一般是可以避免动态类型的UDF的,如果有刚需,1.11已经支持了[1],文档还在路上,一个简单的例子根据第一个参数来推断返回类型: @Override public TypeInference getTypeInference(DataTypeFactory typeFactory) { return TypeInference.newBuilder() .outputTypeStrategy(TypeStrategies.argument(0)) .build(); } [1]https://issues.apache.org/j

Re: TTL 支不支持自然日

2020-06-10 文章 Jingsong Li
Hi, 我觉得可以有基于watermark的状态清理这种机制。 但是 SQL的语义不太好描述这种机制,所以业务上能不能算出一个day来加上?比如group by的字段加上这个day,这样可以隔天后数据独立? Best, Jingsong Lee On Wed, Jun 10, 2020 at 3:12 PM star <3149768...@qq.com> wrote: > 感谢您的建议,实时和离线的sink的目标表是一样的。 > 举个场景: > 比如计算用户购买商品的种类数量(select count(distinct product) from > order),这种计算需要基

Re: kafka相关问题

2020-06-10 文章 Jingsong Li
Hi, 小学生 你可以仔细描述下你的业务场景吗?然后再描述下问题,没懂到底是想要什么。 Best, Jingsong Lee On Wed, Jun 10, 2020 at 3:46 PM 方盛凯 wrote: > 那你可以调整sql语句,例如使用limit关键字, topN 或使用自定义的方法,具体的你可以根据你的sql语句不断调整. > 如有错误欢迎指正 > > 小学生 <201782...@qq.com> 于2020年6月10日周三 下午3:26写道: > > > 您好,我是通过select * from > > table_ddl这个去触发的,但是就是因为table_ddl

Re: [ANNOUNCE] Yu Li is now part of the Flink PMC

2020-06-16 文章 Jingsong Li
Congratulations Yu, well deserved! Best, Jingsong On Wed, Jun 17, 2020 at 1:42 PM Yuan Mei wrote: > Congrats, Yu! > > GXGX & well deserved!! > > Best Regards, > > Yuan > > On Wed, Jun 17, 2020 at 9:15 AM jincheng sun > wrote: > >> Hi all, >> >> On behalf of the Flink PMC, I'm happy to announce

Re: flinksql

2020-06-28 文章 Jingsong Li
Hi, 在1.11之前,注意:flink sql-client只能创建flink的表而不是hive的表。 如果你用create table t (i int, j int);的这个一个简短的语句,是不能创建出flink表来的。完整的Flink表需要with参数。[1] 在1.11中支持的hive dialect,才支持用create table t (i int, j int);这种简单的DDL创建Hive表。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html

Re: Re: 【Flink在sink端的Exactly once语义】

2020-06-28 文章 Jingsong Li
Hi, 补充Benchao的观点: - 除了kafka以外,还有StreamingFileSink也是exactly-once不多不少的。 - 对于Mysql、ES,这种支持主键更新的,在upsert语义下(比如一个count(*) from t group by),数据是最终一致的。所以我理解数据也是不多不少的exactly once语义。 Best, Jingsong Lee On Mon, Jun 22, 2020 at 11:46 AM 程龙 <13162790...@163.com> wrote: > 需要自己实现比如幂等操作 比如通过表示为操作 > > > > > > >

Re: flink sql能否显示地创造一列null行

2020-06-29 文章 Jingsong Li
Hi, 我记得NULL的literal是可以的,不过需要cast成确定的类型,比如 select CAST(null AS VARCHAR); 你试试。 Best, Jingsong On Tue, Jun 30, 2020 at 9:40 AM seeksst wrote: > Hi, > > > 按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。 > 显示的NULL是不行的,你可以使用更复杂的方式进行对齐: > case when 1 = 2 then 1 end as 字段 > 1永远不可能等于2,又没有else分支,所以结果是会

Re: 回复: 关于拓展 Tuple元组的问题

2020-06-29 文章 Jingsong Li
> 用Row 和 Tuple 性能上会有差别吗? 理论上有细微的差别, 但是,基本上性能瓶颈不会在这里。。所以你应该感受不到 Best, Jingsong On Tue, Jun 30, 2020 at 8:51 AM zhisheng wrote: > 可以测试一下 > > Tianwang Li 于2020年6月29日周一 下午8:13写道: > > > > > > > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么? > > > > > 用Row 和 Tuple 性能上会有差别吗? > > > > Jark Wu 于2020年6月19日周五

Re: flink batch on yarn任务容错

2020-06-29 文章 Jingsong Li
Hi, 1.10后的Flink是支持单task的failover的,(需要batch shuffle和region调度) 所以容错粒度是基于单task。 批作业的Failover模型和流是不一样的。它就是基于单task,如果想要达到较好的容错,可以开更大的并行度,这样单task执行的时间会越短,failover效率也就会越高。 Best, Jingsong On Tue, Jun 30, 2020 at 9:41 AM 张波 <173603...@qq.com> wrote: > hi,zhisheng 使用stream是否可以使任务因为单个tm失败的情况下,只重启这个tm,而非重

Re: UDTAGGs sql的查询怎么写

2020-07-01 文章 Jingsong Li
Hi, 因为UDTAGGs不属于标准SQL的语法,所以只有TableApi Best, Jingsong On Thu, Jul 2, 2020 at 11:10 AM liangji wrote: > > https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/functions/udfs.html#table-aggregation-functions > 请问下UDTAGGs支持sql的写法吗,怎么写?看官档上只有table api的示例。 > > > > -- > Sent from: h

Re: kafkaf To mysql 写入问题

2020-07-02 文章 Jingsong Li
Hi, 估计需要使用Flink 1.11。 1.JSON Format有参数控制 [1] 2.是之前的bug,Flink 1.11应该是不会存在了,不确定1.10.1有没有修。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connectors/formats/json.html#json-ignore-parse-errors Best, Jingsong On Fri, Jul 3, 2020 at 1:38 PM 郑斌斌 wrote: > dear: >请教两个问题 > 1

Re: table execution-options 能否通过 -yd 生效

2020-07-03 文章 Jingsong Li
Hi, 如果你是写代码来使用TableEnvironment的, 你要显示的在代码中塞进TableConfig中: Configuration configuration = tEnv.getConfig().getConfiguration(); configuration.addAll(GlobalConfiguration.loadConfiguration()); CC: @Yang Wang GlobalConfiguration是个internal的类,有没有public API获取对应的Configuration? Best, Jingsong On Fri, Ju

Re: 【Flink的shuffle mode】

2020-07-05 文章 Jingsong Li
Hi, 现在就两种:pipeline和batch batch的话是block住,直到执行完毕才发给下游的,所以这个shuffle mode一般只对批作业有用。 理论上可以per transformation的来设置,see PartitionTransformation. Best, Jingsong On Sun, Jul 5, 2020 at 10:48 PM 忝忝向仧 <153488...@qq.com> wrote: > Hi,all: > > > 看Flink源码时候,在应用中使用keyBy后,源码的transformations会有shuffle mode方法,这个s

Re: 【Flink的shuffle mode】

2020-07-05 文章 Jingsong Li
shuffle操作和没有shuffle的,是都要等这个shuffle操作完成了才能一起发给下游,还是说其他非shuffle操作完成了可以先发给下游,不用等shuffle操作完成一起再发送? > > > > 发自我的iPhone > > > -- 原始邮件 ------ > 发件人: Jingsong Li 发送时间: 2020年7月6日 11:03 > 收件人: user-zh 主题: 回复:【Flink的shuffle mode】 > > > > Hi,

Re: 回复:flink Sql 1.11 executeSql报No operators defined in streaming topology

2020-07-08 文章 Jingsong Li
Hi, 你的代码里:streamTableEnv.executeSql,它的意思就是已经提交到集群异步的去执行了。 所以你后面 "streamExecutionEnv.execute("from kafka sink hbase")" 并没有真正的物理节点。你不用再调用了。 Best, Jingsong On Wed, Jul 8, 2020 at 3:56 PM Zhou Zach wrote: > > > > 代码结构改成这样的了: > > > > > val streamExecutionEnv = StreamExecutionEnvironment.getExecuti

Re: flink 1.11 使用sql写入hdfs无法自动提交分区

2020-07-09 文章 Jingsong Li
Hi, 默认情况下,对ORC来说,理论上一旦有正式数据文件的生成,就会有对应SUCCESS文件产生,你是怎么确认没有SUCCESS文件的呢? 我用同样SQL在我的环境是有的。 Best, Jingsong On Fri, Jul 10, 2020 at 9:07 AM Jun Zhang wrote: > 大家好: > 我在用flink 1.11 的sql从kafka消费然后写入hdfs的过程中,发现没法自动提交分区,请问这个是什么原因呢?谢谢 > > > 我的checkpoint设置了间隔10s,对于如下的配置,正常应该是每隔10在hdfs相应的分区下会有_SUCCESS文件,

Re: flink 1.11 使用sql写入hdfs无法自动提交分区

2020-07-10 文章 Jingsong Li
l file,比如 file:///tmp/aaa ,而不是hdfs,也会有success文件生成。 > > > 综上,在并行度设置为1,消费的是kafka的永不停止的数据,写入的是hdfs,我的checkpoint设置是10s,这种情况下,我测试了好多遍,都没有success文件生成。 > > Jingsong Li 于2020年7月10日周五 下午2:54写道: > > > Hi, > > > > 默认情况下,对ORC来说,理论上一旦有正式数据文件的生成,就会有对应SUCCESS文件产生,你是怎么确认没有SUC

Re: Table options do not contain an option key 'connector' for discovering a connector.

2020-07-13 文章 Jingsong Li
Hi, 你用了HiveCatalog了吗?Hive表或Hive方言必须要结合HiveCatalog 不然就只能用Filesystem connector,如果你使用filesystem也报错,那就贴下报错信息 Best, Jingsong On Mon, Jul 13, 2020 at 2:58 PM Zhou Zach wrote: > flink 1.11 sink hive table的connector设置为什么啊,尝试设置 > WITH('connector'='filesystem','path'='...','format'='parquet','sink.part

Re: flink sql报错 Could not find any factory for identifier 'kafka'

2020-07-13 文章 Jingsong Li
Hi, 1.推荐方式:把flink-sql-connector-kafka-0.11_2.11-1.11.0.jar放入lib下。下载链接:[1] 2.次推荐方式:你的java工程打包时,需要用shade插件把kafka相关类shade到最终的jar中。(不能用jar-with-deps,因为它会覆盖掉java spi) [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/kafka.html Best, Jingsong On Mon, Jul 13, 2020

Re: 使用hive 作为元数据 catalag 的问题

2020-07-13 文章 Jingsong Li
图挂了 Best, Jingsong On Mon, Jul 13, 2020 at 4:46 PM steven chen wrote: > hi: > > 这种是什么问题? > > > > > -- Best, Jingsong Lee

Re: Re: Table options do not contain an option key 'connector' for discovering a connector.

2020-07-13 文章 Jingsong Li
.kind'='metastore' > > > > > > > > > > > > > > > > > > At 2020-07-13 15:01:28, "Jingsong Li" wrote: > >Hi, > > > >你用了HiveCatalog了吗?Hive表或Hive方言必须要结合HiveCatalog > > > >不然就只能用Filesystem connector,如果你

Re: Re: Re: Table options do not contain an option key 'connector' for discovering a connector.

2020-07-13 文章 Jingsong Li
ic.EventTime) > streamExecutionEnv.enableCheckpointing(5 * 1000, > CheckpointingMode.EXACTLY_ONCE) > streamExecutionEnv.getCheckpointConfig.setCheckpointTimeout(10 * 1000) > > > > > 间隔5s,超时10s,不过,等了2分多钟,hdfs上写入了10几个文件了,查hive还是没数据 > > > > > > > > > > > > &

Re: 回复:Re: Re: Table options do not contain an option key 'connector' for discovering a connector.

2020-07-13 文章 Jingsong Li
ionEnv.enableCheckpointing(5 * 1000, > CheckpointingMode.EXACTLY_ONCE) > streamExecutionEnv.getCheckpointConfig.setCheckpointTimeout(10 * 1000) > > > > > 间隔5s,超时10s,不过,等了2分多钟,hdfs上写入了10几个文件了,查hive还是没数据 > > > > > > > > > > > > > >

  1   2   3   >