flink-savepoint问题
checkpoint 可以成功保存,但是savepoint出现错误: java.lang.Exception: Could not materialize checkpoint 2404 for operator KeyedProcess (21/48). at org.apache.flink.streaming.runtime.tasks.StreamTask$AsyncCheckpointRunnable.handleExecutionException(StreamTask.java:1100) at org.apache.flink.streaming.runtime.tasks.StreamTask$AsyncCheckpointRunnable.run(StreamTask.java:1042) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) at java.lang.Thread.run(Thread.java:745) Caused by: java.util.concurrent.ExecutionException: java.lang.IllegalArgumentException: Key group 0 is not in KeyGroupRange{startKeyGroup=54, endKeyGroup=55}. at java.util.concurrent.FutureTask.report(FutureTask.java:122) at java.util.concurrent.FutureTask.get(FutureTask.java:192) at org.apache.flink.runtime.concurrent.FutureUtils.runIfNotDoneAndGet(FutureUtils.java:450) at org.apache.flink.streaming.api.operators.OperatorSnapshotFinalizer.(OperatorSnapshotFinalizer.java:47) at org.apache.flink.streaming.runtime.tasks.StreamTask$AsyncCheckpointRunnable.run(StreamTask.java:1011) ... 3 more Caused by: java.lang.IllegalArgumentException: Key group 0 is not in KeyGroupRange{startKeyGroup=54, endKeyGroup=55}. at org.apache.flink.runtime.state.KeyGroupRangeOffsets.computeKeyGroupIndex(KeyGroupRangeOffsets.java:142) at org.apache.flink.runtime.state.KeyGroupRangeOffsets.setKeyGroupOffset(KeyGroupRangeOffsets.java:104) at org.apache.flink.contrib.streaming.state.snapshot.RocksFullSnapshotStrategy$SnapshotAsynchronousPartCallable.writeKVStateData(RocksFullSnapshotStrategy.java:314) at org.apache.flink.contrib.streaming.state.snapshot.RocksFullSnapshotStrategy$SnapshotAsynchronousPartCallable.writeSnapshotToOutputStream(RocksFullSnapshotStrategy.java:256) at org.apache.flink.contrib.streaming.state.snapshot.RocksFullSnapshotStrategy$SnapshotAsynchronousPartCallable.callInternal(RocksFullSnapshotStrategy.java:221) at org.apache.flink.contrib.streaming.state.snapshot.RocksFullSnapshotStrategy$SnapshotAsynchronousPartCallable.callInternal(RocksFullSnapshotStrategy.java:174) at org.apache.flink.runtime.state.AsyncSnapshotCallable.call(AsyncSnapshotCallable.java:75) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at org.apache.flink.runtime.concurrent.FutureUtils.runIfNotDoneAndGet(FutureUtils.java:447) ... 5 more guaishushu1...@163.com
Flink-SQL-Connector扩展问题
在将旧版本升级至1.12版本中,需要支持proctime和eventime时发现 DefinedProctimeAttribute该方法已过期,但是查看官方文档https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/streaming/time_attributes.html#%E4%BD%BF%E7%94%A8-tablesource-%E5%AE%9A%E4%B9%89-1 实例仍然使用 DefinedProctimeAttribute该方法 且并没有说明替换方法? guaishushu1...@163.com
Flink SQL并发度问题
这几天研究了flink table 转化为stream node 的源码,发现是某个算子的并发度取决于上一个算子的并发度。 但是在实际测试过程中发现使用window aggregate 语句时候 该算子的并发度和上游的source不一致 和我cli 命令配置的并发度一致 这是为什么呢? guaishushu1...@163.com
Flink SQL时间序列化问题
Flink-1.12.0 SQL定义timestamp(3)格式出现时间解析问题 CREATE TABLE user_log1 ( user_id string, ts TIMESTAMP(3), proc_time as PROCTIME()) WITH ( Caused by: java.io.IOException: Failed to deserialize JSON '{"user_id":"1188","ts":"2021-02-19T17:52:20.921Z"}'. at org.apache.flink.formats.json.JsonRowDataDeserializationSchema guaishushu1...@163.com
Flink sql去重问题
看到社区文档说是Blink的去重是一种特殊Top-N。经了解Top-N会保留一个最小堆,麻烦问下那其他数据是被机制清除了,还是会保存在内存中呀。用了这个Blink去重还需要用Idle State Retention Time来设置状态的TTL吗? guaishushu1...@163.com
Flink catalog+hive问题
在用flink catalog+hive做元数据持久化的时候还存在几个问题 1. DDL的字段信息都在properties中导致字段无法增删改,只能重新建表; 2. 生成的表没有owner信息; 3. HMS的权限对于Flink + hive并没有作用,无权限也可以直接引用表; guaishushu1...@163.com 发件人: 19916726683 发送时间: 2020-12-24 13:59 收件人: user-zh 主题: Re: Flink catalog+hive问题 可以参考下这个 https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsPermissionsGuide.html 贴的代码是org.apache.hadoop.hive.io.HdfsUtils 的setFullFileStatus 方法 Original Message Sender:Rui lilirui.fu...@gmail.com Recipient:user-zhuser...@flink.apache.org Date:Thursday, Dec 24, 2020 11:33 Subject:Re: Flink catalog+hive问题 Hello, 你贴的图看不到了。可以贴一下参考的官网链接。hive至少支持三种不同的authorization模式,flink目前对接hive时只有用storage based authorization会生效。 On Thu, Dec 24, 2020 at 10:51 AM 19916726683 19916726...@163.com wrote: hive的官网有介绍ACL,如何继承权限关系。源码在Hive- HDFSUtils类中 核心代码应该是上面的这点。 Original Message *Sender:* Rui lilirui.fu...@gmail.com *Recipient:* user-zhuser...@flink.apache.org *Date:* Wednesday, Dec 23, 2020 19:41 *Subject:* Re: Flink catalog+hive问题 hive的ACL用的是哪种呢?目前flink没有专门做ACL的对接,只有HMS端storage based authorization [1] 会生效 [1]https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#LanguageManualAuthorization-1StorageBasedAuthorizationintheMetastoreServer On Wed, Dec 23, 2020 at 4:34 PM 19916726683 19916726...@163.com wrote: spark是可以通过配置来确定是用hive的acl还是用自己的acl,不清楚flink是不是也是这种模式 Original Message Sender:guaishushu1103@163.comguaishushu1...@163.com Recipient:user-zhuser...@flink.apache.org Date:Wednesday, Dec 23, 2020 15:53 Subject:Flink catalog+hive问题 在用flink catalog+hive做元数据持久化的时候,发现hive的ACL权限没有起作用,麻烦问下知道的大佬,flink是会直接跳过hive的ACL权限吗? guaishushu1...@163.com -- Best regards! Rui Li -- Best regards! Rui Li
Flink SQL并发度设置问题
Flink SQL中Source和sink可以通过修改connector配置实现并发度配置,而其他算子的并发度都是根据Source并发度来设置的,这样最多是128个并发度。但是有些算子做聚合等处理,128并发明显不够这个应该怎么解决呢?支持通过配置设置其他算子并发度吗? guaishushu1...@163.com
Flink catalog+hive问题
在用flink catalog+hive做元数据持久化的时候,发现hive的ACL权限没有起作用,麻烦问下知道的大佬,flink是会直接跳过hive的ACL权限吗? guaishushu1...@163.com
SQL解析复杂JSON问题
麻烦问下我已经在字段上面定了结构,还需要再写format.json-schema吗?CREATE TABLE user_log( id VARCHAR, timestam VARCHAR, user_info ROW(user_id string, name string ), jsonArray ARRAY ) WITH ( 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.topic' = 'complex_string', 'connector.properties.zookeeper.connect' = 'venn:2181', 'connector.properties.bootstrap.servers' = 'venn:9092', 'connector.startup-mode' = 'earliest-offset', 'format.type' = 'json', 'format.json-schema' = '{ "type": "object", "properties": { "id": {type: "string"}, "timestam": {type: "string"}, "user_info":{type: "object", "properties" : { "user_id" : {type:"string"}, "name":{type:"string"} } }, "jsonArray":{"type": "array", "items": { "type": "object", "properties" : { "user_id222" : {type:"string"}, "name222" : {type:"string"} } } } } }' ); guaishushu1...@163.com
Flink 任务提交问题
CliFrontend 向yarn上提交任务会因为资源不足等原因,导致任务提交进程一直卡着,直到有资源释放为止? guaishushu1...@163.com
Flink SQL create view问题
当create_view和LATERAL TABLE 共用时 会出现字段找不到异常 语法: CREATE TABLE billing_data_test ( message STRING create view v1 as select T.* from billing_data_test, LATERAL TABLE(SplitUdtf(message)) as T(scate1, scate2, belong_local1, ssrc2, gift, coupon, local_type); 异常: Caused by: org.apache.calcite.sql.validate.SqlValidatorException: Column 'message' not found in any table (com.dataplatform.flink.util.FlinkDebugThread) [2020-09-16 14:32:04,857] INFO --- at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) (com.dataplatform.flink.util.FlinkDebugThread) guaishushu1...@163.com
Flink SQL format问题
csv.field-delimiter csv.line-delimiter 想问下大佬们 官方文档说是可以设置这两个值,指定行分隔和字段分隔,但是在设置kafka sinkTable的时候会出现语法错误???很奇怪 guaishushu1...@163.com
RocksDBStateBackend 问题
想问下关于RocksDBStateBackend 是直接把状态存在rocksdb数据库,还是等内存满了再存到RocksDB数据库。如果直接存在RocksDB数据库,那岂不是很影响数据处理速度。 guaishushu1...@163.com
Flink log4j2 问题
SQL提交会出现这种问题??? Caused by: java.lang.IllegalArgumentException: Initial capacity must be at least one but was 0 at org.apache.logging.log4j.util.SortedArrayStringMap.(SortedArrayStringMap.java:102) at org.apache.logging.log4j.core.impl.ContextDataFactory.createContextData(ContextDataFactory.java:109) at org.apache.logging.log4j.core.impl.ContextDataFactory.(ContextDataFactory.java:57) ... 29 more guaishushu1...@163.com
Flink 启动问题
大佬们知道 flink 的-yt命令是不支持多个目录吗,而且只能上传到集群.jar文件吗??? guaishushu1...@163.com
Flink SQL血缘关系
哪位大佬知道,如果要做Flink SQL血缘关系是在sqlNode中拿表之间关系好,还是在Transformation 算子中拿血缘关系好 guaishushu1...@163.com
PyFlink 中间表
哪位大佬知道Flink 1.10 PyFlink支持中间表 或者支持这种写法吗 source = st_env.scan("source_kafka_ifang_dkt_log") dim_table = source.select("`cluster`, `caller`, `cid`,`content`, `ip` `path`, `type`") st_env.register_table('dim_table', dim_table) guaishushu1...@163.com
PyFlink 写入ES
PyFlink 从kafka写入ES 抛这个异常,但是host是正确的有哪位知道吗 File "main-0-8.py", line 74, in .host("http://es9223.db.58dns.org:9223;) TypeError: host() missing 2 required positional arguments: 'port' and 'protocol' guaishushu1...@163.com
维表实现无法加载配置文件
维表的Function是集成TableFunction,这样就没办法加载配置文件,大佬们有没有什么好的方式呀??? guaishushu1...@163.com
Flink CPU利用率低
想问下大佬们 Flink的cpu利用率这么低吗 0.012? guaishushu1...@163.com
Re: Re: flink-sql watermark问题
而且 flink不是只支持这种"-MM-dd'T'HH:mm:ss.SSS'Z'" 类型解析为watermark吗,就对这样有点疑惑 guaishushu1...@163.com 发件人: guaishushu1...@163.com 发送时间: 2020-05-29 10:20 收件人: Benchao Li 抄送: user-zh 主题: Re: Re: flink-sql watermark问题 就是我是long类型的时间戳,但是用TO_TIMESTAMP转换成'-MM-dd HH:mm:ss' 之后依然可以生成watermark。 guaishushu1...@163.com 发件人: Benchao Li 发送时间: 2020-05-28 17:00 收件人: user-zh 主题: Re: flink-sql watermark问题 Hi, 没太看明白你的问题是什么。目前的确是只支持Timestmap(3)作为事件时间列。 之所以还不支持long作为事件时间列,主要考虑的是时区问题。但是这个社区也在考虑,可以参考[1] [1] https://issues.apache.org/jira/browse/FLINK-16938 guaishushu1...@163.com 于2020年5月28日周四 下午4:22写道: > flink-1.10 sql只支持 timestamp(3) 类型字段生成watermark > 但是long这样转换后也可以生成watermark很奇怪? > CREATE TABLE user_log ( > response_size int, > rowtime BIGINT, > w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss'), > WATERMARK FOR w_ts AS w_ts - INTERVAL '5' SECOND --5秒的延迟 > ) > > > > guaishushu1...@163.com > -- Best, Benchao Li
Re: Re: flink-sql watermark问题
就是我是long类型的时间戳,但是用TO_TIMESTAMP转换成'-MM-dd HH:mm:ss' 之后依然可以生成watermark。 guaishushu1...@163.com 发件人: Benchao Li 发送时间: 2020-05-28 17:00 收件人: user-zh 主题: Re: flink-sql watermark问题 Hi, 没太看明白你的问题是什么。目前的确是只支持Timestmap(3)作为事件时间列。 之所以还不支持long作为事件时间列,主要考虑的是时区问题。但是这个社区也在考虑,可以参考[1] [1] https://issues.apache.org/jira/browse/FLINK-16938 guaishushu1...@163.com 于2020年5月28日周四 下午4:22写道: > flink-1.10 sql只支持 timestamp(3) 类型字段生成watermark > 但是long这样转换后也可以生成watermark很奇怪? > CREATE TABLE user_log ( > response_size int, > rowtime BIGINT, > w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss'), > WATERMARK FOR w_ts AS w_ts - INTERVAL '5' SECOND --5秒的延迟 > ) > > > > guaishushu1...@163.com > -- Best, Benchao Li
flink-sql watermark问题
flink-1.10 sql只支持 timestamp(3) 类型字段生成watermark 但是long这样转换后也可以生成watermark很奇怪? CREATE TABLE user_log ( response_size int, rowtime BIGINT, w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss'), WATERMARK FOR w_ts AS w_ts - INTERVAL '5' SECOND --5秒的延迟 ) guaishushu1...@163.com
flink-python 配置文件问题
使用命令-pysf 加载python配置文件 发现classpath并没有这个文件 guaishushu1...@163.com
flink+prometheus继承问题
自定义的flink metrics可以通过flink rest接口拿到数据,但是prometheus没有拿到,有人遇到这种问题吗 guaishushu1...@163.com
flink-table sink 与sql-cli结合案例
大佬们,flink-tablesink 实现与sql-cli结合有什么案例吗? guaishushu1...@163.com From: user-zh-digest-help Date: 2020-05-21 21:45 To: user-zh Subject: user-zh Digest 21 May 2020 13:45:23 - Issue 703 user-zh Digest 21 May 2020 13:45:23 - Issue 703 Topics (messages 3698 through 3702) 回å¤?:flink如何æ£åˆ™è¯»å?–hdfs下的文件 3698 by: jimandlice flink proctime error 3699 by: Á˲»ÆðµÄ¸Ç´Ä±È 3700 by: Benchao Li 3701 by: Jingsong Li 3702 by: Á˲»ÆðµÄ¸Ç´Ä±È Administrivia: - To post to the list, e-mail: user-zh@flink.apache.org To unsubscribe, e-mail: user-zh-digest-unsubscr...@flink.apache.org For additional commands, e-mail: user-zh-digest-h...@flink.apache.org --
这种复杂数据直接解析成null了
语句: CREATE TABLE A ( w_data STRING, w_table STRING, w_ts TIMESTAMP(3) CREATE TABLE B ( w_ts TIMESTAMP(3), city1_id STRING, cate3_id STRING, pay_order_id STRING ) insert into B select w_ts, 'test' as city1_id, ArrayIndexOf(w_data, 0) AS cate3_id, w_data as pay_order_id from A 部分数据 A {"w_es":1589870637000,"w_type":"INSERT","w_isDdl":false,"w_data":[{"pay_info":"channelId=82=89.0=0=0=02=4=89.0=success=32590183789575=00","online_fee":"89.0","sign":"00","account_pay_fee":"0.0"}],"w_ts":"2020-05-20T13:58:37.131Z","w_table":"111"} B {"w_ts":"2020-05-20T13:58:37.131Z","city1_id":"test","cate3_id":null,"pay_order_id":""} guaishushu1...@163.com 发件人: Leonard Xu 发送时间: 2020-05-20 16:03 收件人: user-zh 主题: Re: Flink 1.10-SQL解析复杂json问题 Hi, guaishushu 贴query或者图床链接吧,flink-sql中的json的解析支持是比较全的[1],可以把json的 schema 和 异常数据贴下吗? 用个单元测试应该就可以复现问题 Best, Leonard [1] https://github.com/apache/flink/blob/master/flink-formats/flink-json/src/test/java/org/apache/flink/formats/json/JsonRowDeserializationSchemaTest.java <https://github.com/apache/flink/blob/master/flink-formats/flink-json/src/test/java/org/apache/flink/formats/json/JsonRowDeserializationSchemaTest.java> > 在 2020年5月20日,15:51,guaishushu1...@163.com <mailto:guaishushu1...@163.com> 写道: > > kafka数据写入kafka 数据,flink1.10-sql解析复杂json中字段为string,导致数据丢失。 > > > > > > > > guaishushu1...@163.com <mailto:guaishushu1...@163.com>
Flink 1.10-SQL解析复杂json问题
kafka数据写入kafka 数据,flink1.10-sql解析复杂json中字段为string,导致数据丢失。 语句: CREATE TABLE A ( w_data STRING, w_table STRING, w_ts TIMESTAMP(3) CREATE TABLE B ( w_ts TIMESTAMP(3), city1_id STRING, cate3_id STRING, pay_order_id STRING ) insert into B select w_ts, 'test' as city1_id, ArrayIndexOf(w_data, 0) AS cate3_id, w_data as pay_order_id from A 部分数据 A {"w_es":1589870637000,"w_type":"INSERT","w_isDdl":false,"w_data":[{"pay_info":"channelId=82=89.0=0=0=02=4=89.0=success=32590183789575=00","online_fee":"89.0","sign":"00","account_pay_fee":"0.0"}],"w_ts":"2020-05-20T13:58:37.131Z","w_table":"111"} B {"w_ts":"2020-05-20T13:58:37.131Z","city1_id":"test","cate3_id":null,"pay_order_id":""} guaishushu1...@163.com
Flink 1.10-SQL解析复杂json问题
kafka数据写入kafka 数据,flink1.10-sql解析复杂json中字段为string,导致数据丢失。 guaishushu1...@163.com
Flink-SQL on yarn 的bug
insert into t_report_realtime_fangxin2_order1 SELECT date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND),'-MM-dd') as summary_date, date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND), '-MM-dd hh') as summary_hour, date_format(TUMBLE_END(w_ts, INTERVAL '60' SECOND), '-MM-dd hh:mm') as summary_minute, 'all' as city1_id, 'all' as cate3_id, count(DISTINCT(pay_order_id)) as order_num_dj3 FROM ( select w_ts, JsonIndexOf(ArrayIndexOf(w_data, 0), 'city_id') as city1_id, JsonIndexOf(ArrayIndexOf(w_data, 0), 'three_level_cate_id') as cate3_id, JsonIndexOf(ArrayIndexOf(w_data, 0), 'pay_order_id') as pay_order_id from hdp_lbg_huangye_payorder_binlog ) GROUP BY TUMBLE(w_ts, INTERVAL '60' SECOND) ; 定义了eventime属性,但是算子并没有watermarks 导致数据一致不能输出 guaishushu1...@163.com
Re: Re: flink-1.10 on yarn日志输出问题
Yarn webUI 也查不到日志内容,日志都输出到.err文件里面了,flink和yarn查不到日志。 guaishushu1...@163.com 发件人: LakeShen 发送时间: 2020-05-09 11:18 收件人: user-zh 主题: Re: flink-1.10 on yarn日志输出问题 Yarn 日志的话,直接根据 任务的 Application ID ,去 Yarn 的 Web UI 上面看吧。 Best, LakeShen guaishushu1...@163.com 于2020年5月8日周五 下午3:43写道: > 日志全部输出到.err日志里面了,flink-web也看不到日志有人知道吗? > > -- > guaishushu1...@163.com >
Flink-1.10-SQL TopN语法问题
hi 大家,我在使用TopN语法,往mysql写数据时,发现必须将rownum设置为数据库的主键,要不然会报错,有人遇到吗 guaishushu1...@163.com
flink-1.10 on yarn日志输出问题
日志全部输出到.err日志里面了,flink-web也看不到日志有人知道吗? guaishushu1...@163.com
flink-1.10-sql 维表问题
hi 大家 想问下flink-1.10-sql支持维表DDL吗,看社区文档好像mysql和hbase支持,但是需要什么字段显示声明为创建的表是维表呀? guaishushu1...@163.com
希望获得一份编译后的1.6版本以上flink源码
因windows系统搭载虚拟机环境,总是不能成功编译flink源码,所以希望能得到一份编译后的1.6版本以上的flink源码 guaishushu1...@163.com