回复:hive 进行 overwrite 合并数据后文件变大?

2022-02-23 文章 Shuai Xia
emmm,你看下这个能不能帮到你 https://jxeditor.github.io/2020/06/10/Hive%E5%8E%8B%E7%BC%A9%E6%95%88%E6%9E%9C%E4%B8%8D%E6%98%8E%E6%98%BE%E8%B8%A9%E5%9D%91%E8%AE%B0%E5%BD%95/ -- 发件人:RS 发送时间:2022年2月22日(星期二) 09:36 收件人:user-zh 主 题:hive 进行 overwrite

回复:flink 1.11 cp size越来越大

2021-03-29 文章 Shuai Xia
Hi,有看过HDFS上真实的CK文件大小么,可以参考下这个邮件 http://apache-flink.147419.n8.nabble.com/Flink-sql-checkpoint-td10176.html#a10200 -- 发件人:liangji 发送时间:2021年3月26日(星期五) 16:39 收件人:user-zh 主 题:flink 1.11 cp size越来越大 读取kafka数据写入mysql 1、部分代码如下

回复:关于statement输出结果疑问

2021-03-17 文章 Shuai Xia
Hi,大佬,想问下如果使用Lazy调度模式,情况会是什么样子 -- 发件人:Dian Fu 发送时间:2021年3月15日(星期一) 15:49 收件人:刘杰鸿 抄 送:user-zh 主 题:Re: 关于statement输出结果疑问 奥,那你理解错了。这里面其实细分成2种情况: - sink1和sink2,通过operator

回复:FLINK 消费kafka 报错java.lang.OutOfMemoryError: Direct buffer memory

2021-02-18 文章 Shuai Xia
能看下webUI上的内存使用情况么,看下这三个内存的使用情况 再检查下代码是不是用了Native方法 Framework Off-Heap默认128M Task Off-Heap默认0 Network默认TM Total的0.1 -- 发件人:flink2021 发送时间:2021年2月18日(星期四) 16:36 收件人:user-zh 主 题:FLINK 消费kafka 报错java.lang.OutOfMemoryError: Direct

回复:Flink 1.11 SQL可以支持kafka动态分区发现么?

2021-01-19 文章 Shuai Xia
Hi,看下FlinkKafkaConsumerBase内有没有使用,有的话就是支持的 -- 发件人:sunfulin 发送时间:2021年1月20日(星期三) 14:40 收件人:user-zh 主 题:Flink 1.11 SQL可以支持kafka动态分区发现么? hi, 各位大神,请教下,1.11的sql作业,如何能实现动态分区发现呐?我在1.12的文档里发现有个参数可以设置,但是1.11的版本里貌似没有。想确认下能否支持? --

回复:请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 Shuai Xia
Hi,可以看下KafkaTopicPartitionAssigner类的assign方式 是根据Topic名称哈希之后对并行度取余,加上分区值再次对并行度取余 最终的结果分配是存在不均匀 -- 发件人:bradyMk 发送时间:2020年12月21日(星期一) 17:40 收件人:user-zh 主 题:请教一个flink消费多kafka topic如何进行数据分配的问题 Hi~想请教一下大家: 现在我用flink消费5个不同的kafka

回复:kafka的多分区watermark

2020-12-13 文章 Shuai Xia
Hi,没有太理解你的意思,这个MyType只是说你可以把Kafka的数据反序列化后使用,像SimpleStringSchema默认是String,你可以对他进行解析 -- 发件人:张锴 发送时间:2020年12月14日(星期一) 13:51 收件人:user-zh 主 题:kafka的多分区watermark 在官网看到对于Kafka分区的时间戳定义描述,给出了示例,如下图: FlinkKafkaConsumer09 kafkaSource = new

回复:修改topic名称后从Savepoint重启会怎么消费Kafka

2020-12-01 文章 Shuai Xia
, KafkaTopicPartitionStateSentinel.EARLIEST_OFFSET); } } -- 发件人:熊云昆 发送时间:2020年12月1日(星期二) 22:57 收件人:user-zh ; Shuai Xia 主 题:Re:修改topic名称后从Savepoint重启会怎么消费Kafka 可以手动控制的,如果不设置默认是从最新位置开始消费,否则按照你的startup-mode来 在 2020-12-01

修改topic名称后从Savepoint重启会怎么消费Kafka

2020-12-01 文章 Shuai Xia
Hi,大佬们 突然有一个疑问点,Flink消费kafka的Job保存了SP之后停止,修改代码中的topic名称之后重启。 会从新topic的哪里开始消费?与startup-mode一致,还是从最新呢? 可以手动控制么?

FlinkSQL使用Hive自定义函数报类找不到

2020-11-26 文章 Shuai Xia
Hi,FlinkSQL使用Hive的自定义函数,是不是需要将自定义的UDF包放入到flink/lib下 HiveCatalog和HiveModule都是加载了的,使用listFunctions是可以打印出自定义函数的 具体报错是在CatalogFunctionImpl的isGeneric方法中

UDTAGG在SQL中可以使用么,语法是什么

2020-11-11 文章 Shuai Xia
Hi,像TableAggregateFunction可以在SQL中使用么?

回复:flink1.11 读取kafka avro格式数据发序列化失败

2020-11-10 文章 Shuai Xia
Hi,可以试下输出下message的长度么? -- 发件人:奔跑的小飞袁 发送时间:2020年11月11日(星期三) 11:40 收件人:user-zh 主 题:flink1.11 读取kafka avro格式数据发序列化失败 hello 我在使用flink1.11版本读取kafka avro格式数据时遇到了错误,由于我们的avro特殊,因此源码稍微作了修改,以下是改动的代码片段 @Override public T

回复:关于flink1.11 新版本使用dataStreamEnv.execute 和tableEnv.execute出现No operators defined in streaming topology. Cannot generate StreamGraph.的问题

2020-10-26 文章 Shuai Xia
1.11之前TableEnvironmentImpl与StreamExecutionEnvironment的execute方法实现一致 无论用哪一个都可以 1.11修改了TableEnvironmentImpl中execute的实现逻辑 如果代码中涉及了DataStream的操作,则需要使用StreamExecutionEnvironment的execute方法 简单概述为: StreamTableEnvironment.execute() 只能执行 sqlUpdate 和 insertInto 方法执行作业 Table 转化为 DataStream 后只能通过

回复:回复:回复:flinksql指定kafka多topic

2020-10-26 文章 Shuai Xia
现在就可以使用,刚查了一下,你可以参考下ShengKai的 The config option `topic` and `topic-pattern` specifies the topics or topic pattern to consume for source. The config option `topic` can accept topic list using semicolon separator like 'topic-1;topic-2'.

回复:回复:flinksql指定kafka多topic

2020-10-26 文章 Shuai Xia
目前应该没有直接可以使用的方式,但是可以通过重写KafkaDynamicTableFactory来实现你要的结果,不知道社区在之后有没有考虑加上topic-separator -- 发件人:奔跑的小飞袁 发送时间:2020年10月26日(星期一) 14:23 收件人:user-zh 主 题:Re: 回复:flinksql指定kafka多topic 有没有一种更加友好的方式 使用topic-pattern的话在提供给非开发人员使用成本太高 --

回复:flinksql指定kafka多topic

2020-10-26 文章 Shuai Xia
Hi,可以试试用topic-pattern -- 发件人:奔跑的小飞袁 发送时间:2020年10月26日(星期一) 14:08 收件人:user-zh 主 题:flinksql指定kafka多topic hello, 我想问一下目前flinksql支持同时指定kafka的多topic吗,例如

回复:flink 报错 java.io.IOException: GET operation failed: Server side error: BLOB size exceeds the maximum size (2 GB).

2020-10-20 文章 Shuai Xia
Hi,原因是blobfile长度超过了int的最大值,可以开下debug么,打印下列日志 Received GET request for BLOB {}/{} from {}. -- 发件人:欧阳苗 发送时间:2020年10月20日(星期二) 15:58 收件人:user-zh 主 题:flink 报错 java.io.IOException: GET operation failed: Server side error: BLOB size

回复:回复: flink 自定义udf注册后不能使用

2020-10-16 文章 Shuai Xia
你好,没看错的话,只有一个参? -- 发件人:奔跑的小飞袁 发送时间:2020年10月16日(星期五) 14:18 收件人:user-zh 主 题:Re: 回复: flink 自定义udf注册后不能使用 完整的sql执行文件 SET stream.enableCheckpointing=1000*60; SET stream.setParallelism=4; CREATE FUNCTION imei_encrypt AS

回复:回复:Flink SQL format问题

2020-09-15 文章 Shuai Xia
U&'\\000A',代码也用了U&? -- 发件人:guaishushu1...@163.com 发送时间:2020年9月16日(星期三) 10:50 收件人:Shuai Xia 主 题:Re: 回复:Flink SQL format问题 表定义: 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.topic'

回复:Flink SQL format问题

2020-09-15 文章 Shuai Xia
Hi,麻烦代码以及报错贴一下 -- 发件人:guaishushu1...@163.com 发送时间:2020年9月16日(星期三) 10:29 收件人:user-zh 主 题:Flink SQL format问题 csv.field-delimiter csv.line-delimiter 想问下大佬们 官方文档说是可以设置这两个值,指定行分隔和字段分隔,但是在设置kafka sinkTable的时候会出现语法错误???很奇怪

回复:手动修改CK状态

2020-09-09 文章 Shuai Xia
/state_processor_api.html 在2020年9月9日 11:41,Shuai Xia 写道: Hi,各位大佬,如果我想手动读取修改CK存储的状态内容,可以使用什么办法,我记得之前有工具类可以支持

手动修改CK状态

2020-09-08 文章 Shuai Xia
Hi,各位大佬,如果我想手动读取修改CK存储的状态内容,可以使用什么办法,我记得之前有工具类可以支持

回复:回复:flink sql 1.11.1 could not insert hive orc record

2020-09-08 文章 Shuai Xia
改动其实很小,就那一句代码的事,主要就看你怎么编译而已 -- 发件人:大罗 发送时间:2020年9月8日(星期二) 17:05 收件人:user-zh 主 题:Re: 回复:flink sql 1.11.1 could not insert hive orc record 你的回答我觉得应该是解决问题的方向。 有没有guideline,或者类似的参考,我可以自己修改ORC源码并且编译使用呢? -- Sent from:

回复:flink sql 1.11.1 could not insert hive orc record

2020-09-08 文章 Shuai Xia
# 主要原因为Orc在新版本后使用的WriterVersion为ORC_517 # 导致低版本的Hive解析不了 # 自实现OrcFile类,修改回旧版本 static { CURRENT_WRITER = WriterVersion.HIVE_13083; memoryManager = null; } -- 发件人:大罗 发送时间:2020年9月8日(星期二) 16:55 收件人:user-zh 主 题:Re: flink sql

回复:flink sql 1.11.1 could not insert hive orc record

2020-09-08 文章 Shuai Xia
flink-orc模块版本应该只支持新版本,2.1.1支持不了,可以自己修改ORC源码 -- 发件人:大罗 发送时间:2020年9月8日(星期二) 16:55 收件人:user-zh 主 题:Re: flink sql 1.11.1 could not insert hive orc record Hi ,我例子中的hive orc表,不是事务表,如图: createtab_stmt CREATE TABLE `dest_orc`( `i`

回复:消费kafka数据乱序问题

2020-09-07 文章 Shuai Xia
可以通过设置Key的方式保证同一个账户的数据是有序的 -- 发件人:Danny Chan 发送时间:2020年9月8日(星期二) 11:12 收件人:user-zh 主 题:Re: 消费kafka数据乱序问题 你的 source 消费单/多 partition 数据相对 partition 来说仍然是有序的 只是 source 和下游 operator 如果存在数据 shuffle 就会破坏顺序,目前想保序,一种办法是 source