回复:关于flink sql并行度问题的请教

2020-09-04 文章 faaron zheng
Hi, HiveTableSource默认会根据数据大小自行分配并发,所以和你设置的最大并发冲突了,你可以设置table. exec. hive. infer-source-parallelism: false来关闭这个功能 Best, Faaron Zheng 在2020年09月04日 15:29,me 写道: val tableConfig = tableEnv.getConfig.getConfiguration tableConfig.setString("table.exec.resource.default-parallelism","4&q

回复:flink sql client 如何同时执行多条 sql 语句

2020-09-04 文章 faaron zheng
Hi, sql-client目前应该是没有这个能力的,它是交互式执行的,我们之前在sql-client的基础上改过一个类似beeline -e/-f的脚本,主要修改的提交任务的地方。 Best, Faaron Zheng 在2020年09月04日 17:04,LittleFall 写道: 我有一个 sql 文件,它里面有不少 flink sql 的创建表的语句和查询语句,现在我想要通过 sql client 提交这些任务,却只能一句一句的复制粘贴。如果同时复制粘贴多条语句就会报错,在 flink sql client 中使用 source xxx.sql 也会报错。 请问用什么样的

回复:请教一下flink链接hive的权限控制

2020-08-25 文章 faaron zheng
wrote: > 我们当前用的是kerberos认证,需要额外配置什么么? xiaoyan hua 邮箱:xiaoyanhua...@gmail.com 签名由 > 网易邮箱大师 定制 在2020年08月25日 15:54,faaron zheng 写道: Hi all, 我在使用flink > sql-client链接hive metastore的时候,发现好像没有做任何权限控制,可以访问所有的表?这一块是没做么?有什么计划么? -- Best regards! Rui Li

请教一下flink链接hive的权限控制

2020-08-25 文章 faaron zheng
Hi all, 我在使用flink sql-client链接hive metastore的时候,发现好像没有做任何权限控制,可以访问所有的表?这一块是没做么?有什么计划么?

回复:flink1.10中hive module 没有plus,greaterThan等函数

2020-08-20 文章 faaron zheng
Thanks,原来是我的打开方式不对 在2020年08月21日 11:17,Rui Li 写道: 是只用了hive module么?建议的方式是同时加载hive module和core module,解析函数的时候会根据加载的顺序去每个module里查找。 On Fri, Aug 21, 2020 at 11:06 AM faaron zheng wrote: > Hi all, 我在使用flink1.10的sql-client时候发现使用hive module时会缺少某些core module > 中的build-in function比如plus,greaterT

flink1.10中hive module 没有plus,greaterThan等函数

2020-08-20 文章 faaron zheng
Hi all, 我在使用flink1.10的sql-client时候发现使用hive module时会缺少某些core module 中的build-in function比如plus,greaterThan。这会导致同样的sql core module可以执行成功,hive module却会报错,比如在使用row_number() over()时候。这是什么原因?

Flink 1.10中是否有接口或方法获取批任务执行进度

2020-06-23 文章 faaron zheng
Flink 1.10中是否有接口或方法获取批任务执行进度,百分比? faaron zheng 邮箱:faaronzh...@gmail.com 签名由 网易邮箱大师 定制

回复:flink-1.10 checkpoint 偶尔报 NullPointerException

2020-05-09 文章 faaron zheng
ava:887) >> >>    at org.apache.flink.streaming.runtime.tasks.StreamTask$$Lambda$229/1010499540.run(UnknownSource) >> >>    at org.apache.flink.streaming.runtime.tasks.StreamTaskActionExecutor$SynchronizedStreamTaskActionExecutor.runThrowing(StreamTaskActionExecutor.java:94) >> >>    at org.apache.flink.streaming.runtime.tasks.StreamTask.performCheckpoint(StreamTask.java:860) >> >>    at org.apache.flink.streaming.runtime.tasks.StreamTask.triggerCheckpoint(StreamTask.java:793) >> >>    ... 12 more faaron zheng 邮箱:faaronzh...@gmail.com 签名由 网易邮箱大师 定制

回复:Flink1.10执行sql超出内存限制被yarn杀掉

2020-03-27 文章 faaron zheng
陷,在极个别情况下有可能会限制不住。可以尝试关闭    RocksDB 的内存控制,这样 RocksDB 会使用默认缓存大小,不会随着 Flink TM    的增大而增大。配置项:state.backend.rocksdb.memory.managed Thank you~ Xintong Song On Mon, Mar 23, 2020 at 10:15 PM LakeShen wrote: > Hi farron , > > 能否在详细描述一下你的 SQL 的逻辑 > > > > faaron zheng 于2

Flink1.10执行sql超出内存限制被yarn杀掉

2020-03-23 文章 faaron zheng
大家好,我在用flink1.10执行sql时,当数据比较大的时候,3T左右,100多亿条数据,在执行hash和sort的时候经常超出内存限制,被yarn杀掉,我的tm给了40g内存,每个有10个slot,每个slot3g内存。我也试过给更大的内存,但是没什么效果。不知道这是什么原因?

Flink任务AMRMToken失效问题

2020-02-20 文章 faaron zheng
Hi,大家好, 请教一个flink任务正常运行一段时间后因为AMRMToken失效导致任务失败的问题。当前使用的环境Flink1.7.2,使用kerberos鉴权,hadoop3.1.1。 JM日志一直checkpoint正常,突然报了附件的错误  社区有个相关的issue单,Flink-12623但是说是和hadoop版本有关的。想问下除了这个原因还有什么原因会导致这个问题出现么?

Flink 1.10执行tpc-ds求助

2020-02-17 文章 faaron zheng
我用的是之前flink tpc-ds性能优化比赛的代码来执行tpc-ds, flink版本是1.10。简单的修改了一下flink源码中ParquetTableSource的构造函数,支持传递TableSchema。但是在运行query1的时候报了如下的错,在校验数据源的时候decimal精度和范围不一致导致,而数据本生的格式就是Decimal(7,2)。请问这个校验是必须的么?我是应该在哪里转换么?  

Flink向量化读取parquet

2020-01-13 文章 faaron zheng
flink使用的是hadoop中的parquetfilereader,这个貌似不支持向量化读取,hive和spark目前都支持向量化读取,请加一下flink有什么计划吗?

回复:Flink1.9批任务yn和ys对任务的影响

2019-12-26 文章 faaron zheng
了解了,感谢三位。我的slot上包括一个hash-join一个hash-agg,加起来刚好256mb。不过因为存在slotsharing的原因,感觉并不容易提前判断。 faaron zheng 邮箱:faaronzh...@gmail.com 签名由 网易邮箱大师 定制 在2019年12月26日 15:09,JingsongLee 写道: Hi faaron zheng, 如kurt所说,强烈建议使用1.10,现在已拉分支。 TM运行的一个经验值是:TM有10个Slot,TM内存10G:JVM堆内4G、1G网络buffer、manage内存5G(也就是说单个slot的manage内存

回复:Flink1.9批任务yn和ys对任务的影响

2019-12-25 文章 faaron zheng
感谢回复,我确认了下,ys为10的时候,hashjoin请求的slot内存为256m,而我的tm managed memory为2g,也就是一个slot平均200m,所以任务没调度起来。 但是我还有个疑问,批任务如何在任务提交前确定单个slot应该分多少内存,有没有一般性的方法或经验? faaron zheng 邮箱:faaronzh...@gmail.com 签名由 网易邮箱大师 定制 在2019年12月26日 11:23,faaron zheng 写道: 感谢回复,我确认了下,ys为10的时候,hashjoin请求的slot内存为256m,而我的tm managed

回复:Flink1.9批任务yn和ys对任务的影响

2019-12-25 文章 faaron zheng
感谢回复,我确认了下,ys为10的时候,hashjoin请求的slot内存为256m,而我的tm managed memory为2g,也就是一个slot平均200m,所以任务没调度起来。 但是我还有个疑问,批任务如何在任务提交前确定单个slot应该分多少内存,有没有一般性的方法或经验? faaron zheng 邮箱:faaronzh...@gmail.com 签名由 网易邮箱大师 定制 在2019年12月25日 11:30,Xintong Song 写道: Hi faaron, Flink 1.9 中 -yn参数应该是不生效的,后续版本中已经删除了这个参数。 根据你的参数,在每个

Flink1.9批任务yn和ys对任务的影响

2019-12-24 文章 faaron zheng
跑tpcds的query1: flink run -m yarn-cluster -d -p 100 -yn 20 -ys 5 -yjm 60g -ytm 30g 任务可以正常执行 flink run -m yarn-cluster -d -p 100 -yn 10 -ys 10 -yjm 60g -ytm 30g 任务在做hashjoin的时候就会失败 报错是No pooled slot available and request to ResourceManager for new slot failed 搞不懂这有啥关系,求指教 faaron zheng 邮箱