只有一条SQL,只是数据量比较大,使用的BATCH模式。 SELECT price
FROM hive.data.data1 ORDER BY price DESC 在 2021-12-22 18:35:13,"刘建刚" <[email protected]> 写道: >你的SQL是怎么写的?两个独立的SQL吗?Flink中有个参数table.dml-sync >,决定是否多条SQL语句顺序执行,默认是false,也就是多条语句是同时执行的。 > >RS <[email protected]> 于2021年12月22日周三 09:25写道: > >> 跑了10几个小时终于跑完了,测试发现BATCH模式下,只有Source把所有数据消费完,后面的SortLimit plan才会创建,和流模式不太一样 >> >> >> >> >> 在 2021-12-21 20:06:08,"RS" <[email protected]> 写道: >> >slot资源是绝对充足的,你提到的资源还涉及到其他资源吗? >> > >> > >> > >> > >> > >> >在 2021-12-21 17:57:21,"刘建刚" <[email protected]> 写道: >> >> >>固定资源的情况下,batch的调度会按照拓扑顺序执行算子。如果你的资源只够运行一个source,那么等source运行完毕后才能运行SortLimit。 >> >> >> >>RS <[email protected]> 于2021年12月21日周二 16:53写道: >> >> >> >>> hi, >> >>> >> >>> 版本:flink1.14 >> >>> >> >>> 模式:batch >> >>> >> >>> 测试场景:消费hive大量数据,计算某个字段的 top 10 >> >>> >> >>> >> >>> >> 使用sql-client测试,创建任务之后,生成2个plan,一个Source,一个SortLimit。Source状态为RUNNING,SortLimit状态一直为CREATED。 >> >>> >> >>> 请问下,SortLimit状态一直为CREATED是正常现象吗? >> >>> >> >>> 数据量比较大,全部消费完的话,估计得好几天时间,BATCH模式下,SortLimit的状态需要等所有数据全部消费完才改变吗? >> >>> >> >>> >> >>> >> >>> >> >>> 测试SQL: >> >>> >> >>> SELECT price >> >>> >> >>> FROM hive.data.data1 >> >>> >> >>> ORDER BY price DESC >> >>> >> >>> LIMIT 10; >>
