Re:Re: Re:Re: batch模式下任务plan的状态一直为CREATED

RS Wed, 22 Dec 2021 18:30:04 -0800

只有一条SQL，只是数据量比较大，使用的BATCH模式。
SELECT price


FROM hive.data.data1

ORDER BY price DESC



在 2021-12-22 18:35:13，"刘建刚" <[email protected]> 写道：
>你的SQL是怎么写的？两个独立的SQL吗？Flink中有个参数table.dml-sync
>，决定是否多条SQL语句顺序执行，默认是false，也就是多条语句是同时执行的。
>
>RS <[email protected]> 于2021年12月22日周三 09:25写道：
>
>> 跑了10几个小时终于跑完了，测试发现BATCH模式下，只有Source把所有数据消费完，后面的SortLimit plan才会创建，和流模式不太一样
>>
>>
>>
>>
>> 在 2021-12-21 20:06:08，"RS" <[email protected]> 写道：
>> >slot资源是绝对充足的，你提到的资源还涉及到其他资源吗？
>> >
>> >
>> >
>> >
>> >
>> >在 2021-12-21 17:57:21，"刘建刚" <[email protected]> 写道：
>>
>> >>固定资源的情况下，batch的调度会按照拓扑顺序执行算子。如果你的资源只够运行一个source，那么等source运行完毕后才能运行SortLimit。
>> >>
>> >>RS <[email protected]> 于2021年12月21日周二 16:53写道：
>> >>
>> >>> hi，
>> >>>
>> >>> 版本：flink1.14
>> >>>
>> >>> 模式：batch
>> >>>
>> >>> 测试场景：消费hive大量数据，计算某个字段的 top 10
>> >>>
>> >>>
>> >>>
>> 使用sql-client测试，创建任务之后，生成2个plan，一个Source，一个SortLimit。Source状态为RUNNING，SortLimit状态一直为CREATED。
>> >>>
>> >>> 请问下，SortLimit状态一直为CREATED是正常现象吗？
>> >>>
>> >>> 数据量比较大，全部消费完的话，估计得好几天时间，BATCH模式下，SortLimit的状态需要等所有数据全部消费完才改变吗？
>> >>>
>> >>>
>> >>>
>> >>>
>> >>> 测试SQL：
>> >>>
>> >>> SELECT price
>> >>>
>> >>> FROM hive.data.data1
>> >>>
>> >>> ORDER BY price DESC
>> >>>
>> >>> LIMIT 10;
>>

Re:Re: Re:Re: batch模式下任务plan的状态一直为CREATED

回复