pyflink sql中select,where都带udf，其中一个udf失效

whh_960101 Wed, 14 Oct 2020 23:30:28 -0700

您好，我使用pyflink时的代码如下，有如下问题：


source  = st_env.from_path('source') 
#st_env是StreamTableEnvironment，source是kafka源端
#只在where语句中加udf1 (input_types =DataTypes.STRING(), result_type = 
DataTypes.BOOLEAN())
table = 
source.select("msg").where(udf1(msg)=True).execute_insert('sink').get_job_client().get_job_execution_result().result()


这样打印出来的结果很好的筛选了数据


但如果在select语句中加另一个udf2 (input_types =DataTypes.STRING(), result_type = 
DataTypes.STRING())（将msg简单处理为新的String）
table = 
source.select("udf2(msg)").where(udf1(msg)=True).execute_insert('sink').get_job_client().get_job_execution_result().result()
这个where筛选就失效了，最后打印出全部数据


如果改成where在前也不行，换成filter也不行
table = 
source.where(udf1(msg)=True).select("udf2(msg)").execute_insert('sink').get_job_client().get_job_execution_result().result()


select、where中的udf会冲突吗？这个问题该怎么解决？
希望您们能够给予解答！感谢！

pyflink sql中select,where都带udf，其中一个udf失效

回复