Re: pyflink使用的一些疑问

xiaoyue Mon, 15 Mar 2021 20:42:44 -0700

您好，
    目前同样在做pyflink 结合pandas的分布式计算调研和尝试，对于您的问题，仅有一些经验性的分享。
    pyflink以后应该都会集成到DataStream，所以应该不会再支持DataSet；
    不建议在计算中间采用 table.to_pandas（）的方式进行table和dataFrame互转，会影响计算效率；
    目前采用的计算效率较好的方式，是定义pandas类型的udf/udaf方式，但相较java版接口同样的方式，pyflink还是会慢很多；
    个人感觉，pyflink耗时较多的地方，还是sql_query的操作，相同sql语句，执行效率上较java差别还是很大的。
    以上仅个人使用感觉，若存在问题，欢迎路过大佬批评指正~ 
    还有，因为调研相同领域，希望能交流调研新发现，感谢~祝好~





[email protected]
 
发件人： qian he
发送时间： 2021-03-14 18:59
收件人： user-zh-flink
主题： pyflink使用的一些疑问
你好，
 
最近项目想使用flink进行分布式计算，之前项目是Python的pandas项目，想尝试用pyflink进行项目改造，在使用dataset做批处理时，对于Java的版本没有相关map
reduce函数，所以有以下疑问：
1.Python flink的SDK还没支持dataset吗？
2.是不是有其他替代方法？
3.如果还没支持，有计划支持的时间吗？
4.flink table为啥不支持map reduce操作？
5.我们项目使用dataframe来处理数据，能放到flink上做分布式运算吗？dataframe直接转化为table的方式，table不支持map
reduce操作，对应pandas项目改造成flink，有什么好的建议么？
6. datastream api为什么没有实现Windows方法？后面版本会支持吗？
 
非常感谢，十分看好flink，希望社区越做越大，辛苦了！

Re: pyflink使用的一些疑问

回复