Hi,
根据报错的提示,执行命令./python3.6.8.zip/bin/python3时没法导入pyflink,你可以在本地检查一下你的这个虚拟环境是不是没有成功安上pyflink
Best,
Xingbo
程龙 <13162790...@163.com> 于2022年11月25日周五 16:02写道:
> 在使用pyflink提交任务时,部署模式onyarn
> 1 在不使用Map等算子下如下参数 能够提交成功 并且运行
> .flink run -ynm pytest -m yarn-cluster -pyclientexec ***/python3
>
conda构建的venv会把机器底层一些c的库包括进来,会比较全。通过python venv包构建的虚拟环境可能会因为跨机器出现问题。
Best,
Xingbo
RS 于2022年11月23日周三 09:25写道:
> Hi,
> 我这边使用的python命令构建的,没有用conda,这个应该没有影响吧
> python3 -m venv jxy_venv
>
>
> 我启动了一个单点的flink测试,本机启动,有python环境,测试是可以运行成功的
>
>
>
> Thanks
>
>
>
&g
Hi RS,
你是使用conda构建的venv吗,可以参考PyFlink 准备环境的文档[1]
Best,
Xingbo
[1]
https://pyflink.readthedocs.io/en/latest/getting_started/installation/prepare.html#create-a-virtual-environment-using-conda
RS 于2022年11月22日周二 15:14写道:
> Hi,
> Flink版本:1.15.1
>
>
>
The Apache Flink community is very happy to announce the release of Apache
Flink 1.16.0, which is the first release for the Apache Flink 1.16 series.
Apache Flink® is an open-source stream processing framework for
distributed, high-performing, always-available, and accurate data streaming
Thanks Danny for driving this release
Best,
Xingbo
Jing Ge 于2022年8月25日周四 05:50写道:
> Thanks Danny for your effort!
>
> Best regards,
> Jing
>
> On Wed, Aug 24, 2022 at 11:43 PM Danny Cranmer
> wrote:
>
>> The Apache Flink community is very happy to announce the release of
>> Apache Flink
素跑模型预测。主体则使用java,有什么实现方法吗?
>
> yidan zhao 于2022年7月13日周三 21:54写道:
> >
> > 谢谢回答。
> >
> > Xingbo Huang 于2022年7月13日周三 16:55写道:
> > >
> > > Hi,
> > >
> > > 简单来说,如果你的作业逻辑中只使用了纯java的算子,比如你写的是一个没有使用 Python udf 的sql/table api
> > > 作业时
Hi,退订请发送至邮箱user-zh-unsubscr...@flink.apache.org
Best,
Xingbo
Summer 于2022年7月14日周四 11:03写道:
>
> 你好,这是什么原因?
> 使用网页登录华为邮箱,无法退订。
>
>
> Reporting-MTA: dns; localhost
> Received-From-MTA: dns; localhost
>
> Final-Recipient: rfc822; user-zh-unsubscr...@flink.apache.org
> Action: failed
> Status: 504
Hi,
简单来说,如果你的作业逻辑中只使用了纯java的算子,比如你写的是一个没有使用 Python udf 的sql/table api
作业时,那么运行时就不需要对Python有需求,但是如果你使用了python udf,或者是你用的是python datastream
api来编写你的作业,那么运行时就对python环境有要求,毕竟那些python的自定义函数逻辑是需要Python解释器来执行的。
pyflink的runtime有两种执行模式process和thread。process模式是基于apache beam
Thanks a lot for being our release manager David and everyone who
contributed.
Best,
Xingbo
David Anderson 于2022年7月8日周五 06:18写道:
> The Apache Flink community is very happy to announce the release of Apache
> Flink 1.15.1, which is the first bugfix release for the Apache Flink 1.15
> series.
>
Hi,
你可以执行 pip install -r flink-python/dev/dev-requirements.txt 安装开发环境所需要的依赖
Best,
Xingbo
张 兴博 于2022年6月15日周三 10:20写道:
> 您好:
>我是一名学习使用pyflink的用户,我想在ubuntu20.04上开发pyflink,但是在运行代码的时候,报错为:
>
> Traceback (most recent call last):
> File "/root/.py", line 6, in
> s_env =
affected Flink
> 1.13.6, the other release I was recently managing. I simply skipped a step
> in the release guide.
>
> It should be fixed now. Could you double-check?
>
> Cheers,
>
> Konstantin
>
> On Wed, Mar 16, 2022 at 4:07 AM Xingbo Huang wrote:
>
> > Thank
Thanks a lot for being our release manager Konstantin and everyone who
contributed. I have a question about pyflink. I see that there are no
corresponding wheel packages uploaded on pypi, only the source package is
uploaded. Is there something wrong with building the wheel packages?
Best,
Xingbo
Hi,
经过排查,这个确实一个bug。问题出在没有正确处理在sub-query中使用的python udf。我已经创建JIRA[1]
来记录这个问题了。目前的workaroud方案是使用Table API。
具体可以参考下面的代码:
>>>
a = t_env.sql_query("""
SELECT
hotime ,
before_ta ,
before_rssi ,
after_ta ,
after_rssil ,
nb_tath ,
nb_rssith ,
y来获取数据,执行效率很高,猜测这部分执行交由数据库完成;
> 2. pyflink1.12版本取消了read.query参数,当定义多个数据源执行join等操作时,耗时很明显(pyflink)
> 所以,基于上述这种情况,想跟您请教一下这部分耗时,也是因为python的语言缺陷,或者ipc开销?还是底层的实现设计导致的呢?
> 感谢~
> 在 2021-03-16 14:27:22,"Xingbo Huang" 写道:
> >Hi,
> >
> >补充回答两点
> >1.
Hi,
补充回答两点
1. 现在Table上是支持sliding window和Tumpling Window的Pandas UDAF[1]的,
在1.13会支持session
window的UDAF的支持。对于datastream上window的支持,对于上述几种window,你可以转到table上去操作,对于自定义window,datastream会在1.13支持。
2. 关于性能问题,如果你不使用Python
UDFs的话,本质就是跑的Java的代码,python起的作用只是在客户端编译JobGraph的作用,所以不存在说Python
Hi,
1.12 还不支持session window的udaf,在1.13上将提供这部分的支持,具体可以关注JIRA[1]。
然后,1.12是支持ProcessFunction和KeyedProcessFunction的,具体可以参考代码[2]
[1] https://issues.apache.org/jira/browse/FLINK-21630
[2]
https://github.com/apache/flink/blob/release-1.12/flink-python/pyflink/datastream/functions.py
Best,
Xingbo
t;SELECT pf_id,add(yldrate) as
> yldrate FROM queryData");
> tableEnv.createTemporaryView("addedTable", addedTable);
> Table resultTable = tableEnv.sqlQuery("SELECT
> pf_id,prod(yldrate)-1 as yldrate FROM addedTable group by pf_id");
>
> 因为
的;
> java的写法类似,也是定义了udaf之后执行,返回Table类型的结果,再对这个结构处理,取出计算结果;
> 但两者的执行时间差很多,python用了很多方式,实现同样的简单计算逻辑,都差不多要8分钟左右。
> 总感觉时间用在query上,之前使用过flink1.11中connector.read.query方式直接获取数据,计算的速度就很快~
> 小白一个,不太了解flink内部的设计,希望能在这里找到具体的原因~谢谢您啦~
>
>
>
> xiao...@ysstech.com
>
> 发件人: Xingbo Huan
link计算并将结果直接反馈给前端,所以应该是有source,无sink的过程,
> 也尝试过定义pandas类型的udaf计算,将聚合结果返回,执行时间并未有太大变化。
>
> 所以,想请问一下,对于刚说的那种业务情况,有合适的执行建议么?保证效率的情况下,利用pandas or numpy中的矩阵计算,非常感谢~!
>
>
>
>
>
>
>
> 在 2021-03-01 09:54:49,"Xingbo Huang" 写道:
> >Hi,
> >
>
&g
Hi,
差别在于你用了to_pandas(),这个性能慢(这个需要把数据都collect回来到客户端,然后构造一个python的DataFrame,所以慢)。to_pandas一般都是拿来调试用的,很方便,但是性能不行,如果你对性能有要求,你换个sink就行了。
Best
Xingbo
xiaoyue <18242988...@163.com> 于2021年2月26日周五 下午12:38写道:
> 不知道大家有没有遇到这个问题,流环境中链接Mysql数据库,利用DDL定义两个数据源表 source1, source2.
> sql = "SELECT ID, NAME, IP,
Hi,
你可以看到报错信息的有这么一行
Caused by: java.sql.SQLSyntaxErrorException: Unknown column 'FULLMV' in
'field list'
说你的表没有FULLMV这个字段导致的
Best,
Xingbo
肖越 <18242988...@163.com> 于2021年2月7日周日 上午10:43写道:
> 补充一下代码信息
> 下面是执行的语句:
> query_table = env.sql_query(sql)
> query_table.print_schema()
>
>
>
Hi,
你是想使用java写的udfs吗,你可以调用register_java_function或者create_java_temporary_function来注册你用java写的udfs,具体可以参考文档[1]
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table-api-users-guide/udfs/python_udfs.html#scalar-functions
Best,
Xingbo
瞿叶奇 <389243...@qq.com> 于2021年2月4日周四
Hi,
你其实可以在open方法里面进行加载的,这样只会加载一次,在eval方法中加载将会导致多次加载。
Best,
Xingbo
陈康 <844256...@qq.com> 于2021年2月4日周四 上午9:25写道:
> 感谢回复、之前是在__init__方法中加载Keras模型、经钉钉群大佬指教在eval中使用再加载、问题解决了,谢谢!
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
Hi,
报错的原因是你函数逻辑实际上是一个aggregate function的语义, 不是scalar function的语义。
scalar function要求的是一进一出,输入输出的数量是保持一致的,pandas
udf只是利用了pandas的batch特性,把数据封装成了一个batch的series给你,但你实际上用还是得保持输入输出数量一致。比如你输入的是pd.Series([1,2,3]),你执行完+1操作之后,结果就是pd.Series([2,3,4]),两个series的长度是保持一致的,都是3。
Hi,
报错信息说了最少需要79m,我看你代码配成0m,当然还是继续报错呀
Best,
Xingbo
肖越 <18242988...@163.com> 于2021年2月3日周三 上午10:24写道:
> pyflink1.11 测试udf函数,将表格定义的一列Double类型输入,计算这一列数值的累乘积,
> 结果返回一个Double类型数值,已经配置了taskmanager.memory.task.off-heap.size,但没什么用。
> 结果print报错:
> Traceback (most recent call last):
> File
Hi,
IllegalStateException这个不是root
cause,最好把完整的日志贴出来才能更好查出问题。而且最好把能准确复现的代码尽量精简化的贴出来。
Best,
Xingbo
Appleyuchi 于2021年1月26日周二 下午5:51写道:
> 我进行了如下操作:
> https://yuchi.blog.csdn.net/article/details/112837327
>
>
> 然后报错:
> java.lang.IllegalStateException: Process died with exit code 0
>
>
> 请问应该如何解决?
>
Hi,
Sorry for the late reply. Thanks for reporting this issue which has been
recorded in FLINK-21208[1]. I will fix it as soon as possible.
[1] https://issues.apache.org/jira/browse/FLINK-21208
Best,
Xingbo
苗红宾 于2021年1月31日周日 下午3:28写道:
> Hi:
>
> Hope you are good! I have a question for
看报错你是调用了order_by操作吧。对于unbounded
table来说,order_by只能作用在时间字段上,要不然就得后面接上fetch操作。具体可以参考文档[1]
[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/tableApi.html#orderby-offset--fetch
Best,
Xingbo
肖越 <18242988...@163.com> 于2021年1月27日周三 下午5:44写道:
>
Hi,
看报错是你的客户端环境所使用的的`python`解释器没有安装pyflink。-pyexec指定的是你udf运行的worker所使用的python环境,但是你在客户端编译作业的时候也需要python环境,那个python环境也需要安装pyflink。
Best,
Xingbo
陈康 <844256...@qq.com> 于2021年1月25日周一 下午9:01写道:
> 你好、请教下配置pyflink、本地运行报错
> [root@hadoop01 ~]# pip list | grep flink
> apache-flink (1.12.0)
>
>
Thanks Xintong for the great work!
Best,
Xingbo
Peter Huang 于2021年1月19日周二 下午12:51写道:
> Thanks for the great effort to make this happen. It paves us from using
> 1.12 soon.
>
> Best Regards
> Peter Huang
>
> On Mon, Jan 18, 2021 at 8:16 PM Yang Wang wrote:
>
> > Thanks Xintong for the great
Hi,
我这边没有看到你提供的附件。关于这个报错,我在你上封邮件回复你了,你可以看下是不是你的weighted_avg
没有进行注册(可以通过create_temporary_system_function或者register_function来注册,这样就可以通过字符串的方式进行使用)。当然你要是直接使用DSL的方式(文档中的例子),是不用你注册的。
Best,
Xingbo
hepeitan 于2021年1月4日周一 下午8:48写道:
> 您好:
>
Hi,
你好,事例已经提供了UDF的注册和使用,只剩下数据源的读取和输出没有提供(这有单独的部分来讲)。
关于你的报错,因为你没有提供具体咋使用的,只能猜测你没有按照示例使用DSL的方式,而是使用的字符串的方式,但却没有register函数导致报了这个错
Best,
Xingbo
消息室 于2021年1月4日周一 下午8:10写道:
> 您好:
> 我们项目组计划使用pyflink的udaf对数据进行聚合处理,拜读社区文章得知,对于批处理方式或窗口式聚合,建议使用Vectorized
> Aggregate
Hi,
看报错应该是你集群上使用的pyflink的版本是1.11的(那个报错No logging endpoint
provided.是1.11才有的)。你可以把版本升级到1.12试试
Best,
Xingbo
゛无邪 <17379152...@163.com> 于2021年1月4日周一 下午4:28写道:
> Hi,您好!
> 我们参考Flink官网上提供的Python API中的DataStream API用户指南文档编写了一份python脚本,文档地址:
>
@Gordon Thanks a lot for the release and for being the release manager.
And thanks to everyone who made this release possible!
Best,
Xingbo
Till Rohrmann 于2021年1月3日周日 下午8:31写道:
> Great to hear! Thanks a lot to everyone who helped make this release
> possible.
>
> Cheers,
> Till
>
> On Sat, Jan
Hi,
不好意思,这么晚才回复。因为你这个报错是发生在数据反序列的过程中,还没有到你写的函数体的具体内容。我看你pandas
udf的声明没有问题,那就得看下你的如何使用的了。我写了一个简化版本的,Array[String]作为输入,并且作为输出的,运行起来没有问题。
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings,
DataTypes
from pyflink.table.udf
。
>
> redis的connector没有直接在Flink的代码库里提供,这里有一个,应该也可以用:
> https://github.com/apache/bahir-flink/tree/master/flink-connector-redis
>
> 关于如何在PyFlink中使用connector,可以参考文档:
> https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table-api-users-guide/python_table_api_
Hi,
我试了一下这个版本的pyarrow,跑了一下现有的test并没有能复现这个问题。你方便提供一下你的pandas udf的内容吗?
Best,
Xingbo
小学生 <201782...@qq.com> 于2020年12月28日周一 下午3:07写道:
> 您好,我使用的pyarrow是0.17.1。
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
㊣ 俊 猫 ㊣ <877144...@qq.com> 于2020年12月27日周日 上午11:15写道:
> 您好,邮件退订一下
Hi,
你这个报错源自pyarrow反序列数据时的报错。你使用的pyarrow的版本能提供一下吗
pip list | grep pyarrow可以查看
Best,
Xingbo
小学生 <201782...@qq.com> 于2020年12月28日周一 上午10:37写道:
> 请教一下各位,使用pyflink中的向量化udf后,程序运行一段时间报错,查资料没有类似的问题,麻烦各位看看是咋回事
> Caused by: java.lang.RuntimeException: Error received from SDK harness for
> instruction 8:
Hi,
据我所知,flink没有提供对redis connector的官方支持[1],你需要根据官方提供的接口来自定义你的redis
connector,关于如何自定义connector,你可以参考文档[2]
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/
[2]
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sourceSinks.html
Best,
Hi,
因为你没有提供详细的作业信息,单看报错可以看到是使用的Python UDF抛出来的,更具体点是你Python
UDF返回的字符串结果在java端反序列的时候失败了,你可以检查一下你对应的Python UDF
Best,
Xingbo
Leopard 于2020年12月16日周三 上午9:42写道:
> pyflink 1.11.1
>
> Fail to run sql command: SELECT
> driverStatus,userId,latitude,locTime,longitude,city_code,ad_code
>
Hi,
默认就是你每台机器的python指向的环境下,当然你也可以通过-pyexec指定不同的python环境
Best,
Xingbo
magichuang 于2020年12月15日周二 下午8:02写道:
> 我现在看看那个报错,flink是把requirements.txt 和 cached_dir 已经先上传到hdfs上了,因为
>
Hi,
光看报错,不知道是哪一步的权限不足导致的,你要不尝试wheel包传上去试试看吧,tar包源码安装会执行setup.py,可能会读写yarn上某些没有权限的目录啥的。
Best,
Xingbo
...@foxmail.com 于2020年12月15日周二 上午10:29写道:
> Hi Xingbo,
>
> 多谢指导,亲测有效。
> 源python文件运行一会儿本身就结束运行了,过阵子后才会跳到断点里。
> 所以源python文件只是做了个提交的动作,实际执行都是异步执行,是否可以这么理解?
> 如果是的话,之前已经运行过很多次源python文件,是否本地已经在后台异步运行了多次?是的话是否能监控到这些任务?
>
>
>
> guoliubi...@foxmail.com
>
> 发件人: Xingbo
Hi,
想要调试可以使用的方式为
1. 在PyCharm里创建一个Python Remote Debug
run -> Python Remote Debug -> + -> 选择一个端口(比如6789)
2. 安装pydevd-pycharm(你PyCharm使用的python解释器)
pip install pydevd-pycharm
其实上一步那个界面也有指导你安装了
3. 将以下代码插入到你要断点的udaf的代码前面(这段代码其实也是来自第一步创建remote debug里面)
import pydevd_pycharm
GINT, `aveBuy` INT >]
>
> Sink schema: [buyQtl: BIGINT, aveBuy: INT]
>
>
> guoliubi...@foxmail.com
>
> 发件人: Xingbo Huang
> 发送时间: 2020-12-14 11:38
> 收件人: user-zh
> 主题: Re: Re: Pandas UDF处理过的数据sink问题
> Hi,
> 你想要一列变多列的话,你需要使用UDTF了,具体使用方式,你可以参考文档[1]
>
> [1]
>
Hi,
你想要一列变多列的话,你需要使用UDTF了,具体使用方式,你可以参考文档[1]
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table-api-users-guide/udfs/python_udfs.html#table-functions
Best,
Xingbo
guoliubi...@foxmail.com 于2020年12月14日周一 上午11:00写道:
> 多谢你的回复。这个问题已处理好了,确实如你所说需要将@udf换成@udaf。
>
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingb
elvis 于2020年12月1日周二 上午9:42写道:
> 退订
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
Xev Orm 于2020年11月25日周三 下午12:26写道:
> -help
>
> Xev Orm 于2020年11月25日周三 下午12:25写道:
>
> > Unsubscribe
> >
>
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
李军 于2020年11月24日周二 下午2:49写道:
>
>
Hi,
watermark是对于数据的eventTime没有顺序到来帮助何时触发计算用的,你如果用processingTime来,processingTime肯定是递增的,就不存在乱序这个概念了,就不需要watermark了。
Best,
Xingbo
Kyle Zhang 于2020年11月24日周二 下午1:34写道:
> Hi,
> 使用flink1.11,在SQL ddl中基于process time声明watermark报错
>
> SQL validation failed. Watermark can not be defined for a processing
Hi,
你可以帖下taskmanager的日志吗,这个日志只能看到启动Python进程的时候挂掉了,其他信息看不到。
Best,
Xingbo
fengmuqi...@ruqimobility.com 于2020年11月23日周一
下午4:11写道:
> hi.
> pyflink 1.11.1 调用包含第三方依赖库的udf时报错 :
>
> 运行环境:
> windows10
> python==3.7.9
> apache-flink==1.11.1
> apache-beam==2.19.0
>
> udf 依赖第三方库:
> h3==3.7.0
>
> pytest
Hi,
我怀疑还是你的环境不干净导致的,你pip list | grep
apache-flink看下版本是不是确实是这个。因为很多时候用户会在机器上装好几个python环境。
Best,
Xingbo
anfeng 于2020年11月18日周三 上午9:40写道:
> 我是在playgrounds环境跑到, 不过我检查的apache flink 是1.11.2;
> 跟这个会有关系吗
>
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>
Hi,
你说的这个在1.11应该已经修复了[1] ,我在本地没有复现出你这个问题
[1] https://issues.apache.org/jira/browse/FLINK-17753
Best,
Xingbo
anfeng 于2020年11月17日周二 下午5:31写道:
> 使用了你说的DDL的方式 可还是报错
>
> kafka_source_ddl = """CREATE TABLE mysource (createTime STRING,
> type
Hi,
As far as I know, a TimeWindow does not have the attribute createTime? What
is the semantics of createTime you want
Best,
Xingbo
anfeng 于2020年11月17日周二 下午5:26写道:
> st_env.from_path("mysource") \
>
>
> .window(Slide.over("10.minutes").every("1.minutes").on("createTime").alias("w"))
> \
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
夏明 于2020年11月3日周二 下午8:01写道:
> 退订
Hi,
1. python demo.py运行正常,说明代码和你本地执行的python环境都没有问题。
2. 你现在给的错误和你前一封邮件给的那个编译报错不是一个报错,一个一个问题来。
3.
你这个运行报错是你集群运行环境里面的python环境的beam包冲突了,就是我一开始回答的,你去得去检查集群运行环境里面的python环境是否符合要求。
Best,
Xingbo
jing 于2020年11月3日周二 下午6:09写道:
> 1. 重新安装之后并没有解决。
> 本地提交和远程提交都有问题。用 python demo.py 的方式是正常的。
> 2. 作业是已经提交了。
>
Hi,
1. 之前那个报错在重新安装完pyflink之后有没有解决(本地python
demo.py是否正常);之前那个报错是本地运行就报错,还是在远程提交才报的错。
2. 现在这个报错是作业提交时编译阶段就报错了,还没到作业运行。在作业提交的console界面是可以看到错误日志的,可否提供一下错误日志。
Best,
Xingbo
jing 于2020年11月3日周二 下午5:36写道:
> Hi, xingbo.
> 在检查之后,并没有发现什么 beam 的其他版本,flink-python 版本是 2.11-1.11.1。不管是 pip install
>
Hi,
看报错是NoClassDefFoundError,应该是包冲突了,你是不是自己安装了apache-beam(1.11.1依赖的beam是2.19.0的版本)的其他版本了,亦或者你可以看下是不是PipelineOptions这个beam类依赖的其他包里面存在了包冲突的问题
Best,
Xingbo
jing 于2020年11月3日周二 上午10:16写道:
> Hi, jincheng.
>
> 最近也遇到了类似问题,请问有什么思路吗?
>
> flink-python 的 jar 都是有的,且版本是对的。
>
> 版本是 1.11.1,这个主要是在引入了 udf
Hi,
需要committer才有权限进行assign的,你可以在JIRA下面ping一下对应模块的committer
Best,
Xingbo
zihaodeng <284616...@qq.com> 于2020年11月3日周二 上午2:31写道:
> 我想做社区贡献,但是我新建的JIRA不能assign(没有assign按钮),如下图:
>
> 是不是因为我缺少什么权限?谁能帮帮忙,告诉我应该怎么做?
> Username:pezynd
> Full name:ZiHaoDeng
> mail:284616...@qq.com
>
Hi,
你可以看下下面这个JIRA[1],看下是不是你所遇到的问题。
[1] https://issues.apache.org/jira/browse/FLINK-19675
Best,
Xingbo
Evan 于2020年11月2日周一 下午2:46写道:
> 首先你的邮件里有很多“” 符号,很影响阅读
> 根据你的邮件大致判断,是你的where用法用错了,貌似是你的where里边写了两个条件,建议你查一下pyflink的api,查询where的用法
>
>
>
>
> 发件人: 洗你的头
> 发送时间: 2020-11-02 10:15
> 收件人: user-zh
>
Hi,
你说的不行,指的是运行报错了(如果报错了,可以贴下错误的日志),还是出来的结果不符合预期(是不生效,还是啥的)。
Best,
Xingbo
洗你的头 <1264386...@qq.com> 于2020年11月1日周日 上午10:16写道:
> 尊敬的开发者您好:我想要在输出表中进行条件筛选,使用了where语句,结果不行
> 我的代码如下:
> # 处理流程
> t_env.from_path('mySource') \
> .select("pickup_datetime, dropoff_datetime,
> pickup_longitude,
Hi,
1. CsvTableSource的构造方法里面有参数ignore_first_line帮你跳过首行的标题,你可以查看一下。
2.
只想读取那四列应该没办法,主要在于你那几个列不是头部的几个列,比如10列的数据,你要前四列,那是可以的,因为正常读一行数据进来,我解析完前四列就行了,剩下可以不解析,可是要是你的列是1,3,5,7,9这样的,你不指定2,4,6,8列的类型,根本没法帮你把一行的数据给解析出来。
Best,
XIngbo
洗你的头 <1264386...@qq.com> 于2020年10月27日周二 下午2:36写道:
> 尊敬的开发者您好,
>
Hi,
Pyflink 1.11还不支持datastream,1.12才有
Best,
Xingbo
whh_960101 于2020年10月27日周二 下午2:58写道:
> 有没有其他方式可以写入username和password,我了解java
> flink访问elasticsearch是有username和password入口的,pyflink是调用java来执行,应该是有这个入口的吧,有没有大佬可以指点一下,谢谢啦!
>
>
>
>
>
>
>
> 在 2020-10-22 16:34:56,"Yangze Guo" 写道:
>
Hi,
>>>
1.但是结果是在output的文件夹内生成8个文件,但是只有文件1有数据,这样是正常的吗?检查了一下,好像顺序没有改变,与原顺序一致,怎样设置可以将其按照原顺序保存为1个文件呢?
flink的table作业目前没法单独为每一个算子设置并发度,所以你设置并发度为8,就会输出8个文件。我觉得你这数据量不大,本质还是from_pandas的问题,你先把它换了,先用一个并发度玩就行。
>>> 2.arrow.batch.size的意思经过您的细心解答我理解了,那么增大arrow.batch.size也是可以加快处理速度吗?
其实跑pandas
Hi,
1. from_pandas性能不太好的,不是用在生产上的。你可以直接用flink的csv的connector来读取你的数据呀。
2. arrow.batch.size,表示的是会把多少条数据变成一个pandas.series,然后作为你的udf的一个列传给你
Best,
Xingbo
洗你的头 <1264386...@qq.com> 于2020年10月26日周一 下午4:32写道:
> 尊敬的开发者您好,
> 我的需求是这样的,
> 拥有数据:
>
Hi,
你似乎没有把你的3个图给成功贴上来。如果是之前你抛出来的那个代码和错误的话,就像hailong解释的,是你的读入的csv数据源的数据的第一列数据有的不是Long导致的,你需要检查一下你的数据内容。还有你那个arrow的batchsize设置成2也太小了点,默认情况下是1,其实大部分情况你是不需要去设置这个值的。
,
Best,
Xingbo
Hi,
pyspark对pandas版本的限制是>=0.23.2,你安装的话就默认安装了最新的版本的pandas,这是有很大的潜在风险的。
在pyflink
1.11版本的时候pdandas的版本限制是pandas>=0.23.4,<=0.25.3,使用更稳定的pandas的版本可以规避很多风险。而且这个版本范围也在pyspark的范围内,是能一起用的。
Best,
Xingbo
xuzh 于2020年10月23日周五 上午9:39写道:
> pyflink和pyspark中引用包不兼容,li例如pyspark 中pandas版本1.1.4 而pyflink是=0.23<0.25.
Hi,
从源码编译安装把。可以参考文档[1]
[1]
https://ci.apache.org/projects/flink/flink-docs-master/flinkDev/building.html#build-pyflink
Best,
Xingbo
whh_960101 于2020年10月22日周四 下午6:47写道:
> 现在能更新到1.12吗,好像还没有发布,有什么其他的解决办法吗?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-10-22 16:34:56,"Yangze Guo" 写道:
>
Hi,
1. 你使用的环境是什么?mac的还是哪个版本的linux
2. 你是源码编译的吗?还是直接Pip install apache-flink安装的
3. 你使用conda的自带的Python环境,还是创建了venv,对应的Python版本是啥
Best,
Xingbo
大森林 于2020年10月19日周一 上午11:23写道:
> 我用的是3.6的anaconda虚拟环境.
>
>
>
>
> --原始邮件--
> 发件人:
>
Hi,
pyflink 1.11支持的python版本是3.5,
3.6,3.7。这个报错看起来像是你的环境里面的apache-beam的版本太低导致的。你可以看下beam的版本是不是2.19
Best,
Xingbo
大森林 于2020年10月17日周六 下午5:54写道:
>
> 您好!
> 请问目前的apache-flink是否必须在python3.5以下才能完全兼容?
>
> 完整代码是:
>
> https://enjoyment.cool/2020/02/27/Three-Min-Series-How-to-create-UDF-in-PyFlink-1-10/
>
Hi,
我们有例子覆盖你这种情况的[1],你需要看下你udf1的逻辑是什么样的
[1]
https://github.com/apache/flink/blob/release-1.11/flink-python/pyflink/table/tests/test_udf.py#L67
Best,
Xingbo
whh_960101 于2020年10月15日周四 下午2:30写道:
> 您好,我使用pyflink时的代码如下,有如下问题:
>
>
> source = st_env.from_path('source')
>
Hi,
你想要输出table的结果,可以有两种方便的方式,
1. table.to_pandas()
2. 使用print connector,可以参考[1]
然后你如果对pyflink感兴趣,可以看看这个doc[2],可以帮助你快速上手
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/print.html
[2]
Hello,
这个算是个易用性的问题,我之前有创建了JIRA[1]。你现在直接用[DataTypes.STRING(),
DataTypes.STRING()]作resultType就是对的。关于input_types那个问题,实际上input_types在内部是通过上游的result_type匹配得出来的,所以你这里没对应也是对的,1.12版本将不再需要指定result_type了。
Best,
Xingbo
[1] https://issues.apache.org/jira/browse/FLINK-19138
chenxuying 于2020年9月30日周三
Hello,
现在的descriptor的方式存在很多bug,社区已经在进行重构了。当前你可以使用DDL[1]的方式来解决问题。
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/#how-to-use-connectors
Best,
Xingbo
刘乘九 于2020年9月29日周二 下午5:46写道:
> 各位大佬,我想尝试下pyflink 进行时间窗口下的指标统计,写了一个demo发现table APi 的group
>
Hi XiaChang
你可以在flink-table目录下执行打包命令。然后flink-table-uber-blink的target目录下生成的flink-table-uber-blink_2.11-1.12-SNAPSHOT.jar这个包就是你要的flink-table-blink_2.11-1.12-SNAPSHOT.jar
Best,
Xingbo
zilong xiao 于2020年9月29日周二 上午11:56写道:
> Hi XiaChang
>
>
>
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
Han Xiao(联通集团联通支付有限公司总部) 于2020年9月18日周五 下午5:35写道:
> 取消订阅
> 如果您错误接收了该邮件,请通过电子邮件立即通知我们。请回复邮件到
> hqs-s...@chinaunicom.cn,即可以退订此邮件。我们将立即将您的信息从我们的发送目录中删除。
> If you
Hi,
你可以参考文档[1],里面的api
set_python_executable(python_exec)用来设置你的Python环境的,然后你需要确保你这个python环境有安装pyflink。
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/python/table-api-users-guide/dependency_management.html#python-dependency
Best,
Xingbo
myfjdthink 于2020年9月17日周四 下午3:13写道:
Hi,
你可以看到报错信息里面有这么一条:
ImportError: No module named pyflink
看起来是你的集群环境使用的python环境没有安装pyflink
Best,
Xingbo
myfjdthink 于2020年9月17日周四 下午2:50写道:
> 操作系统
>
> Mac OS
>
> flink --version
>
> Version: 1.11.1, Commit ID: 7eb514a
>
>
> 代码
>
> from pyflink.table import StreamTableEnvironment,
Hi,
现在flink没有提供官方的IBM
MQ的connector实现,现在已经支持的connector类型,你可以参考文档[1]。如果你需要支持其他connector,你需要提供自定义的connector的java实现,然后在你的python作业里面通过api或者命令行参数的方式把connector的Jar包添加进去,具体可以参考文档[2]
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/
[2]
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
毛远航 于2020年9月15日周二 下午4:22写道:
> 退订,多谢
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
李国鹏 于2020年9月15日周二 下午4:19写道:
> 退订
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
邢明浩 于2020年9月10日周四 上午10:03写道:
> 退订
,
Xingbo
whh_960101 于2020年9月7日周一 下午5:14写道:
> 您好,
>
> 图中像datagen和print这样的connector更像是表名,之前听说的只有json、csv、filesystem这种类型的connector,请问connector在使用连接器DDL创建表时的作用是什么
>
>
>
>
>
>
>
> 在 2020-09-07 11:33:06,"Xingbo Huang" 写道:
> >Hi,
> >你是想直接读一个python的
v.execute_sql("""
> CREATE TABLE sink(
> table STRING,
> data STRING
> )WITH(
> 'connector' = 'filesystem',
> 'path' = 'home/res/',
> 'format' = 'csv') #format如果是json就报错ParseException:Encountered"table"at
> line 1,column 43 was expecting one of "CONSTR
("sink")
> #这时我在外部定义好的数据类型dic字典如何作为参数传进来
> 这种代码应该怎么写?感谢解答!因为官网没有给出将外部数据类型作为参数传入udf中的样例,所以比较困惑
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-09-04 16:02:56,"Xingbo Huang" 写道:
> >Hi,
> >
> >推荐你使用ddl来声明你上下游用的connector
> >
&
ing;@f795710这种形式的字符串,不是我res_arr里面的内容,如果我单独返回一个值,比如return
> res_arr[0],tmp文件里面的字符串就是正确。
> 我想要得到array,该怎么解决?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-09-04 15:17:38,"Xingbo Huang" 写道:
> >Hi,
> >
>
tring;@f795710这种类型的字符串,不是我np.array里的内容
> 请问这个问题该怎么解决?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-09-04 10:35:03,"Xingbo Huang" 写道:
> >Hi,
> >
>
> >你这个场景,你其实可以直接拿到after里面的字段b的,用法是table.select("after.g
如果通过table.select("after.b")或者table.select('after').select('b')也会报错
> 希望您能给我提供好的解决办法,万分感谢!
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2020-09-03 22:23:28,"Xingbo Huang" 写道:
> >Hi,
> >
> >我觉得你从头详细描述一下你的表结构。
&
> | |
> whh_960101
> |
> |
> 邮箱:whh_960...@163.com
> |
>
> 签名由 网易邮箱大师 定制
>
> 在2020年09月03日 21:14,Xingbo Huang 写道:
> Hi,
> input_types定义的是每一个列的具体类型。
> 比如udf输入的是三列,类型都是DataTypes.STRING(),这个时候你
> 正确的写法是
>
>input_types=[DataTypes.STRING(), DataTypes.ST
Hi,
input_types定义的是每一个列的具体类型。
比如udf输入的是三列,类型都是DataTypes.STRING(),这个时候你
正确的写法是
input_types=[DataTypes.STRING(), DataTypes.STRING(), DataTypes.STRING()]
针对这个例子,你错误的写法是(根据报错,我猜测你是这么写的)
input_types=DataTypes.Row([DataTypes.FIELD("a", DataTypes.STRING()),
DataTypes.FIELD("b",
Congratulations Dian!
Best,
Xingbo
jincheng sun 于2020年8月27日周四 下午5:24写道:
> Hi all,
>
> On behalf of the Flink PMC, I'm happy to announce that Dian Fu is now part
> of the Apache Flink Project Management Committee (PMC).
>
> Dian Fu has been very active on PyFlink component, working on various
>
Hi,
你的DDL没有问题,问题应该是你没有把kafka的jar包添加进来。你可以到
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/kafka.html
这里下载kafaka的universal版本的jar包。关于如何把jar包添加到pyflink里面使用,你可以参考文档
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/python/faq.html#adding-jar-files
Thanks Zhu for the great work and everyone who contributed to this release!
Best,
Xingbo
Guowei Ma 于2020年8月26日周三 下午12:43写道:
> Hi,
>
> Thanks a lot for being the release manager Zhu Zhu!
> Thanks everyone contributed to this!
>
> Best,
> Guowei
>
>
> On Wed, Aug 26, 2020 at 11:18 AM Yun Tang
Hi,
看那个报错是说下载不下来那个jar包,你要不要试试改一下maven的settings文件使用的源
Bset,
Xingbo
魏烽 于2020年8月19日周三 上午12:47写道:
> 各位大佬好:
>
>
> 在本地编译flink源码包的时候当编译到flink-runtime-web的时候报如下错误:请问这是需要什么单独的设置嘛?还没有修改任何东西,只是clone下来之后编译,编译命令mvn
> clean install -DskipTests
>
>
> [ERROR] Failed to execute goal
>
Hi,
支持
Best,
Xingbo
guaishushu1...@163.com 于2020年8月17日周一 下午7:55写道:
> 哪位大佬知道Flink 1.10 PyFlink支持中间表 或者支持这种写法吗
> source = st_env.scan("source_kafka_ifang_dkt_log")
> dim_table = source.select("`cluster`, `caller`, `cid`,`content`, `ip`
> `path`, `type`")
>
Hi,
其实报错信息已经说清楚了你用的方式的问题了,这个host方法是需要传入三个参数的,第一个是你的hostname,第二个是你的port,第三个是你使用的protocol。
可以采用下面这种方式试一下
.host("es9223.db.58dns.org", 9223, "http")
Best,
Xingbo
guaishushu1...@163.com 于2020年8月17日周一 下午5:12写道:
> PyFlink 从kafka写入ES 抛这个异常,但是host是正确的有哪位知道吗
> File "main-0-8.py", line 74, in
>
Hi,
退订请发邮件到 user-zh-unsubscr...@flink.apache.org
详细的可以参考 [1]
[1] https://flink.apache.org/zh/community.html#section-1
Best,
Xingbo
simba_cheng 于2020年8月16日周日 下午9:33写道:
> 退订
>
>
>
>
> 成钇辛
> TEL: 150-7783-5100
>
> 我无法承诺帮你解决所有的问题,但我保证不会让你独自去面对。
>
>
Hi,
这是因为flink
1.11里面executeSql是一个异步的接口,在idea里面跑的话,直接就结束了,你需要手动拿到那个executeSql的返回的TableResult,然后去
tableResult.getJobClient.get()
.getJobExecutionResult(Thread.currentThread().getContextClassLoader)
.get()
进行wait job finished
Best,
Xingbo
DanielGu <610493...@qq.com> 于2020年8月14日周五
Hi,
关于并行度的问题,据我所知,目前Table API上还没法对每一个算子单独设置并行度
Best,
Xingbo
Zhao,Yi(SEC) 于2020年8月14日周五 上午10:49写道:
> 并行度问题有人帮忙解答下吗,此外补充个相关问题,除了并行度,flink-sql情况下,能做检查点/保存点,并基于检查点/保存点重启sql任务吗。
>
> 发件人: "Zhao,Yi(SEC)"
> 日期: 2020年8月13日 星期四 上午11:44
> 收件人: "user-zh@flink.apache.org"
> 主题: 如何设置FlinkSQL并行度
>
>
共有 128 项搜索結果,以下是第 1 - 100 matches
Mail list logo