date:20200604

回复： CheckPoint Dir 路径下引发的一些问题

2020-06-04 文章 zhiyezou

Hi 麻烦使用第三方图床，把图片链接过来，直接贴图片的话显示不出来 --原始邮件-- 发件人:"Weihua Hu"

Re: CheckPoint Dir 路径下引发的一些问题

2020-06-04 文章 Weihua Hu

HI, Px New 1. Checkpoint 保存数量可以通过参数： state.checkpoints.num-retained 来控制，默认是 1 2. _metadata 只是一些元数据，保存了state 的句柄，其他文件是 state 数据，由各 Task 在触发 checkpoint 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task，Task 通过远端 HDFS 拉取对应的 state。 Best Weihua Hu > 2020年6月5日 13:36，Px New

Re: flink sql ddl能设置ttl吗？

2020-06-04 文章 Leonard Xu

Hi, 第一个问题，即将发布的1.11可以设定primary key, 不用再推断primary key，除pk外的字段也没有限制，当前你可以加firt_value,last_value等函数取非group by的其他字段, jdbc的文档在撰写中了[1] 第二个问题，目前应该还不支持通过SET在DDL里设置ttl的. Best, Leonard Xu [1] https://issues.apache.org/jira/browse/FLINK-17829 [2]

CheckPoint Dir 路径下引发的一些问题

2020-06-04 文章 Px New

Hi everyOne 有一个关于CheckPoint相关的一个问题: 1.我在项目中使用的状态后端为:Fsstatebackend 2.我在jobManager的log输出找到相应的job ID后去对应的HDFS 找到了对应的chk目录 3.但我有两个疑问: 3.1.没有设置 chk的存储数默认是多保留多少份呢(我这边看到保留了近20次的chk)? 3.2 当我点进具体的chk-id 后发现有很多文件[见2图] 我清楚的是当任务发生异常后tesk 会从hdfs 将_metadata 下载后进行任务恢复操作的,那其他的哪些文件是如何产生的?以及有什么作用呢? 期待回复:

Re: flink sql ddl能设置ttl吗？

2020-06-04 文章 Benchao Li

Hi， 1. 如果我没记错的话，mysql的写入应该就是replace的方式写入的，应该不需要group by来实现upsert写入吧，除非你想要的是聚合结果。 2. 这个看你用的是哪种方式，如果是table api，可以直接用你说的这种方式来设置；如果用的是sql-client，可以直接在配置文件里面配置。 xu yihan 于2020年6月4日周四下午6:07写道： > 各位好， > > 我有一个需求是要维表关联mysql数据，再upsert写入mysql，就是个丰富字段的简单需求。 > > 现在有两个问题： >

Re: Batch 模式 Table API 增加cache算子

2020-06-04 文章 Jark Wu

这个内容会放在 FLIP-36 [1]中讨论，估计会在 1.12 的计划中。 cc @Becket Qin who is the driver of this FLIP. Best, Jark [1] FLIP-36: https://cwiki.apache.org/confluence/display/FLINK/FLIP-36%3A+Support+Interactive+Programming+in+Flink [2] 讨论邮件:

Re: flink1.10整合hbase测试遇到的问题

2020-06-04 文章 Jark Wu

FYI Leonard's reply in another thread: = Flink hbase connector官网有的[1],1.10以前的包名是flink-hbase, 1.11后社区统一了所有connector的包名，包名为flink-connector-hbase[1]，1.11最近快发布了，你的报错看起来是缺少了一些类，可以参考下hbase connector的依赖[2]。 [1]

Re: Re: standalone模式下metaspace内存溢出

2020-06-04 文章 amen...@163.com

你好，社区已经发现过一些与 metaspace 泄漏相关的问题，其中部分已经修复，还有一些则与第三方依赖有关。由于你的图片没有显示出来，我不确定你遇到的是否是相同的问题。此外，在即将发布的 1.11 中，Flink 针对这一问题进行了优化，作业会采用单独的 ClassLoader 运行，以避免作业结束之后 metaspace 还有泄漏的问题。1.11.0 已经进入发布前的测试阶段，RC1 已经发布，欢迎试用。 Thank you~ Xintong Song On Fri, Jun 5, 2020 at 9:29 AM 胡泽康 wrote: > flink版本：1.10

Re: Flink 1.6 版本，RocksDBStateBackend ,增量 Checkpoint 目录问题

2020-06-04 文章 Px New

对我认为这也不是很合理, 不知道有什么更好的解释吗 LakeShen 于2020年1月16日周四下午5:06写道： > 原来是这样，中间的确有很多 Checkpoint 超时失败，对于这种由于 Checkpoint 失败创建的目录，Flink 本身是不会删除的，对吗？ > 也就是这部分状态文件，会一直存储在HDFS 上面，这种情况是否会造成 Flink Checkpoint 目录下 shared目录无限增大呢， > 非常感谢你，lucas，期待你的回复。 > > lucas.wu 于2020年1月16日周四下午4:50写道： > > >

??????flink1.9 Sql ????????????????????????state??????

2020-06-04 文章 star

?? ---- ??:"zhiyezou"<1530130...@qq.com; :2020??6??5??(??) 10:31 ??:"user-zh"

??????flink1.9 Sql ????????????????????????state??????

2020-06-04 文章 zhiyezou

Hi ??TTL ---- ??:"star"<3149768...@qq.com; :2020??6??5??(??) 10:22 ??:"user-zh@flink.apache.org"

Re: standalone模式下metaspace内存溢出

2020-06-04 文章胡泽康

那我先试试1.11. thank you~ --Original-- From: "Xintong Song"

flink1.9 Sql ????????????????????????state??????

2020-06-04 文章 star

?? flink 1.9??blink planner ?? ?? id hbasemonthtable rowkey??month+city ?? city ??hbasetotalTable ??rowkey?? city 18?? restore??ck??

Re: standalone模式下metaspace内存溢出

2020-06-04 文章 Xintong Song

你好，社区已经发现过一些与 metaspace 泄漏相关的问题，其中部分已经修复，还有一些则与第三方依赖有关。由于你的图片没有显示出来，我不确定你遇到的是否是相同的问题。此外，在即将发布的 1.11 中，Flink 针对这一问题进行了优化，作业会采用单独的 ClassLoader 运行，以避免作业结束之后 metaspace 还有泄漏的问题。1.11.0 已经进入发布前的测试阶段，RC1 已经发布，欢迎试用。 Thank you~ Xintong Song On Fri, Jun 5, 2020 at 9:29 AM 胡泽康 wrote: > flink版本：1.10

回复： flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 1048262223

Hi 这里存在一个问题是，使用了last_value或者first_value这样的udaf，但是如果多条数据来到经过udaf处理后结果还是和之前一样的情况下，是不会产出回撤流数据的，可以观察下你是否需要考虑这种情况。 Best, Yichao Yang --原始邮件--

Re: flink整合hbase

2020-06-04 文章 Leonard Xu

Hi, Flink hbase connector官网有的[1],1.10以前的包名是flink-hbase, 1.11后社区统一了所有connector的包名，包名为flink-connector-hbase[1]，1.11最近快发布了，你的报错看起来是缺少了一些类，可以参考下hbase connector的依赖[2]。 Best, Leonard Xu [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connect.html#hbase-connector

回复：回复: flink整合hbase

2020-06-04 文章 liunaihua521

hi, sink是自己的,我还没发现flink有原生的hbase的sink,正在研究. 在2020年6月5日 09:06，xueaohui_...@163.com 写道： Sink 是自己的还是官方的。 xueaohui_...@163.com 发件人： liunaihua521 发送时间： 2020-06-05 00:27 收件人： user-zh@flink.apache.org 主题： flink整合hbase hi

回复： flink整合hbase

2020-06-04 文章 liunaihua521

hi, 您能说下您本地的各组件版本吗?谢谢了报错内容(不方便看附件有文本): org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: org.apache.flink.client.program.ProgramInvocationException: Job failed (JobID: cacd929120e6cefa79e1f8cca65e3d3f) at

Re:flink整合hbase

2020-06-04 文章 chaojianok

你好，可否提供一下报错信息呢？在 2020-06-05 00:27:42，liunaihua...@163.com 写道： >hi > 咨询下，想用flink1.10整合hbase，请问一下hadoop，hbase都需要什么版本？有哪位跑通过，可否提供下配置文件，我在本地测试，所有集群都正常启动，提交任务（flink读写hbase）总是报错，找不到某些类，是否跟版本有问题？ >提前谢谢了！ > >| | >liunaihua521 >| >| >邮箱：liunaihua...@163.com >| > >签名由网易邮箱大师定制

standalone模式下metaspace内存溢出

2020-06-04 文章胡泽康

flink版本：1.10 standalone模式下，同一个batch作业提交多次后，taskmananger会metaspace内存溢出。我用visualVm观察到，多次提交后，taskmanager的metaspace如下图：虽然可以通过启动时调大jvm参数，但是这个应该是有问题的

Re: flink整合hbase

2020-06-04 文章 Leonard Xu

Hi, 可以贴下你的配置和异常栈吗？1.10的时候我本地也测试过，是ok的。 Best, Leonard Xu > 在 2020年6月5日，00:27，liunaihua...@163.com 写道： > > hi > 咨询下，想用flink1.10整合hbase，请问一下hadoop，hbase都需要什么版本？有哪位跑通过，可否提供下配置文件，我在本地测试，所有集群都正常启动，提交任务（flink读写hbase）总是报错，找不到某些类，是否跟版本有问题？ > 提前谢谢了！ > > | | > liunaihua521 > | > | >

Re: flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 x2009438

感谢各位，我先试试用Last_value这样的aggregate function绕过去。 @kcz 可能我表达不很清楚，具体描述一下遇到的具体场景就是：收到原始的数据，去mysql或者es里做维表关联，然后再以upsert的模式将结果写回mysql或es。举个例子来说，我想按id为key更新整行数据（比如还有个字段amount是个随机的double类型值） select id， amount， …… groupby id；这样子不行，必须 select id， amount， … groupby id，amount，……；

回复: flink整合hbase

2020-06-04 文章 xueaohui_...@163.com

Sink 是自己的还是官方的。 xueaohui_...@163.com 发件人： liunaihua521 发送时间： 2020-06-05 00:27 收件人： user-zh@flink.apache.org 主题： flink整合hbase hi 咨询下，想用flink1.10整合hbase，请问一下hadoop，hbase都需要什么版本？有哪位跑通过，可否提供下配置文件，我在本地测试，所有集群都正常启动，提交任务（flink读写hbase）总是报错，找不到某些类，是否跟版本有问题？提前谢谢了！ | | liunaihua521 | |

回复：flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 kcz

我大概get到你要说的需求，select那些其实是明细数据？但是没有跟聚合的数据拆开，所以才出现这种情况吧？ -- 原始邮件 -- 发件人: Leonard Xu https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/streaming/query_configuration.html#idle-state-retention-time

flink1.9 stream job的异常日志

2020-06-04 文章 guanyq

附件是错误日志我感觉看到错误日志之后，没有什么调查方向，应该怎么调查呢。2020-06-04 13:19:15,590 INFO org.apache.flink.streaming.api.functions.sink.TwoPhaseCommitSinkFunction - FlinkKafkaProducer 7/12 - checkpoint 3425 complete, committing transaction TransactionHolder{handle=KafkaTransactionState [transactionalId=null,

flink整合hbase

2020-06-04 文章 liunaihua521

hi 咨询下，想用flink1.10整合hbase，请问一下hadoop，hbase都需要什么版本？有哪位跑通过，可否提供下配置文件，我在本地测试，所有集群都正常启动，提交任务（flink读写hbase）总是报错，找不到某些类，是否跟版本有问题？提前谢谢了！ | | liunaihua521 | | 邮箱：liunaihua...@163.com | 签名由网易邮箱大师定制

Re: Flink SQL 子查询优化问题

2020-06-04 文章 godfrey he

hi Yichao, 最好的解决方式是在code gen的时候支持表达式复用，后续会慢慢加上这些优化。 Best, Godfrey 1048262223 <1048262...@qq.com> 于2020年6月4日周四下午9:52写道： > Hi > > > 感谢答复，我明天使用下这种方式 > 社区也有同学提供了udf使用udtf代替的方法 > 我会尝试使用上述两种方式实现下 > > > 还有想问下之后有对这部分做优化的计划吗？ > > > Best, > Yichao Yang > > > > > > -- 原始邮件

回复：Flink SQL 子查询优化问题

2020-06-04 文章 1048262223

Hi 感谢答复，我明天使用下这种方式社区也有同学提供了udf使用udtf代替的方法我会尝试使用上述两种方式实现下还有想问下之后有对这部分做优化的计划吗？ Best, Yichao Yang -- 原始邮件 -- 发件人: godfrey he

Re: flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 godfrey he

hi yihan, 如 Leonard 所说，你可以考虑使用 first_value, last_value 等聚合函数和赛选其他字段。 1.11开始支持ddl定义pk信息，如果id在source表中也是pk字段，可以直接定义， planner会利用该信息传递pk到sink表。 Bests， Godfrey Leonard Xu 于2020年6月4日周四下午9:01写道： > Hi, > > > 但这样子不能通过calcite的sqlvalidation，select后面不能有非聚合项， > > select后费聚合值可以通过max()或sum()来取，因为已经按照key

Re: 关于flinksql 与维表mysql的关联问题

2020-06-04 文章 godfrey he

hi 可以考虑使用 temporal table join [1] Best, Godfrey [1] https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/streaming/joins.html#join-with-a-temporal-table 小屁孩 <932460...@qq.com> 于2020年6月4日周四下午5:51写道： > 您的意思是open 全量预加载吗？我目前的逻辑是自己自定义的source 广播出去 > 这是我的source > > > import

Re: Flink SQL 子查询优化问题

2020-06-04 文章 godfrey he

hi Yichao, 目前 planner 会 try best 的将两个相邻的 project 节点合并在一起，除非两个project被分开。就像你上面的那种做法。但是加一个group by的执行代价比较高。对于blink planner 而言，*有一个绕的办法*，可以在子查询的结果加一个print sink（可以ignore输出），利用多sink的优化特性，将两个project分开，从而阻止优化器将两个project合并。 Best, Godfrey 1048262223 <1048262...@qq.com> 于2020年6月4日周四下午4:56写道： > Hi

Re: flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 Leonard Xu

Hi, > 但这样子不能通过calcite的sqlvalidation，select后面不能有非聚合项， select后费聚合值可以通过max()或sum()来取，因为已经按照key group by了，所以取出来的非聚合值只能有一条， > 这样子key的state无限增长(比如说amount是一个随机的double数)，job跑不久就会fail掉。 State 可以配置ttl的，过期清理参考[1] 另外，即将发布的1.11中，支持在jdbc table 上定义primary key，不用强制要求写upsert 的query，文档正在撰写中[2] Best, Leonard

Re: Re： flink数据sink到mysql 是事务处理

2020-06-04 文章 hdxg1101300...@163.com

您好：我是在样的情况，flink处理完数据后数据被我组织成一个3元组，第一个元素代表的是对这个元素的操作(插入还是删除)，第二个是我的user_ID,第三个是一个list里面有多个实体；数据要插入或者删除，因为list的大小不确定所以在操作mysql的时候开起了事务保证这一批次的数据幂等，但是程序运行一段时间后出现死锁，但是不影响数据，所以发邮件想知道大家是怎么处理的，结果这么多天才有回复讨论；伪代码如下： public RdsOperaterSink2(String url, String name, String password)

Re: pyflink下mysql数据更新操作

2020-06-04 文章 Xingbo Huang

Hi, 小学生我的理解是key如果是mysql主键的话，你正常sink进去，那条key=1,value=3的数据就会覆盖掉key=1,value=2的数据 Best, Xingbo 小学生 <201782...@qq.com> 于2020年6月4日周四下午6:05写道： > 您好，第一个问题您说的这样我理解，但是我的问题是比如先前在mysql表已经有一条key=1,value=2的数据，但是接着我要按key=1时，value=3去覆盖掉key=1,value=2的数据，也就是mysql > 命令中update table **SET value=3 WHERE key=1;

??????yarn-session??job????????????????????????

2020-06-04 文章 star

-n 1.10 ---- ??:""

??????flink sql upsert????????mysql??es??key??????groupby??????????????

2020-06-04 文章 1048262223

Hi ??key https://blog.csdn.net/lp284558195/article/details/104609739 https://ci.apache.org/projects/flink/flink-docs-stable/dev/table/streaming/query_configuration.html#:~:text=The%20minimum%20idle%20state%20retention,kept%20before%20it%20is%20removed. Best, Yichao

yarn-session多job的模式下是动态申请资源吗

2020-06-04 文章孙森

你好。我目前用的是flink-1.7.2版本，使用的是yarn-session多job的模式。启动yarn-session之后，在flink ui上并没有看到申请配置的资源，而是提交flink job的时候才申请的container。当提交多个job时，yarn-session会按照job需要的slot数量动态申请资源。比如，启动yarn-session的配置为: ./bin/yarn-session.sh -tm 8192 -s 2 �Cn 4 提交一个job需要的资源是 8个slot，那么yarn-session会申请4个taskmanager来运行该job。

flink sql upsert模式写入mysql，es等key一定是groupby之后所有字段吗

2020-06-04 文章 xu yihan

举个例子比如我想要 insert into mysql_sink select ID， amount， ……… from source groupby ID；这里就是想按照id为key，在数据库里更新这个id对应的amount等其他值。但这样子不能通过calcite的sqlvalidation，select后面不能有非聚合项，必须在groupby后面加上所有select后面的项。但这样带来一个问题，这样子key的state无限增长(比如说amount是一个随机的double数)，job跑不久就会fail掉。

flink sql ddl能设置ttl吗？

2020-06-04 文章 xu yihan

各位好，我有一个需求是要维表关联mysql数据，再upsert写入mysql，就是个丰富字段的简单需求。现在有两个问题： 1.为了实现upsert插入，我试下来必须使用groupby指定key，但是select内又有很多非聚合项，所以没办法在groupby后面加上所有那些非聚合项，否则通不过calcite validation。 2.现在遇到了一个问题，跑一段时间会抱full GC，我估计是因为groupby导致的状态不清理。请问flink sql ddl能通过类似SET 语句来设定ttl吗，搜了官方文档只有提到table

Re: pyflink??mysql????????????

2020-06-04 文章 ??????

??mysqlkey=1,value=2??key=1value=3key=1,value=2??mysql ??update table **SET value=3 WHERE key=1;

Re: pyflink下mysql数据更新操作

2020-06-04 文章 Xingbo Huang

Hi, 小学生 1. 关于问题1，这个是支持的，你通过TableEnvrironment的sql_update就行例如： s_env = StreamExecutionEnvironment.get_execution_environment() s_env.set_parallelism(1) st_env = StreamTableEnvironment.create(s_env) mysql_source_ddl = """ CREATE TABLE buybacksource ( a VARCHAR, b VARCHAR, c VARCHAR, proctime AS

??????????flinksql ??????mysql??????????

2020-06-04 文章 ??????

??open source source import org.apache.flink.configuration.Configuration; import org.apache.flink.streaming.api.functions.source.RichSourceFunction; import java.sql.Connection; import java.sql.PreparedStatement; import

Re:?????? flink 1.9 ????????????????

2020-06-04 文章 Michael Ran

?? json??kafka??flink ??json??table?? json ?? 2020-06-03 16:31:15??"star" <3149768...@qq.com> ?? > > >??select

Re:????flinksql ??????mysql??????????

2020-06-04 文章 Michael Ran

open ?? 2020-06-04 14:15:05??"??" <932460...@qq.com> ?? >dear?? ??,flinksql??mysql >mysql??

Batch 模式 Table API 增加cache算子

2020-06-04 文章 jun su

hi all, 最初blink分支上有对batch模式下的table cache操作, 后续会merge到flink上来么？ -- Best, Jun Su

Re: flink1.10整合hbase测试遇到的问题

2020-06-04 文章 Weihua Hu

可以尝试把依赖包 shaded 到你的 jar 包里，保证依赖的完整 Best Weihua Hu > 2020年6月3日 22:52，liunaihua521 写道： > > > > - 转发邮件信息 - > > 发件人： liunaihua521 > 发送日期： 2020年6月3日 22:18 > 发送至： user-zh-i...@flink.apache.org > 、

Flink SQL ??????????????

2020-06-04 文章 1048262223

Hi all ?? Flink ??1.10 Planner??old planner/ blink planner ??Flink SQL source??Tuple2.of(1, "{\"name\": \"a\"}"); query??select a.id, a.name, a.name from (select id, body_json_to_map(name) as name from data) a sink??print udf??body_json_to_map

pyflink??mysql????????????

2020-06-04 文章 ??????

1.pyflink sql??update1.10.0 2.pyflink??Table

Re: pyflink ????????????????

2020-06-04 文章 ??????

get??udf??

Re: pyflink 嵌套使用函数出错

2020-06-04 文章 Xingbo Huang

Hi, 小学生我稍微修改了一下你的code(你的from_elements那样写按理说就没法运行) code是能够正确运行的，你可以参考一下，你去掉的是不是有问题，或者你把你修改后的代码贴上来，再一起看看 from pyflink.table import StreamTableEnvironment, DataTypes, EnvironmentSettings, TableConfig, \ BatchTableEnvironment from pyflink.table.descriptors import Schema, OldCsv, FileSystem from

Re: pyflink ????????????????

2020-06-04 文章 ??????

??

Re: pyflink 嵌套使用函数出错

2020-06-04 文章 Xingbo Huang

Hi, 小学生。把函数get的标签udf给去掉，它只是普通的Python函数，不要加上@udf，加上之后就不是python的函数了。只有Python的UDF你才要加上@udf Best, Xingbo 小学生 <201782...@qq.com> 于2020年6月4日周四下午2:46写道： > 各位大佬好，初学pyflink,有一个问题需要帮忙解决下。 > > > 代码为： > from pyflink.table import StreamTableEnvironment, DataTypes, >

pyflink ????????????????

2020-06-04 文章 ??????

pyflink,?? from pyflink.table import StreamTableEnvironment, DataTypes, EnvironmentSettings,TableConfig,BatchTableEnvironment from pyflink.table.descriptors import Schema, OldCsv, FileSystem from pyflink.table.udf import udf from

??????????flinksql ??????mysql??????????

2020-06-04 文章 1048262223

Hi jobjobsavepoint?? Best, Yichao Yang ---- ??:"??"<932460...@qq.com; :2020??6??4??(??) 2:15 ??:"user-zh"

??????????flinksql ??????mysql??????????

2020-06-04 文章 1530130567

Hi?? JOIN??WaterMark??maxoutoforderness ---- ??:"??"<932460...@qq.com; :2020??6??4??(??) 2:15 ??:"user-zh"

????flinksql ??????mysql??????????

2020-06-04 文章 ??????

dear?? ??,flinksql??mysql mysql?? mysql??mysqlmysql

56 matches

Mail list logo