flink on yarn 模式,在jar任务中,怎么获取rest port

2024-07-31 文章 melin li
flink on yarn 模式, rest port 是随机的,需要获取rest port,有什么好办法?

flink 访问hive 表,怎样实现读写权限校验?

2023-01-31 文章 melin li
flink 访问hive 表,怎样实现读写权限校验?能够支持sql或者java api 任务。

Re: 提交任务不能指定第三方jar

2022-12-13 文章 melin li
类似: spark-submit 支持--jars,更灵活方便, [image: image.png] melin li 于2022年12月8日周四 11:09写道: > 如果是作业依赖的jar,是可以打一个flat jar。有两种场景: > 1、sql作业中,用户依赖某个connector jar,但平台不提供这个connector,需要用户上传, > 2、自定义udf 管理,依赖的jar 需要和任务一起提交。 > > yuxia 于2022年12月8日周四 10:06写道: > >> 为啥说 不能提交依赖的第三方jar?用户的 j

Re: 提交任务不能指定第三方jar

2022-12-07 文章 melin li
如果是作业依赖的jar,是可以打一个flat jar。有两种场景: 1、sql作业中,用户依赖某个connector jar,但平台不提供这个connector,需要用户上传, 2、自定义udf 管理,依赖的jar 需要和任务一起提交。 yuxia 于2022年12月8日周四 10:06写道: > 为啥说 不能提交依赖的第三方jar?用户的 job 把这些包打进去不就好了吗? 还是说你指的是 sql 作业? > > Best regards, > Yuxia > > > 发件人: "melin li" > 收件人

提交任务不能指定第三方jar

2022-12-07 文章 melin li
客户端提交flink job 不能提交依赖的第三方jar,例如自定的函数jar,sql 里面的依赖connector jar,需要提前放置好。如果基于flink 平台化,需要动态的添加jar。目前可能的做法,就是把依赖的jar, 动态的添加作业jar 的lib目录下。getJobJarAndDependencies 就是从jar 中获取依赖的jar。不是很方便。 是可以添加一个参数,指定依赖的jar,flink 设计各种诡异。 [image: image.png]

如果一个hive 数据库同时有hudi表和parquet,需要注册两个catalog?

2022-11-28 文章 melin li
如果一个hive 数据库同时有hudi和parquet表,好像只能分别注册hive catalog,和hudi catalog,两不同表需要分别使用通过catalog。不是很优雅,也对用户造成困惑。 select * from hudi_catalog.dbName.table1 left jon hive_catalog.dbBane.table2 spark 如果把hudi catalog注册名为spark_catalog,spark_catalog 是spark 默认cataog 名。sql 同时方式hudi 和parquet表,不需要添加catalog name。 select *

Flink jdbc base-url 格式限制探讨

2022-11-25 文章 melin li
JdbcCatalogUtils 简单校验url 格式,对于pg,sqlserver 等数据库是有多catalog,且不同catalog 之间是不能相互访问,参考presto 设计处理,对于同一个pg实例的不同catalog,需要配置多个,具体到catalog,建议配置url 应该指定catalog。还有oracle数据,是需要指定sid,定制OracleCatalog 就遇到困惑。Spark jdbc 没有限制。 [image: image.png] 第二问题: oracle,pg,sqlserver Dialect中 quoteIdentifier方法,没有添加 双引号,有一些场景会出

Re: 支持oracle、sqlserver、db2 jdbc catalog

2022-11-25 文章 melin li
https://github.com/melin/flink-cdc-catalog 准备补全jdbc catalog和cdc catalog melin li 于2022年11月24日周四 19:08写道: > flink jdbc catalog 只支持mysql pg,有计划支持oracle、sqlserver、db2 数据库? >

支持oracle、sqlserver、db2 jdbc catalog

2022-11-24 文章 melin li
flink jdbc catalog 只支持mysql pg,有计划支持oracle、sqlserver、db2 数据库?

Re: Optimize ApplicationDeployer API design

2022-11-23 文章 melin li
ges could not show normally. > > Given that *ApplicationDeployer* is not only used for Yarn application > mode, but also native Kubernetes, I am not sure which way you are referring > to return the applicationId. > We already print the applicationId in the client logs. Right? > > B

动态按需注册catalog

2022-11-23 文章 melin li
Data platform has registered many relational database data sources such as mysql, data source code is used as the catalog name, we are not sure which data source needs to register the catalog in flink, we hope that the required catalog can be dynamically loaded when sql is executed, flink provides

Optimize ApplicationDeployer API design

2022-11-23 文章 melin li
The task is submitted by ApplicationDeployer api, and the run is synchronous and waiting for the submission to be completed. If the task is submitted to yarn, it is probably accepted and the yarn applicationID is not obtained at this time. It is difficult to cancel the task.Recommended to org. apac

Support Stored procedures

2022-11-23 文章 melin li
Supports operations like hudi/iceberg calls, such as savepoint https://hudi.apache.org/docs/procedures/ CALL system.procedure_name(arg_1, arg_2, ... arg_n)

支持flink.yarn.jars 参数

2020-01-20 文章 melin li
在spark中有一个spark.yarn.jars 参数,作业依赖jar 直接放在hdfs上,避免从本地上传jar,在分发,加快启动速度。 YarnClusterDescriptor.java // upload and register ship files String systemJarHdfsDir = configuration.getString("stream.flink.system.jars.dir", ""); List systemClassPaths = findHdfsJars(fs, systemJarHdfsDir, paths, localResour