flink on yarn 模式, rest port 是随机的,需要获取rest port,有什么好办法?
flink 访问hive 表,怎样实现读写权限校验?能够支持sql或者java api 任务。
类似: spark-submit 支持--jars,更灵活方便,
[image: image.png]
melin li 于2022年12月8日周四 11:09写道:
> 如果是作业依赖的jar,是可以打一个flat jar。有两种场景:
> 1、sql作业中,用户依赖某个connector jar,但平台不提供这个connector,需要用户上传,
> 2、自定义udf 管理,依赖的jar 需要和任务一起提交。
>
> yuxia 于2022年12月8日周四 10:06写道:
>
>> 为啥说 不能提交依赖的第三方jar?用户的 j
如果是作业依赖的jar,是可以打一个flat jar。有两种场景:
1、sql作业中,用户依赖某个connector jar,但平台不提供这个connector,需要用户上传,
2、自定义udf 管理,依赖的jar 需要和任务一起提交。
yuxia 于2022年12月8日周四 10:06写道:
> 为啥说 不能提交依赖的第三方jar?用户的 job 把这些包打进去不就好了吗? 还是说你指的是 sql 作业?
>
> Best regards,
> Yuxia
>
>
> 发件人: "melin li"
> 收件人
客户端提交flink job 不能提交依赖的第三方jar,例如自定的函数jar,sql 里面的依赖connector
jar,需要提前放置好。如果基于flink 平台化,需要动态的添加jar。目前可能的做法,就是把依赖的jar, 动态的添加作业jar
的lib目录下。getJobJarAndDependencies
就是从jar 中获取依赖的jar。不是很方便。 是可以添加一个参数,指定依赖的jar,flink 设计各种诡异。
[image: image.png]
如果一个hive 数据库同时有hudi和parquet表,好像只能分别注册hive catalog,和hudi
catalog,两不同表需要分别使用通过catalog。不是很优雅,也对用户造成困惑。
select * from hudi_catalog.dbName.table1 left jon hive_catalog.dbBane.table2
spark 如果把hudi catalog注册名为spark_catalog,spark_catalog 是spark 默认cataog 名。sql
同时方式hudi 和parquet表,不需要添加catalog name。
select *
JdbcCatalogUtils 简单校验url 格式,对于pg,sqlserver 等数据库是有多catalog,且不同catalog
之间是不能相互访问,参考presto 设计处理,对于同一个pg实例的不同catalog,需要配置多个,具体到catalog,建议配置url
应该指定catalog。还有oracle数据,是需要指定sid,定制OracleCatalog 就遇到困惑。Spark jdbc 没有限制。
[image: image.png]
第二问题:
oracle,pg,sqlserver Dialect中 quoteIdentifier方法,没有添加 双引号,有一些场景会出
https://github.com/melin/flink-cdc-catalog 准备补全jdbc catalog和cdc catalog
melin li 于2022年11月24日周四 19:08写道:
> flink jdbc catalog 只支持mysql pg,有计划支持oracle、sqlserver、db2 数据库?
>
flink jdbc catalog 只支持mysql pg,有计划支持oracle、sqlserver、db2 数据库?
ges could not show normally.
>
> Given that *ApplicationDeployer* is not only used for Yarn application
> mode, but also native Kubernetes, I am not sure which way you are referring
> to return the applicationId.
> We already print the applicationId in the client logs. Right?
>
> B
Data platform has registered many relational database data sources such as
mysql, data source code is used as the catalog name, we are not sure which
data source needs to register the catalog in flink, we hope that the
required catalog can be dynamically loaded when sql is executed, flink
provides
The task is submitted by ApplicationDeployer api, and the run is
synchronous and waiting for the submission to be completed. If the task is
submitted to yarn, it is probably accepted and the yarn applicationID is
not obtained at this time. It is difficult to cancel the task.Recommended
to org. apac
Supports operations like hudi/iceberg calls, such as savepoint
https://hudi.apache.org/docs/procedures/
CALL system.procedure_name(arg_1, arg_2, ... arg_n)
在spark中有一个spark.yarn.jars 参数,作业依赖jar 直接放在hdfs上,避免从本地上传jar,在分发,加快启动速度。
YarnClusterDescriptor.java
// upload and register ship files
String systemJarHdfsDir =
configuration.getString("stream.flink.system.jars.dir", "");
List systemClassPaths = findHdfsJars(fs, systemJarHdfsDir, paths,
localResour
14 matches
Mail list logo