Re:回复：flinksql写入hive问题

Geoff nie Mon, 28 Jun 2021 19:43:18 -0700

非常感谢大佬，slot我设置成了4，按照你的方法我排查了下我的问题，应该是我在我的集群配置文件sql-client-defaults.yaml文件中设置的原始值不对：
我多加了个“hive-version: 2.1.1”，后来把这一行注释掉，可以了；而且按照你的方式注册临时catalog也可以了。
这个问题导致我一直卡在这。。。哭



总之，感谢帮助哈






sql-client-defaults.yaml文件中设置的错误原始值如下：
catalogs:  # [] # empty list
# A typical catalog definition looks like:
- name: myhive
  type: hive
#    hive-conf-dir: /opt/hive_conf/
  hive-conf-dir: /etc/hive/conf
#    default-database: ...
  hive-version: 2.1.1
  default-database: myhive




sql-client-defaults.yaml文件中设置的修改后值如下：

catalogs:  # [] # empty list

# A typical catalog definition looks like:

- name: myhive

  type: hive

#    hive-conf-dir: /opt/hive_conf/

  hive-conf-dir: /etc/hive/conf

#    default-database: ...

#  hive-version: 2.1.1

  default-database: myhive








在 2021-06-28 10:35:22，"杨光跃" <[email protected]> 写道：
>写入hive在读取，我试了下是可以的。。。
>第一步：
>    CREATE CATALOG myhive WITH (
>    'type' = 'hive',
>    'default-database' = 'default',
>    'hive-conf-dir' = '/home/admin/hive/conf'
>);
>第二部
>    USE CATALOG myhive;
>第三步
>    select * from hive_table;
>
>
>猜测可能的问题，我们本地部署设置的slot都是1，你可能是在跑着写入任务，没有资源跑读取任务？
>
>
>你可以设置把写入任务停了，或者设置方言问 ： SET table.sql-dialect=hive;
>然后在查询试试。。。。。
>
>
>
>
>
>
>| |
>杨光跃
>|
>|
>[email protected]
>|
>
>
>签名由网易邮箱大师定制
>在2021年6月24日 18:00，Geoff nie<[email protected]> 写道：
>非常感谢！我是在sql-client上提交的，修改配置文件已经成功提交了。hive表下分区文件名如下：
>part-f3fa374b-c563-49c8-bd7a-b3bd7a5fb66d-0-2
>
>
>还有两个问题请教下：
>1.我通过如下创建了kafka流表，通过flink-sql查
>kafka_table 是有数据的，
>但是hdfs上却无文件，为什么呢
>。
>2.hive_table如上已经成功写入数据了，但是为啥flink-sql及hive却读取不到hive表数据呢，SELECT * FROM 
>hive_table WHERE dt='2021-06-21' and hr='18';
>SET table.sql-dialect=default;
>CREATE TABLE kafka_table (
>user_id STRING,
>order_amount DOUBLE,
>log_ts TIMESTAMP(3),
>WATERMARK FOR log_ts AS log_ts - INTERVAL '5' SECOND
>) WITH (
>'connector'='kafka',
>'topic'='t_kafka_03',
>'scan.startup.mode'='earliest-offset',
>'properties.bootstrap.servers'='192.168.1.*:19092,192.168.1.*:19092,192.168.1.*:19092',
>'properties.group.id' = 'testGroup10',
>'format'='json'
>);
>
>
>
>
>烦请帮忙看下。感谢感谢。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>在 2021-06-24 16:12:35，"杨光跃" <[email protected]> 写道：
>
>
>检查点，checkpoint ，如果是jar包发布，直接在代码里写就可以。 如果用的sql-client提交sql ，可以在配置文件：  
>sql-client-defaults.yaml 中加入如下配置：
>configuration:
>execution.checkpointing.interval: 1000
>| |
>杨光跃
>|
>|
>[email protected]
>|
>签名由网易邮箱大师定制
>在2021年6月24日 16:09，Geoff nie<[email protected]> 写道：
>非常感谢答复，不过我仔细考虑了下也没想明白，能具体说下在哪里配置参数吗。感谢！
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>在 2021-06-24 14:47:24，"杨光跃" <[email protected]> 写道：
>分区的提交需要开启checkpoint，要配置下
>
>
>| |
>杨光跃
>|
>|
>[email protected]
>|
>签名由网易邮箱大师定制
>在2021年6月24日 14:44，Geoff nie<[email protected]> 写道：
>您好！我也遇到这个问题了，跟以下问题类似，请问，这个问题解决了吗？非常感谢。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>在 2021-02-14 10:43:33，"潘永克" <[email protected]> 写道：
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>-------- 转发邮件信息 --------
>发件人："潘永克" <[email protected]>
>发送日期：2021-02-11 11:12:39
>收件人：[email protected]
>主题：flinksql写入hive问题
>
>咨询一个flink问题。flinsql，能写入数据到hive表。但是hive表中的数据，都是基于 
>".part，，，，inprogress，，，，"类似的文件。flink1.12.0
>基于cdh6.2.0编译的，hive版本是2.1.1、hadoop-3.0.0.  问题截图如下：
>创建hive表：：：：
>SET table.sql-dialect=hive;
>CREATE TABLE hive_table (
>user_id STRING,
>order_amount DOUBLE
>) PARTITIONED BY (dt STRING, hr STRING) STORED AS parquet TBLPROPERTIES (
>'partition.time-extractor.timestamp-pattern'='$dt $hr:00:00',
>'sink.partition-commit.trigger'='partition-time',
>'sink.partition-commit.delay'='1 min',
>'sink.partition-commit.policy.kind'='metastore,success-file'
>);
>插入数据：：：：
>INSERT INTO TABLE hive_table
>SELECT user_id, order_amount, DATE_FORMAT(log_ts, 'yyyy-MM-dd'), 
>DATE_FORMAT(log_ts, 'HH')
>FROM kafka_table;
>
>
>文件始终不落地，一直都是 ".part-。。。。inprogress。。。"。文件。
>
>
>
>
>
>
>
>
>
>
>
>
>
>