可以用改写StreamingfileSink的方式去直接写orc文件 不过这种方式的分区需要手动添加
陈帅 <[email protected]> 于2019年12月8日周日 上午10:04写道: > 有人说直接写到HBase,再在Hive关联Hbase表 > 但是我想直接写文件到HDFS,再通过Hive外表加载,不过有几个问题不明白: > > 1. 如果用行式格式实时写没有问题,StreamingFileSink也支持,但是如果我想用列式格式(如Parquet或ORC) > 写的话,目前来看没有现成的Streaming > Writer,官方提供的都是 > BulkWriter,只支持批处理方式。是不是不建议用列式格式进行流式写?如果能的话需要自己定义StreamingWriter吗?对于 > 业务上的Update和Delete操作 数据一般是如何sync进Hive的? > > 2. 写入HDFS文件后,要怎么让Hive自动发现新加的分区?能在Flink ETL程序中一并完成吗? >
