Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Michael Ran Wed, 20 Mar 2019 00:34:07 -0700
- *各位在使用哪个版本的Hive？有计划升级Hive吗？*<br/>    我们是cdh5.8.3 hive 1.1吧。目前稳定考虑升级到CDH6 
hive2.1 但是估计时间会比较久<br/><br/>- 
*各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*<br/>    
目前大部分是hive，因为稳定，一部分是spark 。  希望flink 首先SQL 支持最好兼容hive语法，稳定、稳定很重要。最好能有接口获取血缘 
执行计划分析之类的，方便做工具<br/><br/>- 
*各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*<br/>    想实时 
离线引擎尽量一套搞定吧，维护方便些，当然也考虑性能各方面，以及实时过程中对hive 的一些加载等<br/><br/>- 
*各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*<br/>    目前还是脚本任务，数据量一天估计2-4T吧， 
批量导入，小时级别导入，然后分析 导出，读写都有<br/><br/> - *有多少Hive UDF？都是什么类型？*<br/>    udf 
不多，就一些UUID 单字段分割多列 ，雪花算法 等等   <br/><br/> - *对项目有什么问题或者建议？*<br/>   API 
尽量简单些。有接口处理血缘这块，包括优化分析的，能图形化 最好 哈哈<br/>   其次都有一些用例 demo之类的，尽量完整吧<br/>   
有空可以周末约一下呗，杭州地区的
在 2019-03-20 15:21:48，"qianjin Xu" <[email protected]> 写道：
>非常感谢博闻发起的关于hive的讨论，hive在离线数据仓库处理这块占了我们80%的离线处理使用。
>
>*各位在使用哪个版本的Hive？有计划升级Hive吗？我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
>*各位计划切换Hive引擎吗？有时间点吗？主要是追求稳定输出，版本升级需要对应一系列测试，我们暂时还不打算升级。
>*各位使用Flink-Hive的动机是什么？想只是用一套Flink技术栈，批流合一，方便维护和学习。
>*各位如何使用Hive？数据量有多大？读写都有，一天2T左右。
>*有多少Hive UDF？都是什么类型？ 主要GPS行程数据相关的与geo相关的比较多。
>*对项目有什么问题或者建议？flink on hive优先稳定和兼容性。
>
>前进
>
>董鹏 <[email protected]> 于2019年3月20日周三 上午9:29写道：
>
>> 1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
>> hive太重要了，稳定，夜间跑任务，可以满足。
>>    - *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
>>    -
>> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
>> on hive
>>    -
>> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
>>    - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
>>    - *有多少Hive UDF？都是什么类型？*//挺多
>>    - *对项目有什么问题或者建议？*//1）flink on hive
>> 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
>>
>>
>> ------------------ Original ------------------
>> From:  "Bowen Li"<[email protected]>;
>> Date:  Wed, Mar 20, 2019 08:09 AM
>> To:  "user-zh"<[email protected]>;
>>
>> Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>>
>>
>> Flink中文频道的童鞋们，大家好，
>>
>> *我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>>
>> 背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
>> 上我们做了 “Integrating Flink with Hive”
>> 的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
>> 元数据的兼容，和常见的通过Flink 读写
>>
>> Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
>>
>> *当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>>
>> 我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
>>
>> 快速回顾下我们内部已经完成的工作：
>>
>>    - Flink/Hive 元数据兼容
>>       - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
>>       partitions, table/partition stats 等元数据
>>       - 三种catalog实现：一种默认的内存catalog；HiveCatalog
>>       用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
>> Flink
>>       流和批的元数据
>>       - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
>>       - 统一的function catalog，并支持Hive 简单的 UDF
>>    - Flink/Hive 数据兼容
>>       - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
>>    - 集成了了上述功能的SQL 客户端
>>
>> *我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
>>
>>    - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>>    - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>>    - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>>    - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>>    - *有多少Hive UDF？都是什么类型？*
>>    - *对项目有什么问题或者建议？*
>>
>> 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
>>
>> Bowen
Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs

回复

Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs