[GitHub] [incubator-seatunnel] dik111 commented on issue #1929: [question]How can I use hive-sink to save table as ORCFileFormat

GitBox Fri, 20 May 2022 21:30:16 -0700


dik111 commented on issue #1929:
URL: 
https://github.com/apache/incubator-seatunnel/issues/1929#issuecomment-1133529170


   > Have you try create hive table use orc format? then just use seatunnel 
load data into hive table.
   
   I had tried this, but it doesn't work.
   Here is my hive ORCformat table create command:
   ```sql
   CREATE TABLE test.user_info ( 
    id BIGINT ,
    name VARCHAR(255) ,
    sex VARCHAR(255) ,
    update_time STRING ,
    create_time STRING ,
    update_time244 STRING ,
    day1234 STRING ,
    ts STRING)  
     ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS orcfile
   ```
   And here is my seatunnel(v2.1.0) conf file:
   ```
   env {
            spark.streaming.batchDuration = 5
            spark.app.name = 
"seatunnel-app-mysql_hive_yuwei_test.user_info_0521"
            spark.sql.catalogImplementation = "hive"
            
        
        }
        source {
            jdbc {
                driver = "com.mysql.jdbc.Driver"
                url = 
"jdbc:mysql://xxx:3306/test?characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&useSSL=false&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=GMT%2B8&allowMultiQueries=true"
                table = "  (select id AS id , name AS name , sex AS sex , 
update_time AS update_time , create_time AS create_time , update_time244 AS 
update_time244 , day1234 AS day1234 , ts AS ts from test.user_info ) tmp"
                result_table_name = "source_table"
                user = "bigdata"
                password = "***"
                    }
        }
        sink {
            Hive {
                source_table_name = "source_table"
                result_table_name = "test.user_info_0521"
                save_mode = "append"
            }
        }
        transform{}
   ```
   It thorws error:
   ```
   22157 [Driver] ERROR org.apache.spark.deploy.yarn.ApplicationMaster  - User 
class threw exception: org.apache.spark.sql.AnalysisException: The format of 
the existing table yuwei_test.user_info_0521 is `HiveFileFormat`. It doesn't 
match the specified format `ParquetFileFormat`.;
   org.apache.spark.sql.AnalysisException: The format of the existing table 
yuwei_test.user_info_0521 is `HiveFileFormat`. It doesn't match the specified 
format `ParquetFileFormat`.;
        at 
org.apache.spark.sql.execution.datasources.PreprocessTableCreation$$anonfun$apply$2.applyOrElse(rules.scala:117)
        at 
org.apache.spark.sql.execution.datasources.PreprocessTableCreation$$anonfun$apply$2.applyOrElse(rules.scala:76)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$$anonfun$resolveOperatorsDown$1$$anonfun$2.apply(AnalysisHelper.scala:108)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$$anonfun$resolveOperatorsDown$1$$anonfun$2.apply(AnalysisHelper.scala:108)
        at 
org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$$anonfun$resolveOperatorsDown$1.apply(AnalysisHelper.scala:107)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$$anonfun$resolveOperatorsDown$1.apply(AnalysisHelper.scala:106)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.allowInvokingTransformsInAnalyzer(AnalysisHelper.scala:194)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$class.resolveOperatorsDown(AnalysisHelper.scala:106)
        at 
org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperatorsDown(LogicalPlan.scala:29)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$class.resolveOperators(AnalysisHelper.scala:73)
        at 
org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperators(LogicalPlan.scala:29)
        at 
org.apache.spark.sql.execution.datasources.PreprocessTableCreation.apply(rules.scala:76)
        at 
org.apache.spark.sql.execution.datasources.PreprocessTableCreation.apply(rules.scala:72)
        at 
org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:87)
        at 
org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:84)
        at 
scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57)
        at 
scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66)
        at scala.collection.mutable.ArrayBuffer.foldLeft(ArrayBuffer.scala:48)
        at 
org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:84)
        at 
org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:76)
        at scala.collection.immutable.List.foreach(List.scala:392)
        at 
org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:76)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.org$apache$spark$sql$catalyst$analysis$Analyzer$$executeSameContext(Analyzer.scala:127)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.execute(Analyzer.scala:121)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer$$anonfun$executeAndCheck$1.apply(Analyzer.scala:106)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer$$anonfun$executeAndCheck$1.apply(Analyzer.scala:105)
        at 
org.apache.spark.sql.catalyst.plans.logical.AnalysisHelper$.markInAnalyzer(AnalysisHelper.scala:201)
        at 
org.apache.spark.sql.catalyst.analysis.Analyzer.executeAndCheck(Analyzer.scala:105)
        at 
org.apache.spark.sql.execution.QueryExecution.analyzed$lzycompute(QueryExecution.scala:57)
        at 
org.apache.spark.sql.execution.QueryExecution.analyzed(QueryExecution.scala:55)
        at 
org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:47)
        at 
org.apache.spark.sql.execution.QueryExecution.withCachedData$lzycompute(QueryExecution.scala:61)
        at 
org.apache.spark.sql.execution.QueryExecution.withCachedData(QueryExecution.scala:60)
        at 
org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:66)
        at 
org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:66)
        at 
org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:72)
        at 
org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:68)
        at 
org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:77)
        at 
org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:77)
        at 
org.apache.spark.sql.execution.SQLExecution$$anonfun$withNewExecutionId$1.apply(SQLExecution.scala:76)
        at 
org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:125)
        at 
org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:73)
        at 
org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:676)
        at 
org.apache.spark.sql.DataFrameWriter.createTable(DataFrameWriter.scala:474)
        at 
org.apache.spark.sql.DataFrameWriter.saveAsTable(DataFrameWriter.scala:453)
        at 
org.apache.spark.sql.DataFrameWriter.saveAsTable(DataFrameWriter.scala:409)
        at org.apache.seatunnel.spark.sink.Hive.output(Hive.scala:62)
        at org.apache.seatunnel.spark.sink.Hive.output(Hive.scala:29)
        at 
org.apache.seatunnel.spark.batch.SparkBatchExecution.sinkProcess(SparkBatchExecution.java:90)
        at 
org.apache.seatunnel.spark.batch.SparkBatchExecution.start(SparkBatchExecution.java:105)
        at org.apache.seatunnel.Seatunnel.entryPoint(Seatunnel.java:107)
        at org.apache.seatunnel.Seatunnel.run(Seatunnel.java:65)
        at org.apache.seatunnel.SeatunnelSpark.main(SeatunnelSpark.java:29)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at 
sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at 
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at 
org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:684)
   ```


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

[GitHub] [incubator-seatunnel] dik111 commented on issue #1929: [question]How can I use hive-sink to save table as ORCFileFormat

Reply via email to