[I] [Bug report] Throw `Invalid version string` when using pyspark to access S3 [gravitino]

via GitHub Thu, 28 Aug 2025 05:31:47 -0700


yuqi1129 opened a new issue, #8337:
URL: https://github.com/apache/gravitino/issues/8337


   ### Version
   
   main branch
   
   ### Describe what's wrong
   
   When I use PySpark to access S3 with GVFS, the following error occur:
   
   ```
   Traceback (most recent call last):
     File "<stdin>", line 1, in <module>
     File 
"/Users/yuqi/venv-spark-3.1/lib/python3.9/site-packages/pyspark/sql/readwriter.py",
 line 1372, in csv
       self._jwrite.csv(path)
     File 
"/Users/yuqi/venv-spark-3.1/lib/python3.9/site-packages/py4j/java_gateway.py", 
line 1304, in __call__
       return_value = get_return_value(
     File 
"/Users/yuqi/venv-spark-3.1/lib/python3.9/site-packages/pyspark/sql/utils.py", 
line 111, in deco
       return f(*a, **kw)
     File 
"/Users/yuqi/venv-spark-3.1/lib/python3.9/site-packages/py4j/protocol.py", line 
326, in get_return_value
       raise Py4JJavaError(
   py4j.protocol.Py4JJavaError: An error occurred while calling o83.csv.
   : org.apache.gravitino.exceptions.GravitinoRuntimeException: Invalid version 
string
        at 
org.apache.gravitino.client.GravitinoVersion.getVersionNumber(GravitinoVersion.java:53)
        at 
org.apache.gravitino.client.GravitinoVersion.compatibleWithServerVersion(GravitinoVersion.java:65)
        at 
org.apache.gravitino.client.GravitinoClientBase.checkVersion(GravitinoClientBase.java:103)
        at 
org.apache.gravitino.client.HTTPClient.performPreConnectHandler(HTTPClient.java:418)
        at org.apache.gravitino.client.HTTPClient.execute(HTTPClient.java:340)
        at org.apache.gravitino.client.HTTPClient.execute(HTTPClient.java:294)
        at org.apache.gravitino.client.HTTPClient.get(HTTPClient.java:463)
        at org.apache.gravitino.client.RESTClient.get(RESTClient.java:165)
        at 
org.apache.gravitino.client.GravitinoClientBase.loadMetalake(GravitinoClientBase.java:132)
        at 
org.apache.gravitino.client.GravitinoClient.<init>(GravitinoClient.java:105)
        at 
org.apache.gravitino.client.GravitinoClient$ClientBuilder.build(GravitinoClient.java:707)
        at 
org.apache.gravitino.client.GravitinoClient$ClientBuilder.build(GravitinoClient.java:667)
        at 
org.apache.gravitino.filesystem.hadoop.GravitinoVirtualFileSystemUtils.createClient(GravitinoVirtualFileSystemUtils.java:115)
        at 
org.apache.gravitino.filesystem.hadoop.GravitinoVirtualFileSystemUtils.createClient(GravitinoVirtualFileSystemUtils.java:75)
        at 
org.apache.gravitino.filesystem.hadoop.BaseGVFSOperations.<init>(BaseGVFSOperations.java:149)
        at 
org.apache.gravitino.filesystem.hadoop.DefaultGVFSOperations.<init>(DefaultGVFSOperations.java:53)
        at 
java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance0(Native
 Method)
        at 
java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:77)
        at 
java.base/jdk.internal.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at 
java.base/java.lang.reflect.Constructor.newInstanceWithCaller(Constructor.java:499)
        at 
java.base/java.lang.reflect.Constructor.newInstance(Constructor.java:480)
        at 
org.apache.gravitino.filesystem.hadoop.GravitinoVirtualFileSystem.initialize(GravitinoVirtualFileSystem.java:91)
        at 
org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3303)
        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:124)
        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.
   ```
   
   ### Error message and/or stacktrace
   
   Please see above
   
   <img width="1526" height="974" alt="Image" 
src="https://github.com/user-attachments/assets/d67b72b8-f924-4c17-bba5-e8aeb39d66de";
 />
   
   ### How to reproduce
   
   import logging
   logging.basicConfig(level=logging.INFO)
   
   from gravitino import NameIdentifier, GravitinoClient, Catalog, Fileset, 
GravitinoAdminClient
   
   gravitino_url = "http://localhost:8090";
   metalake_name = "test"
   
   catalog_name = "s3_credential_catalog"
   schema_name = "schema"
   fileset_name = "example_with_dir"
   
   fileset_ident = NameIdentifier.of(schema_name, fileset_name)
   
   gravitino_admin_client = GravitinoAdminClient(uri=gravitino_url)
   gravitino_client = GravitinoClient(uri=gravitino_url, 
metalake_name=metalake_name)
   
   from pyspark.sql import SparkSession
   import os
   
   os.environ["PYSPARK_SUBMIT_ARGS"] = "--jars 
/Users/yuqi/project/gravitino/bundles/aws/build/libs/gravitino-aws-1.0.0-SNAPSHOT.jar,/Users/yuqi/project/gravitino/clients/filesystem-hadoop3-runtime/build/libs/gravitino-filesystem-hadoop3-runtime-1.0.0-SNAPSHOT.jar,/Users/yuqi/Downloads/hadoop-jars/hadoop-aws-3.2.0.jar,/Users/yuqi/.m2/repository/com/amazonaws/aws-java-sdk-bundle/1.11.375/aws-java-sdk-bundle-1.11.375.jar
 --conf 
\"spark.driver.extraJavaOptions=--add-opens=java.base/sun.nio.ch=ALL-UNNAMED 
-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=5005\" --conf 
\"spark.executor.extraJavaOptions=--add-opens=java.base/sun.nio.ch=ALL-UNNAMED 
-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005\" --master 
local[1] pyspark-shell"
   
   spark = SparkSession.builder \
       .appName("s3_fielset_test") \
       .config("spark.hadoop.fs.AbstractFileSystem.gvfs.impl", 
"org.apache.gravitino.filesystem.hadoop.Gvfs") \
       .config("spark.hadoop.fs.gvfs.impl", 
"org.apache.gravitino.filesystem.hadoop.GravitinoVirtualFileSystem") \
       .config("spark.hadoop.fs.gravitino.server.uri", "http://localhost:8090";) 
\
       .config("spark.hadoop.fs.gravitino.client.metalake", "test") \
       .config("spark.hadoop.s3-access-key-id", os.environ["S3_ACCESS_KEY_ID"]) 
\
       .config("spark.hadoop.s3-secret-access-key", 
os.environ["S3_SECRET_ACCESS_KEY"]) \
       .config("spark.hadoop.s3-endpoint", 
"http://s3.ap-northeast-1.amazonaws.com";) \
       .config("spark.driver.memory", "2g") \
       .config("spark.driver.port", "2048") \
       .getOrCreate()
   
   spark.sparkContext.setLogLevel("DEBUG")    
   
   data = [("Alice", 25), ("Bob", 30), ("Cathy", 45)]
   columns = ["Name", "Age"]
   spark_df = spark.createDataFrame(data, schema=columns)
   gvfs_path = 
f"gvfs://fileset/{catalog_name}/{schema_name}/{fileset_name}/people"
   
   spark_df.coalesce(1).write \
       .mode("overwrite") \
       .option("header", "true") \
       .csv(gvfs_path)     
   
   ### Additional context
   
   _No response_


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

[I] [Bug report] Throw `Invalid version string` when using pyspark to access S3 [gravitino]

Reply via email to