Re: flink not able to get scheme for S3

Chesnay Schepler Fri, 06 Aug 2021 04:31:10 -0700

The reason this doesn't work is that your application works directlyagainst Hadoop.The filesystems in the plugins directory are only loaded via specificcode-paths, specifically when the Flink FileSystem class is used.Since you are using Hadoop directly you are side-stepping the pluginmechanism.

So you have to make sure that Hadoop + Hadoop's S3 filesystem isavailable to the client.


On 06/08/2021 08:02, tarun joshi wrote:

Hey All,
I am running flink in docker containers (image Tag:flink:scala_2.11-java11) on EC2 and getting exception as I am tryingto submit a job through the local ./opt/flink/bin
*/org.apache.flink.client.program.ProgramInvocationException: The mainmethod caused an error: No FileSystem for scheme "s3"/*atorg.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:372)atorg.apache.flink.client.program.PackagedProgram.invokeInteractiveModeForExecution(PackagedProgram.java:222)atorg.apache.flink.client.ClientUtils.executeProgram(ClientUtils.java:114)atorg.apache.flink.client.cli.CliFrontend.executeProgram(CliFrontend.java:812)
at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:246)
atorg.apache.flink.client.cli.CliFrontend.parseAndRun(CliFrontend.java:1054)atorg.apache.flink.client.cli.CliFrontend.lambda$main$10(CliFrontend.java:1132)atorg.apache.flink.runtime.security.contexts.NoOpSecurityContext.runSecured(NoOpSecurityContext.java:28)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:1132)
Caused by: org.apache.hadoop.fs.UnsupportedFileSystemException: NoFileSystem for scheme "s3"atorg.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3443)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3466)
at org.apache.hadoop.fs.FileSystem.access$300(FileSystem.java:174)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3574)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3521)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:540)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:365)
atorg.apache.parquet.hadoop.util.HadoopInputFile.fromPath(HadoopInputFile.java:38)atorg.apache.flink.examples.java.wordcount.WordCount.printParquetData(WordCount.java:142)atorg.apache.flink.examples.java.wordcount.WordCount.main(WordCount.java:83)atjava.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atjava.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(UnknownSource)atjava.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(UnknownSource)
at java.base/java.lang.reflect.Method.invoke(Unknown Source)
atorg.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:355)
... 8 more
This is the way I am invoking Flink Built_IN S3 plugins for the Jobmanager and TaskManager :
*/docker run \
--rm \
--volume /root/:/root/ \
--env JOB_MANAGER_RPC_ADDRESS="${JOB_MANAGER_RPC_ADDRESS}" \
--envTASK_MANAGER_NUMBER_OF_TASK_SLOTS="${TASK_MANAGER_NUMBER_OF_TASK_SLOTS}" \--envENABLE_BUILT_IN_PLUGINS="flink-s3-fs-hadoop-1.13.1.jar;flink-s3-fs-presto-1.13.1.jar"\
--name=jobmanager \
--network flink-network \
--publish 8081:8081 \
flink:scala_2.11-java11 jobmanager &/*
*/
/*
*/docker run \
--rm \
--env JOB_MANAGER_RPC_ADDRESS="${JOB_MANAGER_RPC_ADDRESS}" \
--envTASK_MANAGER_NUMBER_OF_TASK_SLOTS="${TASK_MANAGER_NUMBER_OF_TASK_SLOTS}" \--envENABLE_BUILT_IN_PLUGINS="flink-s3-fs-hadoop-1.13.1.jar;flink-s3-fs-presto-1.13.1.jar"\
--name=taskmanager_0 \
--network flink-network \
flink:scala_2.11-java11 taskmanager &
/*
*/
/*
This is how I am defining dependencies in my pom.xml (I am workingupon the Flink-Examples project from Flink Github repo).
<dependencies>
    <dependency>
       <groupId>org.apache.flink</groupId>
       <artifactId>flink-java</artifactId>
       <version>${project.version}</version>
       <scope>provided</scope>
    </dependency>

    <dependency>
       <groupId>org.apache.flink</groupId>
       <artifactId>flink-scala_${scala.binary.version}</artifactId>
       <version>${project.version}</version>
       <scope>provided</scope>
    </dependency>

    <dependency>
       <groupId>org.apache.flink</groupId>
       <artifactId>flink-clients_${scala.binary.version}</artifactId>
       <version>${project.version}</version>
       <scope>provided</scope>
    </dependency>

    <dependency>
       <groupId>org.apache.parquet</groupId>
       <artifactId>parquet-avro</artifactId>
       <version>1.12.0</version>
    </dependency>
    <dependency>
       <groupId>org.apache.parquet</groupId>
       <artifactId>parquet-column</artifactId>
       <version>1.12.0</version>
    </dependency>
    <dependency>
       <groupId>org.apache.parquet</groupId>
       <artifactId>parquet-hadoop</artifactId>
       <version>1.12.0</version>
    </dependency>
    <dependency>
       <groupId>org.apache.hadoop</groupId>
       <artifactId>hadoop-common</artifactId>
       <version>3.3.1</version>
    </dependency>
</dependencies>
I am also able to see plugins being loaded for JobManager andTaskManager :
*/
/*
*/Linking flink-s3-fs-hadoop-1.13.1.jar to plugin directory
Successfully enabled flink-s3-fs-hadoop-1.13.1.jar
Linking flink-s3-fs-presto-1.13.1.jar to plugin directory
Successfully enabled flink-s3-fs-presto-1.13.1.jar
/*
*/
/*
Let me if I am doing anything wrong.

/Thanks for the help! /
*/
/*

Re: flink not able to get scheme for S3

Reply via email to