各位大家好: 在我的项目遇到需要解析大量xml文件的需求,具体描述为以下几点: 1. xml文件按照一定时间周期提供:每15分钟一批 2. 文件以gz方式压缩,基本都是小文件:1M以内 3. 小文件很多,每一批有2万左右 4. 需要解析xml文件中所有标签内的数据 5. 将标签内的数据进行简单的加减乘除后sink到clickhouse 由于没有使用PyFlink的经验,想咨询一下,使用PyFlink实现以上目标的路径,最好有 Source的例子:监控本地文件系统的目录、解压缩并读取新生成的xml文件。 非常期待和感谢您们的时间和解答!
