同步oss数据到mc报错

报错信息

阿里云使用dataworks,同步oss数据到maxcompute过程中产生的报错

1
2
3
4
5
6
7
8
9
10
11
ErrorMessage:
Code:[UnstructuredStorageReader-09], Description:[您配置的文件在读取时出现IO异常.]. - 流读取错误 : [bucket/###/###/###/###/2024-09-17/] - java.io.IOException: Input is not in the .gz format
at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.init(GzipCompressorInputStream.java:162)
at org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream.<init>(GzipCompressorInputStream.java:135)
at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getDecompressedInputStream(UnstructuredStorageReaderUtil.java:259)
at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.getFileBufferedReader(UnstructuredStorageReaderUtil.java:244)
at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromInputStream(UnstructuredStorageReaderUtil.java:224)
at com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil.readFromStream(UnstructuredStorageReaderUtil.java:210)
at com.alibaba.datax.plugin.reader.ossreader.OssReader$Task.startRead(OssReader.java:397)
at com.alibaba.datax.core.taskgroup.runner.ReaderRunner.run(ReaderRunner.java:107)
at java.lang.Thread.run(Thread.java:853)

背景

我需要在 oss 中上传一些文件到 2024-09-17 这个目录下,但是我并没有这个目录,所以我手动创建目录,并上传了文件。文件为压缩格式,压缩方式为gz

然后同步任务参数配置为

随后开始调度任务便有了最开始的报错信息

排查

此时我的 2024-09-17 这个目录下 仅有一个文件

并且这个文件格式正确,但是报错信息匪夷所思 Input is not in the .gz format 。

这个目录下仅有一个文件,并且我确定文件格式正确(2024-09-16,也就是前一天可以正常调度,没有报错,为了对比,我将那天的文件直接拷贝过来)。

很奇怪!?明明只有一个文件,而且文件格式肯定正确,却告诉我文件格式不正确,到底哪里错了?莫非?

我去点击了统计文件

等等!两个!?可是我上看下看左看右看,都只看到了一个文件,并且我也确定我只上传了一个文件!

为此我去下载了 ossutil(可以查看到所有文件,我倒要看看那个隐藏文件是何物) 配置完成后

在黑窗口输入ossutil ls oss://examplebucket –all-versions

可以看到,确实有两个文件,下面那个为我上传的正常文件,可是上面那个空空如也。

由此,我确定了,导致报错的罪魁祸首就是这个空文件,或者叫,文件前缀。

dataworks在同步数据时,我使用了通配符 * ,所以会扫描此目录下的所有文件,因此这个 文件前缀 也被同步进去了,可是他不是gz格式,当然会报错 Input is not in the .gz format

解决

如何避免这个文件前缀呢?

我只列出两种工具,手动操作的方式,不谈API(此方法也可解决问题),想了解的小伙伴可自行查阅

  1. 使用 ossutil 工具上传你想放进 oss 的文件
1
ossutil cp /localpath/text.gz oss://my-bucket/2024-09-17/text.gz
  1. 使用 oss-browser 工具

    首先在目录那输入你想创建文件夹(此时文件夹还没有真正的创建),按下回车

    然后点击左边的上传文件即可,在选择完文件后点击确定,阿里云会自动帮你创建文件夹(由他创建是不会有问题的,也就是不会有那个多余的文件前缀)

这两种方法都可,执行完后去查看是否还有多余的文件前缀

成功!