У меня есть несколько zip файлов, содержащих два типа файлов (A.csv и B.csv)
/data/jan.zip → содержит A.csv и B.csv
/data/feb.zip → содержит A.csv и B.csv
Я хочу прочитать содержимое всех файлов A.csv во всех zip файлах, используя pyspark.
textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")
Может кто-нибудь сказать мне, как получить содержимое файлов A.csv в RDD?