我正在尝试获取一个文件夹中所有文件的清单,该文件夹有几个子文件夹,所有子文件夹都位于数据湖中。这是我正在测试的代码。
import sys, os
import pandas as pd
mylist = []
root = "/mnt/rawdata/parent/"
path = os.path.join(root, "targetdirectory")
for path, subdirs, files in os.walk(path):
for name in files:
mylist.append(os.path.join(path, name))
df = pd.DataFrame(mylist)
print(df)
我还尝试了此链接中的示例代码:
我在 Azure Databricks 工作。我愿意使用 Scala 来完成这项工作。到目前为止,没有什么对我有用。每次,我都会得到一个空的数据框。我相信这非常接近,但我一定遗漏了一些小东西。想法?
原文由 ASH 发布,翻译遵循 CC BY-SA 4.0 许可协议
我得到这个工作。
唯一的先决条件是您需要导入
azure.storage
。因此,在 Clusters 窗口中,单击“Install-New”-> PyPI > package = ‘azure.storage’。最后,单击“安装”。