用Python代码操作Azure data

很多人对于在AZURE上的数据如何来操作会觉得比较困难.因为原先用的blob是一个平层结构.不过现在数据也可以设置成多层次的结构,就极大的方便了数据的操作,你可以在文件夹,文件的层次来管理操作.

我们用python代码来管理数据,用到一个datalake的概念,datalake v2也需要对应的存储账号打开对应的功能.

首先第一步是创建datalake service client,这块对应了storage account.下面是一个利用连接字符串来创建的代码.

from azure.storage.filedatalake import DataLakeServiceClient 

datalake_service_client = DataLakeServiceClient.from_connection_string(connect_str)

其实,除了连接字符串以外,还可以用SAS TOKEN,  SERVICE PRINCIPAL, SERVICE CONNECTION 来创建datalake service client.不同的方式也使得安全等级,管理难易程度都不同.有些方式需要管理员权限才能操作.另外SERVICE PRINCIPAL, SERVICE CONNECTION虽然效果很好,但需要的步骤也会多一些,建议前期先熟悉用connection string 和sas token来创建.

接下来就是创建file system client,这块对应于storage account下面的container.

file_system_client = datalake_service_client.get_file_system_client(myfilesystem)

然后就是创建或者获取directory client,这块对应于storage account下面container下面的文件夹.

try:                    
    directory_client = f

版权声明:本文为garyaofq原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。