一,引言

  Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的。Data Lake Storage Gen2 包含了 Gen1 和 Blob Storage 的存储功能。但是在实际项目中如何使用,如何读取数据?如何操作数据?我们可以先从官方概念中先了解什么是 Azure Data Lake

以下引用于官方的术语--------------------

Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。

Data Lake Storage Gen2 在 Blob 存储的基础上构建,并通过以下方式增强了性能、管理和安全性:

  • 优化了性能,因为你不需要将复制或转换数据作为分析的先决条件。 与 Blob 存储上的平面命名空间相比,分层命名空间极大地提高了目录管理操作的性能,从而提高了整体作业性能。

  • 管理更为容易,因为你可以通过目录和子目录来组织和操作文件。

  • 安全性是可以强制实施的,因为可以在目录或单个文件上定义 POSIX 权限。

巴拉巴拉说了一大堆,我们该如何使用呢,接下来我们就通过实践(代码操作)的方式进一步了解Azure Data Lake

二,正文

1,创建 Azure Data Lake Gen2

 Azure Portal 点击 “Create a resource”, 选择 “Storage account",并点击 “Create”

Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage-LMLPHP

输入以下相关参数

Resource group:“Web_Test_AC_RG”

Storage account name:“cnbatedatalake”

Region:“East Asia”

Performance:“Standard”

Redundancy:“Locally-redundant storage(LRS)”

点击 “Next:Advanced >” 进行下一步操作

Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage-LMLPHP

是否启用“分层命名空间”,可以在下图圈中的部分进行设置,并点击 “Review + create”

Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage-LMLPHP

预校验完成后,点击 “Create” 进行创建

Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage-LMLPHP

2,通过控制台代码操作 Azure Data Lake 

2.1 创建新的NET Core 控制台程序,添加 Azure Data Lake Storage 的 Nuget 程序包

Azure Data Lake(一) 在NET Core 控制台中操作 Data Lake Storage-LMLPHP

也可以使用程序包管理器控制台进行安装

Install-Package Azure.Storage.Files.DataLake -Version 12.8.0
12-30 06:14