一,引言
Azure Data Lake Storage Gen2 是一组专用于大数据分析的功能,基于 Azure Blob Storage 构建的。Data Lake Storage Gen2 包含了 Gen1 和 Blob Storage 的存储功能。但是在实际项目中如何使用,如何读取数据?如何操作数据?我们可以先从官方概念中先了解什么是 Azure Data Lake
以下引用于官方的术语--------------------
Data Lake Storage Gen2 使 Azure 存储成为在 Azure 上构建企业 Data Lake 的基础。 Data Lake Storage Gen2 从一开始就设计为存储数千万亿字节的信息,同时保持数百千兆位的吞吐量,允许你轻松管理大量数据。
Data Lake Storage Gen2 在 Blob 存储的基础上构建,并通过以下方式增强了性能、管理和安全性:
优化了性能,因为你不需要将复制或转换数据作为分析的先决条件。 与 Blob 存储上的平面命名空间相比,分层命名空间极大地提高了目录管理操作的性能,从而提高了整体作业性能。
管理更为容易,因为你可以通过目录和子目录来组织和操作文件。
安全性是可以强制实施的,因为可以在目录或单个文件上定义 POSIX 权限。
巴拉巴拉说了一大堆,我们该如何使用呢,接下来我们就通过实践(代码操作)的方式进一步了解Azure Data Lake
二,正文
1,创建 Azure Data Lake Gen2
Azure Portal 点击 “Create a resource”, 选择 “Storage account",并点击 “Create”
输入以下相关参数
Resource group:“Web_Test_AC_RG”
Storage account name:“cnbatedatalake”
Region:“East Asia”
Performance:“Standard”
Redundancy:“Locally-redundant storage(LRS)”
点击 “Next:Advanced >” 进行下一步操作
是否启用“分层命名空间”,可以在下图圈中的部分进行设置,并点击 “Review + create”
预校验完成后,点击 “Create” 进行创建
2,通过控制台代码操作 Azure Data Lake
2.1 创建新的NET Core 控制台程序,添加 Azure Data Lake Storage 的 Nuget 程序包
也可以使用程序包管理器控制台进行安装
Install-Package Azure.Storage.Files.DataLake -Version 12.8.0