基于Python/Pandas和数据工程开发生产就绪ETL数据管道最佳实践视频教程

正文概述 云码哥   2021-08-11   1.62K

基于Python/Pandas和数据工程开发生产就绪ETL数据管道最佳实践视频教程

在课程中,我们将使用 Xetra 数据集。Xetra 代表交易所电子交易,它是德意志交易所集团的交易平台。该数据集从德意志交易所的交易系统中逐分钟派生,并保存在 AWS S3 存储桶中,免费向公众开放。

我们将要创建的 ETL 管道将按计划从 AWS S3 源存储桶中提取 Xetra 数据集,使用转换创建报告并将转换后的数据加载到另一个 AWS S3 目标存储桶。

管道将以一种可以轻松部署到几乎任何可以处理容器化应用程序的生产环境的方式编写。我们要为其编写 ETL 管道的生产环境包括一个 GitHub 代码存储库、一个 DockerHub 图像存储库、一个执行平台(例如 Kubernetes)和一个编排工具(例如容器原生 Kubernetes 工作流引擎 Argo Workflows 或 Apache Airflow)。

那么在课程中你能期待什么?

您将主要收到实用的交互式课程,您必须在需要时编码和实施管道和理论课程。此外,您将获得课程材料中每节课的 Python 代码、GitHub 上的整个项目以及 Docker Hub 上带有应用程序代码的随时可用的 docker 镜像。

每个理论课程都有可供下载的幻灯片,以及每个主题和步骤的有用链接,您可以在其中找到更多信息,甚至可以进行更深入的研究。

本课程将展示使用 Python 3.9、Jupyter Notebook、Git 和 Github、Visual Studio Code、Docker 和 Docker Hub 以及 Python 包 Pandas、boto3、 pyyaml、awscli、jupyter、pylint、moto、coverage 和内存分析器。

您将学到什么:
如何用 Python 编写专业的 ETL管道。
编写生产级 Python 代码的步骤。
如何在数据工程中应用函数式编程。
如何进行适当的面向对象代码设计。
如何使用元文件进行作业控制。
在 ETL/数据工程中为 Python 编码最佳实践。
如何在 Python 中实现流水线从 AWS S3 源提取数据,转换数据并将其加载到另一个 AWS S3 目标。

本课程适用于
希望使用 Python 编写专业的生产就绪数据管道的数据工程师、科学家和开发人员。
每个对用 Python 编写准备用于生产的数据管道感兴趣的人。

MP4 | Video: h264, 1280×720 | Audio: AAC, 44.1 KHz, 2 Ch
Genre: eLearning | Language: English + srt | Duration: 78 lectures (7h 3m) | Size: 2.43 GB

Learn how to write professional ETL pipelines using best practices in Python and Data Engineering

基于Python/Pandas和数据工程开发生产就绪ETL数据管道最佳实践视频教程

本站大部分资源收集于网络以及网友投稿,本不保证资源的完整性以及安全性,请下载后自行测试。
本站资源仅供下载者学习技术,版权归资源原作者所有,请在下载后24小时之内自觉删除。
本站资源仅供下载者学习IT编程开发技术,请遵守国家法律法规,严禁用于非法用途。
若作商业用途,请购买正版,由于未及时购买正版发生的侵权行为,与本站无关。
如您是版权方,本站源码有侵犯到您的权益,请邮件联系331752841@qq.com 删除,我们将及时处理!

发表评论