Dask 演示日 2022 年 11 月
作者:Richard Pelgrim (Coiled)
Dask 社区团队每月举办一次 Dask 演示日:这是一个非正式且有趣的在线聚会,大家可以在此展示 Dask 的新功能或鲜为人知的功能,而其他人则可以了解我们之前不知道 Dask 还能做的事情 😁
11 月的 Dask 演示日有五个精彩的演示。我们了解了
- 使用 Dask、RAPIDS 和 Datashader 可视化 20 亿次闪电
- 新的 Dask CLI
- 用于分布式超参数优化的 Dask-Optuna 集成
- Dask-Awkward
- 使用 Dask-PySpy 分析你的 Dask 代码
这篇博客快速概述了这五个演示,并展示了它们可能对你有多大帮助。你可以在下方观看完整录像。
闪电般速度的可视化
Kevin Tyle(奥尔巴尼大学)最近自问,是否有可能交互式地可视化其数据集中的所有雷击。在此演示中,Kevin 向你展示了如何利用 CUDA、RAPIDS-AI、Dask 和 Datashader 来构建一个流畅的交互式可视化,展示了 8 年来的雷击数据。这超过 20 亿行数据。
Kevin 向你展示了如何通过以下方式微调这种大规模数据处理工作流程的性能:
- 利用 GPU
- 使用 Dask 集群最大化硬件利用率
- 明智地选择文件类型
观看完整演示,或阅读更多关于使用 Dask 和 Datashader 的高性能可视化策略。
新的 Dask CLI
在今年的 SciPy Dask Sprint 活动中,一群 Dask 维护者开始着手升级一个更高级别的 Dask CLI。Doug Davis (Anaconda) 带我们了解了 CLI 的工作原理以及所有可以用它做的事情。安装 Dask 后,你可以在终端中输入 dask
来访问 CLI。该工具设计为可轻松扩展,以便任何参与 Dask 工作的人都可以贡献。Doug 向你展示了如何将自己的组件添加到 Dask CLI。
观看完整演示或阅读Dask CLI 文档。
使用 Dask 和 Optuna 进行 XGBoost 超参数优化
你是否曾想通过并行运行超参数搜索来加速你的搜索过程?James Bourbeau (Coiled) 向你展示了如何使用全新的 dask-optuna
集成,在 Dask 集群上并行运行数百次超参数搜索。在 Dask 集群上运行你的 Optuna HPO 搜索只需修改你现有 optuna 代码中的两处。进行这些更改后,我们就能在 25 秒内并行运行 500 次 HPO 迭代。
观看完整演示。
用于 Awkward 数组的 Dask
PyData 生态系统历来专注于类似 DataFrame 和常规数组的直线型数据结构。Awkward Arrays 为非直线型数据结构带来了类似 NumPy 的操作,而 dask-awkward 使你能够在分布式集群上并行处理 Awkward 数组。Doug Davis (Anaconda) 通过一个快速演示向你展示了如何在本地集群上使用 dask-awkward
。如果你发现自己需要大规模处理嵌套数据结构,这是一个非常有用的工具。
观看完整演示。
使用 py-spy 分析集群上的 Dask
py-spy 是一个 Python 分析器,它允许你比仅检查 Python 函数更深入地分析你的代码。Gabe Joseph (Coiled) 向你展示了如何使用 dask-pyspy 分析 Dask 集群上的代码。通过深入到编译后的代码中,dask-pyspy 能够发现关于你的 Dask 代码可能运行缓慢的原因以及你可以采取哪些措施来解决这个问题的宝贵见解。
观看完整演示。
参加我们的下一次演示日吧!
Dask 演示日是了解 Dask 最新发展和功能的好机会。这也是一个有趣的聚会,你可以在非正式、轻松的在线环境中提问并与 Dask 的核心维护者互动。我们期待在 12 月 15 日的下一次演示日见到你!
想知道如何保持联系并了解最新的 Dask 新闻和活动吗?
你可以
- 在 Twitter 上关注我们:@dask_dev
- 发送一封空白邮件至 [email protected] 订阅 Dask 新闻通讯
- 订阅Dask 社区日历
博客评论由 Disqus 提供