Dask 去年在 CZI Essential Open Source Software 赠款项目的第 2 轮中获得了资助。这笔资助用于聘请 Genevieve Buckley 专注于 生命科学 领域,从事 Dask 的工作。上个月,Dask 向 CZI 提交了一份中期进展报告,涵盖了 2021 年 2 月至 9 月的时期。这份进展更新将按原文发布在下方,以与更广泛的 Dask 社区分享。


进展概述

简要总结

Dask 研究员的工作范围包括代码贡献、会议演示和教程、社区参与以及博客文章等宣传活动。

本提案的主要交付成果是增强相邻软件项目的一致性和成功。

截至目前的项目工作包括:

  • 在 5 个不同的仓库中合并了 38 个 pull request(外加 6 个草稿 pull request)。
  • 3 场会议(进行演示并组织专业研讨会)。
  • 1 场半天研讨会(另有一场即将举行)。
  • 指导 Dask 的 Google Summer of Code 项目学生。
  • 9 篇博客文章(另有 2 篇草稿,即将发布)。

代码贡献

代码贡献不仅限于 Dask 主仓库,还包括使用了 Dask 的相邻软件项目(如 napari 软件项目),具体包括:daskdask-imagedask-examplesnaparinapari.github.io

截至目前,在上述五个仓库中,Dask 研究员的贡献包括:

  • 38 个 pull request
  • 6 个草稿 pull request
  • 12 个已关闭的 pull request(未合并,因为采用了另一种方法而被放弃)

Dask 研究员是 dask-image 项目的官方维护者,该项目取得的其他里程碑包括:

  • 维护者团队增加了一名成员(我们欢迎 Marvin Albert 加入我们的行列)。
  • 2020 年发布了 2 个新的 dask-image 版本。

代码贡献亮点

亮点包括

  • 惠及更广泛社区的错误修复
    • dask PR #7391:此 PR 修复了 Dask 的 bincount 函数输出的切片问题。此修复的影响很大,因为它解决了四个独立项目中提交的问题:scikit-imagedask-mlxgcm/xhistogram 以及 cupy dask 测试。
  • 扩展的 GPU 支持
    • dask PR #6680:此 PR 为 *_like 数组创建函数中的不同数组类型提供了支持。现在用户可以创建类似 cupy 的 Dask 数组用于 GPU 处理,或者实际上任何其他数组类型(例如:sparse)。
    • dask-image PR #157:此 PR 为 dask-image 项目中的二值形态学函数提供了 GPU 支持。
  • 惠及所有 Dask 用户的可视化工具
    • dask PR #7716:此 PR 自动在 jupyter notebook 单元格输出中显示高层图可视化(低层图已自动实现)。
    • dask PR #7763:此 PR 引入了 Dask HighLevelGraph 对象的 HTML 表示。这使得用户和开发人员可以更轻松地检查 HighLevelGraph 的结构和状态。
    • 在 Dask Google Summer of Code 项目期间得到进一步开发,完整报告可在此处 here 查看。
  • 高层图
    • dask PR #7595:此 PR 引入了用于数组重叠的高层图层。高层图是我们用于优化 Dask 性能的工具。
    • dask PR #7655(进行中):此 PR 为 Dask 数组切片操作引入高层图。
  • 内存改进(进行中)
    • dask PR #8124(进行中):此 PR 研究了针对因重塑 Dask 数组导致的 内存问题 的改进自动分块策略。
    • dask PR #7950(进行中):此 PR 旨在通过对 Dask 数组进行自动分块来改进 tensordot 函数的内存和性能。
    • dask PR #7980(进行中):此 PR 旨在修复 tensordot 中无限内存使用的问题,该问题在此处 here 报告。

会议

2021 年值得注意的会议活动包括 SciPy 大会、Dask 峰会和 VIS2021。

SciPy 大会

Dask 研究员在 2021 年 SciPy 大会上发表了题为 “扩展科学:在生命科学中利用 Dask” 的演讲。完整录音可在此处 available here 观看。

Dask 峰会

Dask 研究员在 2021 年 Dask 峰会 上组织了两场研讨会:

  1. Dask Down Under(与 Nick Mortimer 共同组织),以及
  2. Dask 生命科学研讨会
Dask Down Under

Dask Down Under 的范围更像是一个针对澳大利亚时区的小型会议,而非典型的研讨会。Dask Down Under 包含为期两天的活动,内容涵盖:

  • 5 场演讲
  • 2 个教程
  • 1 场小组讨论
  • 1 场见面交流活动

它受到了社区的广泛好评。关于 Dask Down Under 活动的完整报告可在此处 here 查看。Dask Down Under 活动的 YouTube 播放列表可在此处 here on the Dask YouTube channel 的 Dask YouTube 频道上观看。

Dask 生命科学研讨会

Dask 生命科学研讨会包括:

  • 15 场预录的闪电演讲
  • 3 个互动讨论时段(欧洲、大洋洲和美洲时区均可参与)
  • Dask 峰会期间全程的异步文本聊天

关于 Dask 生命科学研讨会的完整报告可在此处 here 查看。所有 Dask 生命科学闪电演讲的 YouTube 播放列表可在此处 here on the Dask YouTube channel 的 Dask YouTube 频道上观看。

VIS2021 研讨会

Dask 研究员应邀参加了 2021 年 2 月的 VIS2021 研讨会,担任小组成员。“问题解决者”小组讨论涵盖了图像分析中的实际问题以及 Dask 和 napari 等工具如何帮助解决这些问题。

教程和研讨会

Dask 研究员与 Juan Nunez-Iglesias 一起在 2021 年 澳大利亚光学显微镜会议 上共同主讲了一场半天(五小时)的研讨会。napari 是一个开源的多维图像查看器,使用 Dask 构建,用于离核图像处理。研讨会内容可在此链接查看:https://github.com/jni/lma-2021-bioimage-analysis-python/

即将举行的研讨会: Dask 研究员已受邀在即将举行的 NEUBIAS Academy 上就使用 Dask 处理大数据和 napari 的内容进行研讨会。研讨会内容可在此链接查看:https://github.com/GenevieveBuckley/napari-big-data-training

Google Summer of Code

Dask 研究员在 2021 年指导了一名 Google Summer of Code 学生。Martin Durant 担任二级导师。该项目持续了 3 个月,涉及实现多项功能以改进 Dask 图和对象的可视化。关于 Dask GSOC 项目的完整报告可在此处 here 查看。

博客文章

我们设定的目标是每月一篇博客文章,并超额完成。截至目前,Dask 研究员已发表了九篇博客文章,另有两篇目前处于草稿状态。

  1. 了解生命科学社区
  2. 将 Dask 与 PyTorch 结合用于大规模图像分析(与 Nick Sofreniew 合著)
  3. 骨架分析
  4. 2021 年 Dask 峰会上的生命科学
  5. 2021 年 Dask 用户调查现已发布
  6. Dask Down Under(与 Nick Mortimer 合著)
  7. 不规则输出,如何处理形状尴尬的结果
  8. 高层图更新
  9. Google Summer of Code 2021 - Dask 项目

草稿状态,即将发布


博客评论由 Disqus 提供支持