CZI EOSS 最新进展
作者:Genevieve Buckley
Dask 去年在 CZI Essential Open Source Software 赠款项目的第 2 轮中获得了资助。这笔资助用于聘请 Genevieve Buckley 专注于 生命科学 领域,从事 Dask 的工作。上个月,Dask 向 CZI 提交了一份中期进展报告,涵盖了 2021 年 2 月至 9 月的时期。这份进展更新将按原文发布在下方,以与更广泛的 Dask 社区分享。
进展概述
简要总结
Dask 研究员的工作范围包括代码贡献、会议演示和教程、社区参与以及博客文章等宣传活动。
本提案的主要交付成果是增强相邻软件项目的一致性和成功。
截至目前的项目工作包括:
- 在 5 个不同的仓库中合并了 38 个 pull request(外加 6 个草稿 pull request)。
- 3 场会议(进行演示并组织专业研讨会)。
- 1 场半天研讨会(另有一场即将举行)。
- 指导 Dask 的 Google Summer of Code 项目学生。
- 9 篇博客文章(另有 2 篇草稿,即将发布)。
代码贡献
代码贡献不仅限于 Dask 主仓库,还包括使用了 Dask 的相邻软件项目(如 napari 软件项目),具体包括:dask
、dask-image
、dask-examples
、napari
和 napari.github.io
。
截至目前,在上述五个仓库中,Dask 研究员的贡献包括:
- 38 个 pull request
- 6 个草稿 pull request
- 12 个已关闭的 pull request(未合并,因为采用了另一种方法而被放弃)
Dask 研究员是 dask-image
项目的官方维护者,该项目取得的其他里程碑包括:
- 维护者团队增加了一名成员(我们欢迎 Marvin Albert 加入我们的行列)。
- 2020 年发布了 2 个新的 dask-image 版本。
代码贡献亮点
亮点包括
- 惠及更广泛社区的错误修复
- dask PR #7391:此 PR 修复了 Dask 的 bincount 函数输出的切片问题。此修复的影响很大,因为它解决了四个独立项目中提交的问题:
scikit-image
、dask-ml
、xgcm/xhistogram
以及 cupy dask 测试。
- dask PR #7391:此 PR 修复了 Dask 的 bincount 函数输出的切片问题。此修复的影响很大,因为它解决了四个独立项目中提交的问题:
- 扩展的 GPU 支持
- dask PR #6680:此 PR 为
*_like
数组创建函数中的不同数组类型提供了支持。现在用户可以创建类似cupy
的 Dask 数组用于 GPU 处理,或者实际上任何其他数组类型(例如:sparse
)。 - dask-image PR #157:此 PR 为
dask-image
项目中的二值形态学函数提供了 GPU 支持。
- dask PR #6680:此 PR 为
- 惠及所有 Dask 用户的可视化工具
- dask PR #7716:此 PR 自动在 jupyter notebook 单元格输出中显示高层图可视化(低层图已自动实现)。
- dask PR #7763:此 PR 引入了 Dask
HighLevelGraph
对象的 HTML 表示。这使得用户和开发人员可以更轻松地检查 HighLevelGraph 的结构和状态。 - 在 Dask Google Summer of Code 项目期间得到进一步开发,完整报告可在此处 here 查看。
- 高层图
- dask PR #7595:此 PR 引入了用于数组重叠的高层图层。高层图是我们用于优化 Dask 性能的工具。
- dask PR #7655(进行中):此 PR 为 Dask 数组切片操作引入高层图。
- 内存改进(进行中)
- dask PR #8124(进行中):此 PR 研究了针对因重塑 Dask 数组导致的 内存问题 的改进自动分块策略。
- dask PR #7950(进行中):此 PR 旨在通过对 Dask 数组进行自动分块来改进
tensordot
函数的内存和性能。 - dask PR #7980(进行中):此 PR 旨在修复
tensordot
中无限内存使用的问题,该问题在此处 here 报告。
会议
2021 年值得注意的会议活动包括 SciPy 大会、Dask 峰会和 VIS2021。
SciPy 大会
Dask 研究员在 2021 年 SciPy 大会上发表了题为 “扩展科学:在生命科学中利用 Dask” 的演讲。完整录音可在此处 available here 观看。
Dask 峰会
Dask 研究员在 2021 年 Dask 峰会 上组织了两场研讨会:
- Dask Down Under(与 Nick Mortimer 共同组织),以及
- Dask 生命科学研讨会
Dask Down Under
Dask Down Under 的范围更像是一个针对澳大利亚时区的小型会议,而非典型的研讨会。Dask Down Under 包含为期两天的活动,内容涵盖:
- 5 场演讲
- 2 个教程
- 1 场小组讨论
- 1 场见面交流活动
它受到了社区的广泛好评。关于 Dask Down Under 活动的完整报告可在此处 here 查看。Dask Down Under 活动的 YouTube 播放列表可在此处 here on the Dask YouTube channel 的 Dask YouTube 频道上观看。
Dask 生命科学研讨会
Dask 生命科学研讨会包括:
- 15 场预录的闪电演讲
- 3 个互动讨论时段(欧洲、大洋洲和美洲时区均可参与)
- Dask 峰会期间全程的异步文本聊天
关于 Dask 生命科学研讨会的完整报告可在此处 here 查看。所有 Dask 生命科学闪电演讲的 YouTube 播放列表可在此处 here on the Dask YouTube channel 的 Dask YouTube 频道上观看。
VIS2021 研讨会
Dask 研究员应邀参加了 2021 年 2 月的 VIS2021 研讨会,担任小组成员。“问题解决者”小组讨论涵盖了图像分析中的实际问题以及 Dask 和 napari 等工具如何帮助解决这些问题。
教程和研讨会
Dask 研究员与 Juan Nunez-Iglesias 一起在 2021 年 澳大利亚光学显微镜会议 上共同主讲了一场半天(五小时)的研讨会。napari 是一个开源的多维图像查看器,使用 Dask 构建,用于离核图像处理。研讨会内容可在此链接查看:https://github.com/jni/lma-2021-bioimage-analysis-python/
即将举行的研讨会: Dask 研究员已受邀在即将举行的 NEUBIAS Academy 上就使用 Dask 处理大数据和 napari 的内容进行研讨会。研讨会内容可在此链接查看:https://github.com/GenevieveBuckley/napari-big-data-training
Google Summer of Code
Dask 研究员在 2021 年指导了一名 Google Summer of Code 学生。Martin Durant 担任二级导师。该项目持续了 3 个月,涉及实现多项功能以改进 Dask 图和对象的可视化。关于 Dask GSOC 项目的完整报告可在此处 here 查看。
博客文章
我们设定的目标是每月一篇博客文章,并超额完成。截至目前,Dask 研究员已发表了九篇博客文章,另有两篇目前处于草稿状态。
- 了解生命科学社区
- 将 Dask 与 PyTorch 结合用于大规模图像分析(与 Nick Sofreniew 合著)
- 骨架分析
- 2021 年 Dask 峰会上的生命科学
- 2021 年 Dask 用户调查现已发布
- Dask Down Under(与 Nick Mortimer 合著)
- 不规则输出,如何处理形状尴尬的结果
- 高层图更新
- Google Summer of Code 2021 - Dask 项目
草稿状态,即将发布
- 马赛克图像融合(与 Volker Hisenstein 合著)
- 2021 年 Dask 用户调查结果
博客评论由 Disqus 提供支持