执行摘要

Dask 生命科学研讨会作为 2021 年 Dask 峰会的一部分举行。您可以在这里观看本次研讨会的闪电演讲,或继续阅读以了解本次活动的摘要。

什么是 Dask 生命科学研讨会?

Dask 生命科学研讨会作为 2021 年 Dask 峰会的一部分举行。目前生命科学领域的许多人都在使用 Dask,但各个小组之间相对孤立。本次研讨会为我们提供了一个相互学习的机会,以及识别共同痛点和改进领域的契机。

本次研讨会包括

  • 预先录制的闪电演讲
  • 互动讨论时间(覆盖欧洲、大洋洲和美洲时区)
  • Dask 峰会期间的异步文本聊天

如果我错过了,如何追赶?

如果您错过了 Dask 峰会,可以在 YouTube 上观看回放。所有生命科学闪电演讲的播放列表在这里

您也可以加入我们在 Slack 上的 #life-science 频道:点击此处获取邀请链接

谁来了?

我们邀请了生命科学研讨会的与会者就他们使用 Dask 的工作进行简短的问答。这只是参加我们活动的一小部分人,许多人参加了会议但没有进行问答。

这些回复让我们了解了社区中人们正在进行的各种工作。以下是一些问答(排名不分先后)

姓名:Tom White
时区:欧盟/英国
你从事哪种科学研究?统计遗传学
你尝试过(或想尝试)用 Dask 做些什么?大规模运行逐行线性回归。
接下来想用 Dask 做些什么?协作优化一个公共工作流程(GWAS)。
闪电演讲:点击这里

姓名:Giovanni Palla
单位:亥姆霍兹中心慕尼黑
时区:欧洲
你从事哪种科学研究?计算生物学和空间转录组学
你尝试过(或想尝试)用 Dask 做些什么?使用 dask-image 进行图像处理。
接下来想用 Dask 做些什么?进一步与 Squidpy 集成。
闪电演讲:点击这里

姓名:Isaac Virshup
单位:墨尔本大学。开源项目 Scanpy 和 AnnData 时区:AEST
你从事哪种科学研究?单细胞组学数据。
你尝试过(或想尝试)用 Dask 做些什么?
我曾使用 dask 进行一些嵌套的“令人尴尬的并行计算”。有一个智能调度器和良好的监控使得这项任务变得非常容易,特别是与多进程或 joblib 相比。
接下来想用 Dask 做些什么?
我很想将 AnnData(一个用于处理单细胞测序数据的容器)与 dask 集成。这个领域的数据集大小不断增加,如果能够不受可用 RAM 的限制处理最新的数据集,那将非常好。
由于我们严重依赖稀疏数组,实现这一目标的关键一步是在 dask 内部获得更好的稀疏数组支持(特别是 CSC 和 CSR)。毕竟,如果我们的扩展策略需要数倍的总内存,那就太糟糕了!作为维护者,我很想听听人们在使用与 dask 良好集成的分布式工具方面的经验。
闪电演讲:点击这里

姓名:Anna Kreshuk
单位:欧洲分子生物学实验室
时区:CEST (GMT+2)
你从事哪种科学研究?用于显微镜图像分析的机器学习。
你尝试过(或想尝试)用 Dask 做些什么?我们运行很多图像处理工作流程,想看看在这种情况下如何利用 Dask。

姓名:Beth Cimini
单位:Broad Institute
时区:美国东部
你从事哪种科学研究?用于显微镜成像的用户友好型图像分析工具。
你尝试过(或想尝试)用 Dask 做些什么?让 Dask 在 CellProfiler 中工作,以便轻松地高通量分析大图像!
闪电演讲:点击这里

姓名:Volker Hilsenstein
单位:EMBL / Alexandrov 实验室
时区:欧洲中部夏令时
你从事哪种科学研究?空间代谢组学,结合显微镜和质谱。
我想尝试用 dask 做些什么:融合大型图像或图像体积的马赛克,这些图像或图像体积的仿射变换可用于联合坐标系。

姓名:Marvin Albert
单位:苏黎世大学
时区:UTC/GMT +2
你从事哪种科学研究?生命科学/图像分析
你尝试过(或想尝试)用 Dask 做些什么?接下来想用 Dask 做些什么?并行化/减少图像处理任务的内存占用,并定义可以在不同计算环境中运行的工作流程。
闪电演讲:点击这里

姓名:Jordao Bragantini
单位:CZ Biohub
时区:太平洋夏令时 (UTC -7)
你从事哪种科学研究?光片显微镜
你尝试过(或想尝试)用 Dask 做些什么?非常大的数据的图像处理。
接下来想用 Dask 做些什么?实现细胞分割算法。
闪电演讲:点击这里

姓名:Josh Moore
单位:开放显微镜环境 (OME)
时区:CEST
你从事哪种科学研究?生物成像(研究数据管理基础设施)
你尝试过(或想尝试)用 Dask 做些什么?主要是通过 HTTP 访问大图像 (Zarr) 体积。接下来想用 Dask 做些什么?改进典型使用模式的预取,可能集成多尺度数据(例如谷歌地图缩放)。
闪电演讲:点击这里

姓名:Jackson Maxfield Brown
时区:PST
你从事哪种科学研究?细胞生物学,特别是显微镜学和计算生物学。
你尝试过(或想尝试)用 Dask 做些什么?构建了一个支持元数据/后备存储的显微镜成像读取库,该库使用 Dask 根据元数据维度信息分块读取任意大小的图像。以及使用 Dask + Prefect 构建 TB 级图像处理流水线。
接下来想用 Dask 做些什么?与其他库更紧密的集成。我看到了 RAPIDs 团队的 cuCim,希望与他们合作,建立一个更通用的“生物图像规范”,这样我们都能更好地协同工作。
闪电演讲:点击这里

姓名:Gregory R. Lee
单位:Quansight
时区:EST (UTC-5)
你从事哪种科学研究?科学软件开发(背景是磁共振成像研究)。
你尝试过(或想尝试)用 Dask 做些什么?
在过去的研究工作中,我主要在两种场景下使用 Dask,都在单台工作站上进行

  1. 通过在 CPU 上并行处理图像块来实现多线程(例如在 dask-image 中)
  2. 在 GPU 上对大型体积数据进行串行块处理(即 10-100 GB 大小的 CuPy 数组),以降低峰值内存需求。

接下来想用 Dask 做些什么?
审计 scikit-image 函数,以确定哪些可以通过类似 dask-image 的块处理方法轻松加速。理想情况下,一部分函数可以直接将 dask-arrays 作为输入,而不是要求用户学习 Dask 的 map_overlap 等来使用此功能。
闪电演讲:点击这里

下一步是什么?

Dask 目前正考虑为生命科学社区举办“办公时间”。如果能找到足够多的维护者能够主持一小时的问答环节,我们将试行一段时间。


博客评论由 Disqus 提供支持