Dask 峰会 齐聚一堂
作者:Mike McCarty(Capital One 机器学习中心)和 Matthew Rocklin(Coiled Computing)
二月下旬,Dask 社区的成员齐聚美国华盛顿特区。参与者包括开源项目维护者和来自各行各业的活跃用户。本文分享了本次研讨会的总结,包括幻灯片、图片和经验教训。
注意:本次活动恰好发生在美国和欧洲 COVID-19 疫情广泛传播之前。我们很高兴能见到彼此,但今天不建议再举办这样的活动。
谁来了?
这是一场仅限邀请的活动,共五十人参加,每个组织最多三人。我们有意邀请了一半自认为是开源维护者的人员和一半自认为是机构用户的平分秋色的组合。与会者来自学术界、小型初创企业、科技公司、政府机构和大型企业。我们惊讶地发现彼此有很多共同点。与会者来自以下公司:
- Anaconda
- Berkeley Institute for Datascience
- Blue Yonder
- Brookhaven National Lab
- Capital One
- Chan Zuckerberg Initiative
- Coiled Computing
- Columbia University
- D. E. Shaw & Co.
- Flatiron Health
- Howard Hughes Medial Institute, Janelia Research Campus
- Inria
- Kitware
- Lawrence Berkeley National Lab
- Los Alamos National Laboratory
- MetroStar Systems
- 微软 (Microsoft)
- NIMH
- 英伟达 (NVIDIA)
- 国家大气研究中心 (NCAR)
- 国家能源研究科学计算中心 (NERSC)
- Prefect
- Quansight
- Related Sciences
- Saturn Cloud
- 史密森尼学会 (Smithsonian Institution)
- SymphonyRM
- The HDF Group
- 美国地质调查局 (USGS)
- Ursa Labs
目标
Dask 社区的成员来自各行各业。这是一个奇特的群体,解决着截然不同的问题,但都有一套惊人相似的需求。我们在 GitHub 上认识多年,有着悠久的共同历史,但许多人从未见过面。
事后看来,本次研讨会主要有两大目的:
- 它帮助我们认识到,大家都在努力解决同样的问题,从而有助于形成方向并激励未来的工作。
- 它帮助我们建立社会联系和协作关系,从而帮助我们应对跨组织构建和维护社区软件的日常挑战。
结构
我们开了三天会。
第 1-2 天,我们首先听取了与会者的快速演讲,随后是下午的工作会议。
演讲很短,大约 10-15 分钟(会场里都是专家意味着我们可以轻松跳过介绍性材料),并且始终遵循相同的结构:
-
他们所处领域的简要介绍以及其重要性。
示例:我们研究全球数千个测量设备的地震读数,以了解和预测灾难性地震。
-
他们如何使用 Dask 解决这个问题。
示例:这意味着我们需要对数千个非常长的时序数据进行互相关。我们在 AWS 上使用 Xarray 进行了一些自定义操作。
-
Dask 有什么问题,以及他们希望看到哪些改进。
示例:事实证明,我们的坐标轴标签可能会比 Xarray 设计的更大。此外,Dask 的任务图大小也可能成为一个限制。
这些演讲分为六个部分:
- 工作流和管道
- 部署
- 图像处理
- 通用数据分析
- 性能和工具
- Xarray
我们没有录制视频,但下面提供了每次演讲的幻灯片。
1:工作流和管道
Blue Yonder
- 标题:用于机器学习的 ETL 管道
- 演讲者:Florian Jetter
- 其他与会者
- Nefta Kanilmaz
- Lucas Rademaker
Prefect
- 标题:Prefect + Dask:并行/分布式工作流
- 演讲者:Chris White,首席技术官
Dask + Prefect 来自 Chris White </div>
SymphonyRM
- 标题:用于医疗健康数据科学的 Dask 和 Prefect
- 演讲者:Joe Schmid,首席技术官
2:部署
Quansight
- 标题:使用 Dask 构建基于云的数据科学平台
- 演讲者:Dharhas Pothina
- 其他与会者:- James Bourbeau - Dhavide Aruliah
英伟达和微软/Azure
- 标题:使用 Dask-Cloudprovider 进行原生云部署
- 演讲者:Jacob Tomlinson、Tom Drabas 和 Code Peterson
Inria
- 标题:使用 Dask-Jobqueue 进行 HPC 部署
- 演讲者:Loïc Esteve
Anaconda
- 标题:Dask Gateway
- 演讲者:Jim Crist
- 其他与会者:- Tom Augspurger - Eric Dill - Jonathan Helmus
3:图像处理
Kitware
- 标题:使用 ITK 进行科学图像分析和可视化
- 演讲者:Matt McCormick
Kitware
- 标题:使用 X 射线和电子进行图像处理
- 演讲者:Marcus Hanwell
美国国立精神卫生研究院
- 标题:大脑成像
- 演讲者:John Lee
Janelia / 霍华德·休斯医学研究所
- 标题:Spark、Dask 和 FlyEM HPC
- 演讲者:Stuart Berg
4:通用数据分析
布鲁克海文国家实验室
- 标题:Dask 在 DOE 光源中的应用
- 演讲者:Dan Allan
D.E. Shaw 集团
- 标题:Dask 在 D.E. Shaw 的应用
- 演讲者:Akihiro Matsukawa
Anaconda
- 标题:Dask Dataframes 和 Dask-ML 总结
- 演讲者:Tom Augspurger
5:性能和工具
伯克利数据科学研究所
- 标题:Numpy API
- 演讲者:Sebastian Berg
Ursa Labs
- 标题:Arrow
- 演讲者:Joris Van den Bossche
英伟达 (NVIDIA)
- 标题:RAPIDS
- 演讲者:Keith Kraus
- 其他与会者:- Mike Beaumont - Richard Zamora
英伟达 (NVIDIA)
- 标题:UCX
- 演讲者:Ben Zaitlen
6:Xarray
美国地质调查局和 NCAR
- 标题:Dask 在 Pangeo 中的应用
- 演讲者:Rich Signell 和 Anderson Banihirwe
LBNL
- 标题:使用 Dask 加速实验科学
- 演讲者:Matt Henderson
- 幻灯片 - 文件过大,无法预览
LANL
- 标题:地震分析
- 演讲者:Jonathan MacCarthy
自由交流时间
上午进行快速演讲,下午安排自由交流时间,这种组合非常高效。下面您会看到地球科学家和量化分析师讨论相同挑战的照片,以及 Pandas/Arrow/RAPDIS/Dask 等库的维护者共同研究联合解决方案的场景。
我们建议未来其他技术多样化的团队也采用这种非结构化时间(自由交流时间)的高效组合方式。整个研讨会的参与度和效率都非常高。
总结思考
Dask 的优势来自于这个广泛的利益相关者社区。
早期技术上对简单性和实用主义的关注使得该项目能够迅速在许多不同领域被采用。因此,这些领域内的实践者很大程度上是当今推动项目向前发展的人。这种社区驱动的开发带来了令人难以置信的技术和文化挑战及经验多样性,迫使项目迅速发展,并受到实用主义的约束。
仍然有很多工作要做。短期来看,本次研讨会提出了许多大家共同面临的技术挑战(更简单的部署、任务约束下的调度、主动内存管理)。长期来看,我们需要欢迎更多的人加入这个社区,通过增加领域的多样性和个体的多样性来实现(绝大多数与会者是来自美国和西欧的三十多岁的白人男性)。
我们处于一个可以促成这种变化的有利位置。Dask 近期的增长吸引了许多不同机构的关注。现在是刻意规划项目增长的关键时刻,以确保项目和社区继续体现广泛而合乎道德的原则。
致谢
赞助商
没有赞助商的支持,本次研讨会是不可能举办的。感谢 Anaconda、Capital One 和英伟达对本次活动的支持和慷慨捐赠。
组织者
非常感谢组织者们从繁忙的日程中抽出时间,辛勤工作促成了本次活动的举办。
- Brittany Treadway(Capital One)
- Keith Kraus(英伟达)
- Matthew Rocklin(Coiled Computing)
- Mike Beaumont(英伟达)
- Mike McCarty(Capital One)
- Neia Woodson(Capital One)
- Jake Schmitt(Capital One)
- Jim Crist(Anaconda)
博客评论由 Disqus 提供支持