2020 Dask 用户调查
作者:Tom Augspurger
本文介绍了今年夏季早些时候进行的 2020 Dask 用户调查结果。感谢所有花时间填写调查问卷的人!这些结果有助于我们更好地了解 Dask 社区,并将指导未来的开发工作。
原始数据以及初步分析可以在这个 binder 中找到
如果你在数据中发现了什么,请告诉我们。
亮点
- 我们收到了 240 份调查回复(略少于去年的约 260 份)。
- 总体而言,结果与去年大体相似。
- 我们的文档可能相对于去年有所改进。
- 受访者相对于去年更关注性能。
新问题
大多数问题与 2019 年相同。我们新增了几个关于部署和仪表板使用的问题。先来看看这些。
在使用 Dask 包部署集群的受访者中(约占受访者的 53%),方法多种多样。
大多数人通过网络浏览器访问仪表板。不使用仪表板的用户可能(希望如此)只是在单机上使用带有线程调度器的 Dask(尽管仪表板在单机上也工作正常)。
学习资源
受访者对学习材料的使用情况与去年非常相似。最显著的区别在于我们的调查问卷提供了更多选项(我们的 YouTube 频道和“Gitter 聊天”)。除此之外,examples.dask.org 可能相对更受欢迎。
和去年一样,我们将按照使用 Dask 的频率对资源使用情况进行分组查看。
几点观察
- GitHub issue 变得相对不那么受欢迎,这或许反映了文档或稳定性的改善(假设人们在文档中找不到答案或遇到 bug 时才会去 issue 追踪器)。
- https://examples.dask.org.cn 值得注意的是现在在偶尔用户中更受欢迎。
- 针对去年的调查,我们投入时间改进了 https://tutorial.dask.org.cn,我们之前认为它有所不足。它的使用情况与去年大致相同(相当受欢迎),因此不确定我们是否应该进一步投入精力。
您如何使用 Dask?
API 使用情况与去年大致相同(请注意,今年参加调查的人数减少了约 20 人,并且人们可以选择多个选项,因此相对差异最值得关注)。我们新增了 RAPIDS、Prefect 和 XGBoost 的选项,这些都比较受欢迎(与 dask.Bag
的受欢迎程度相近)。
大约 65% 的用户至少有一部分时间在集群上使用 Dask,这与去年相似。
Dask 如何改进?
受访者继续表示,增加文档和示例是项目最有价值的改进。
一个有趣的变化来自于按照 API 组(dask.dataframe
、dask.array
等)划分“目前对您帮助最大的是什么?”这个问题。去年显示,“我的领域中有更多示例”对所有 API 组都是最重要的(见下面的第一个表格)。但在 2020 年,情况有所不同(见下面的第二个表格)。
目前对您帮助最大的是什么? | Bug 修复 | 更多文档 | 我的领域中有更多示例 | 新功能 | 性能改进 |
---|---|---|---|---|---|
Dask API | |||||
Array | 10 | 24 | 62 | 15 | 25 |
Bag | 3 | 11 | 16 | 10 | 7 |
DataFrame | 16 | 32 | 71 | 39 | 26 |
Delayed | 16 | 22 | 55 | 26 | 27 |
Futures | 12 | 9 | 25 | 20 | 17 |
ML | 5 | 11 | 23 | 11 | 7 |
Xarray | 8 | 11 | 34 | 7 | 9 |
目前对您帮助最大的是什么? | Bug 修复 | 更多文档 | 我的领域中有更多示例 | 新功能 | 性能改进 |
---|---|---|---|---|---|
Dask API | |||||
Array | 12 | 16 | 56 | 15 | 23 |
Bag | 7 | 5 | 24 | 7 | 16 |
DataFrame | 24 | 21 | 67 | 22 | 41 |
Delayed | 15 | 19 | 46 | 17 | 34 |
Futures | 9 | 10 | 21 | 13 | 24 |
ML | 6 | 4 | 21 | 9 | 12 |
Xarray | 3 | 4 | 25 | 9 | 13 |
示例再次成为最重要的(除了 Futures
外的所有 API 组)。但“性能改进”现在是第二重要的改进(除了 Futures
,性能改进对其最重要)。我们该如何解释这一点?一种宽容的解释是,Dask 用户正在处理更大规模的问题,并遇到了新的扩展挑战。一种不那么宽容的解释是,用户的 workflow 没有变,但 Dask 变慢了!
您还使用哪些其他系统?
SSH 继续是最受欢迎的“集群资源管理器”。这是去年的一大意外,所以我们做了一些工作使其更易用。除此之外,变化不大。
Dask 用户对其稳定性的满意度与去年大致相同。
要点总结
- 总体而言,大多数情况与去年相似。
- 文档,特别是特定领域的示例,仍然很重要。话虽如此,我们的文档可能比去年更好了。
- 更多用户正在更深入地使用 Dask。投入性能改进可能会很有价值。
再次感谢所有受访者!
博客评论由 Disqus 提供支持