DPark 漫谈 -- 目录
接下来的一段时间我打算写一个 Dpark 系列的文章, GitHub 地址。
主要是两个原因:
- 梳理一下自己对 Dpark 的理解。
- 给 Dpark 的新用户一个参考的文档,在这里我不仅会提到各个接口,也会给出一些真实的使用示例,另外还有一些实现方面的细节。
下面是该系列的一个大概的提纲,在写的过程中可能会调整。
第一章 简介
- 什么是 DPark
- Why DPark
- 应用示例
- 小结
- 练习
第二章 RDD
- RDD from scratch
- 词频统计剖析
- RDD 接口及其应用
- 小结
- 练习
- 什么是 Mesos
- Mesos 的设计
- DRF: Dominant Resource Fairness
- 简单的分布式计算框架
- 小结
- 练习
第四章 整体流程
- Shuffle
- Stage 的划分
- 从 Python 文件到 Mesos task
- 小结
- 练习
第五章 性能调优
- 参数的调优
- 程序的结构变换
- 一些 FAQ
- 小结
- 练习
第六章 扩展
- 添加新的文件格式
- 添加新的函数
- 小结
- 练习