大数据的最底层的内容就是存储, 只有把数据存在能高效访问的分布式系统下才能提升工作效率. 小编带大家来盘点一下这些常见的分布式文件系统:
Lustre
Lustre 是一个非常安全, 规模很大的分布式文件系统, 最早由 CFS(Cluster File System Inc.) 公司研发, 最后由 CFS, 惠普和因特尔三家公司一起与 2003 年推出第一版发布版, 发展到现在已经非常成熟. 其存储量通常以 PB 起步, 节点支持数也能打到万级. 但是其对设备有特殊要求.
HDFS
HDFS 是 Hadoop 内置的分布式文件系统, 之前也有过介绍. HDFS 最大的优势就是价格低廉, 因此也使用极为广泛. 并且其高可靠性, 高容错性也让使用者非常信赖. 虽然 HDFS 的存储级别也在 PB 以上, 但是对于小文件过多的情况 HDFS 不能很好的支持.
QFS
QFS 和 HDFS 类似, 都是为了解决高效顺序读写大量数据的问题. 但是 QFS 在性能上优于 HDFS, 读写效率提升综合越 60%. 现在 QFS 还比较小众, 没有经过大量的使用测试, 因此还不能用于大规模的生产环境.
GlusterFS
GlusterFS 也是一个 PB 级别的集群文件系统, 其思想是将集群内所有服务器的存储空间汇到一个大的网络系统上. 这样做最大的特点就是无中心, 不会有单点故障.
Alluxio
Alluxio 是第一个基于内存的分布式文件系统, 因此其相应速度也会超出普通的分布式文件系统很多, 例如 HDFS 就比它慢数百倍. 并且 Alluxio 和 Spark 也有良好的交互. 最重要的是 Alluxio 中国人开发的, 文档都是中文的, 对于被英文文档困扰很久的小伙伴绝对是福音.
来源: http://stor.51cto.com/art/201808/580667.htm