灵感一现_在新的视野上看互联网
站在技术人的角度, 来说说一些想法.
问题来源之硬盘空间之重复数据删除之畅想
不知道面前的你, 有没有发现, 在不知不觉中, 电脑硬盘存储空间越来越不够用. 虽然如今电脑硬盘越来越大, 但是却无法满足日益增长的存储需求. 有没有办法节省一点呢? 答案有, 为此我狠狠地用 everything 这个强大的文件 (包括文件夹以及你想象到的各种都叫做文件, 如果站在 Linux 的角度的话) 搜索工具搜了下以前电脑中收藏的重复数据删除工具. 找了半天没找到, 只好借助 360 的那个重复数据删除工具了. 站在个人角度, 我认为 360 的这个重复数据查找和删除工具, 虽然不错. 但是缺少了自定义功能. 例如我想设置下搜索的文件类型和大小的阈值. 都没办法. 就将就用吧.
然而, 这种基于文件的数据删除显然不是我能接受的. 于是继续搜索了一些资料. 知道了重复数据删除技术在当今世界, 可能用到比较多的是云服务器厂商, 数据安全及数据存储厂商, 当然 NAS 厂商也可能涉及这一块.
云服务器厂商可以划分为两部分, 一部分是云网盘, 简称网盘吧, 因为真的看不出云的踪迹, 另一部分云服务器本身.
先说网盘, 网盘存储要想节约成本, 网盘厂家必然考虑重复数据删除和冗余数据存储的问题. 同样, 我们经常用邮箱发送较大的文件的时候, 有没有发现有时候上传一个公开的文件(可以是操作系统镜像, 几个 GB), 瞬间上传完成, 那么这说明邮箱中的中转站功能增加了冗余数据存储和删除的功能.
云服务器, 那么就涉及到虚拟化了. 众所周知, 所有的云服务器都是在高配机器上采用了 kvm,xen 等虚拟化形成. 即便我们买的时候或者我们采用 cat /proc/cpuinfo 等手段或命令查出我们买的 VPS 属于高配置. 实际上, 性能可能很渣渣. 当然云服务器厂商可能做了负载均衡等. 使得一切都能接受. 这里说的是虚拟化那么多服务器, 自然会形成大量的冗余数据, 这冗余数据如何存储, 自然是云服务器厂商最关心的技术考量.
目前的重复数据删除功能, 大部分还是基于文件的, 也有人研究了基于块的和基于字节的. 后面这两种情况可能需要特定的文件系统格式, 例如很多人提到的 FUSE. 当然, 我还在苦于找不到一种好用的适合个人使用的高性能重复数据删除软件. 理想中的情况是:
重复数据不应该存在, 至少个人电脑上不应该出现重复数据的问题.
理论上每一个数据入住电脑硬盘的时候应该都被快速分割和索引, 建立数据库到硬盘底层.
每进来一个新的文件, 应该快速的查找索引数据库, 如果有重复数据进来, 不要提示是否替换, 直接建立新的软连接就是了.
不应该再有分区的限制, 底层只有一个分区, 外观可以继续保留多分区的视觉感受, 防止大部分人不能一下子适应. 这对于 SSD 的寿命应该是有利无害的.
用到的数据库建立索引和快速查找, 都应该是极速的. 所有的操作都应该是顺畅无感, 且几乎不耗费资源的.
问题来源之技术狗血剧或技术武林外传之《硅谷》之压缩技术之畅想
作为一个技术人, 自然看科幻片很正常, 看技术吹牛片也当然正常了. 于是就将好多年前珍藏的《硅谷》这个 "烂片" 翻出来看看, 顺便通过特殊渠道下载了最新的几个 season 的片子.《硅谷》这个片子, 先不说其中的各种引人思考的细节. 就说整个片子的讲述的一件事情. 那就是数据压缩. 看到后面, 开始讲到新型互联网. 而新型互联网也是要建立在超强的压缩技术.
关于压缩技术, 其实是个人比较感兴趣的. 压缩技术涉及的东西比较多. 最早的时候逛知乎啊, 当时是压缩感知刚刚兴起不久, 什么稀疏存储啊, 每次看到那些字眼都让人心肠澎湃的. 知乎上看的时候说到压缩技术, 提到信息熵.
这阵子又在维基百科上大致浏览了压缩算法 (包括有损压缩和无损压缩) 一览表.
对这个感兴趣的另一个原因是工作中涉及到中小规模的数据的 (1GB 以内或左右, 至少个人认为是中小规模的, 相对于大数据而言) 存储和传输问题. 采用一般的二元组或三元组的稀疏存储能大大减少文件体积, 而且某些数据采用有损层次压缩, 也可以大大减少体积. 而最早接触了一份开源代码, 里面或多或少的采用了有损层次压缩. 有损层次压缩在个人看来, 主要是体现在将浮点数矩阵进行整数化矩阵 + 单一浮点数存储, 且每层的整数都采用较少位数的的整数, 例如 int8 这种.
关于数字宇宙对真实宇宙的冲击之畅想
而《IDC 最新调研报告: 2020 年的 "数字宇宙"》提到的 2020 年, 数字宇宙的信息量达到了 40 万亿 GB, 着实吓人. 于是我想到了, 如果没有强大如《硅谷》中那么超级牛逼哄哄的压缩算法, 如果没有革命性的重复数据删除技术, 客观真实宇宙的资源会不会不断被数字宇宙拖垮.
21 世纪二十年代, 随着 5G 技术的到来, 兴起和商用, 视频直播技术的火热, 网上购物带来的网络交易的井喷式发展, 数据膨胀的速度越来越快. 可以想到, 地球的资源在不断被耗尽 ing. 在这样的情形下, 人工智能 AI 能做出一个好的压缩算法模型呢还是一个好的重复数据删除模型呢?
来源: http://www.bubuko.com/infodetail-3336874.html