Java 实现文件分割和拼接
单线程实现
文件分割
在老的 FAT32 文件系统中, 最大的单个文件大小必须保存在 4G 内, 对于经常看电影的我这个是不能允许的. 不过现在 Windows 有 NTFS 文件系统, Linux 大部分发行版为 Ext4 文件系统, 最大单个文件大小能大于 4G. 不过这二者并不能兼容.. 格式化 NTFS 的 U 盘 Linux 不能识别, 格式化 Ext4 的 U 盘 Windows 不能识别, 只能用老的 FAT32 兼容二者. 所以将文件分割, 再进行拼接就很重要, 文件经过分割了在网络上传输就十分方便, 也能开多线程对每部分进行 HASH 提高处理效率.
最近看的 BradPitt 的《狂怒》
首先: 对文件进行分割需要确定每一部分的大小, 假设上面的 Fury.mkv 文件大小为 280M, 分割每一块设置默认大小为 64M, 所以:
对于最后一块, 一般小于等于设定好的每块默认大小. 每块大小设置好了, 接下来, 就需要将文件的路径获取, 代码中搭建输入流, 将文件读入内存缓冲区中, 再搭建输出流, 将缓冲区输出到新的分割文件中. 再接下来实现就很简单了. 新建一个 FileSlice 类: 有切割方法, 拼接方法.
- public class FileSlice {
- /**
- * 分割文件
- * @param filePath 文件路径
- * @param filePieceSize 文件每块大小, 单位为字节, 为 - 1 则默认为每块 64M
- * @return 成功返回 True, 出错则返回 False
- */
- public static boolean slice(Path filePath, int filePieceSize){
- return true;
- }
- /**
- * 将分割好的文件重新链接
- * @param filePath 被分割好的其中之一文件路径, 默认其他块与其在同一目录下
- * @param howManyParts 一共有多少块
- * @return 成功返回 True, 出错则返回 False
- */
- public static boolean glue(Path filePath, int howManyParts){
- return true;
- }
- }
接下来实现单线程的分割方法: 用图解的话应该是这样:
代码实现: 进入函数首先判断文件是否存在:
- if (!Files.exists(filePath)){
- return false;
- }
接下来判断每块大小是否使用默认值:
- if(filePieceSize == -1){
- filePieceSize = 1024*1024*64;
- }
将路径转换为文件对象, 再计算将分割多少块:
- File file = filePath.toFile();
- int howManyParts = (int) Math.ceil(file.length() / (double)filePieceSize);
初始化输入输出流, 出错输出错误信息, 返回 false, 获得当前目录:
- DataInputStream fileReader = null;
- try {
- fileReader = new DataInputStream(new FileInputStream(file));
- } catch (FileNotFoundException e) {
- e.printStackTrace();
- System.out.println("文件找不到!");
- return false;
- }
- DataOutputStream fileWriter;
- Path dir = filePath.getParent();
接下来读取文件, 并且分别输出到各个 part 文件中:
- int readLength = -1;
- long total = 0;
- try {
- for (int i = 1; i <= howManyParts ; i++){
- // 新建文件 part i
- Path temp = Files.createFile(dir.resolve(filePath.getFileName() + ".part" + i));
- // 搭建输出流
- fileWriter = new DataOutputStream(new FileOutputStream(temp.toFile()));
- // 读取文件并输出
- while ( (readLength = fileReader.read(buffer)) != -1){
- fileWriter.write(buffer,0,readLength);
- fileWriter.flush();
- total += readLength;
- if (total == filePieceSize){
- total = 0;
- break;
- }
- }
- //part i 的文件已经输出完毕, 关闭流
- fileWriter.close();
- }
- // 读取完毕, 关闭输入流
- fileReader.close();
- } catch (IOException e) {
- e.printStackTrace();
- System.out.println("IO 错误!");
- return false;
- }
该函数已经实现完毕, 接下来测试 (由于电影 Fury 有 14G.. 太大了.. 还是换个吧):
我是大哥大第 5 集, 有 729M, 大概能分个 12 个 part 吧.
- public static void main(String[] args) throws IOException {
- double before = System.currentTimeMillis();
- Path bigboss = Paths.get("D:\\Video\\ 我是大哥大 \\ 我是大哥大. Kyou.kara.Ore.wa.Ep05.Chi_Jap.HDTVrip.1280X720.mp4");
- FileSlice.slice(bigboss,-1);
- double after = System.currentTimeMillis();
- System.out.println("分割文件我是大哥大. Kyou.kara.Ore.wa.Ep05.Chi_Jap.HDTVrip.1280X720.mp4," + Files.size(bigboss) + "字节, 总用时" + (after - before) + "ms" );
- }
运行结果:
分割文件我是大哥大. Kyou.kara.Ore.wa.Ep05.Chi_Jap.HDTVrip.1280X720.mp4,765321889 字节, 总用时 16335.0ms
速度还是挺慢的.. 下次还是换成多线程来实现, 再来测试下速度. 在单线程情况下一个普通的 40 分钟日剧都要 15-30s 左右, 要是 mkv 格式的电影都要好久了.. 不过其实极限应该不在 CPU 中执行的速度, 而是在硬盘 IO 中, 如果是普通硬盘那么就算是多线程也应该提速不了多少..
文件拼接
这个就很简单了, 和分割相反就 OK. 直接上完整代码:
- public static boolean glue(Path filePath, int howManyParts){
- if (!Files.exists(filePath)){
- return false;
- }
- // 获取原始文件名
- String filename = getOriginalFileName(filePath.getFileName().toString());
- if (filename == null){
- System.out.println("传入 part 文件名解析出错!");
- return false;
- }
- // 初始化缓冲区
- byte [] buffer = new byte[1024 * 8];
- // 获取文件存储的路径
- Path dir = filePath.getParent();
- try {
- DataInputStream fileReader = null;
- // 创建原始文件
- Files.createFile(dir.resolve(filename));
- // 搭建原始文件输出流
- DataOutputStream fileWriter = new DataOutputStream(new FileOutputStream(dir.resolve(filename).toFile()));
- int readLength = -1;
- for (int i = 1; i <= howManyParts ; i++){
- // 得到 part i 文件路径
- Path temp = dir.resolve(filename + ".part" + i);
- // 搭建输入流
- fileReader = new DataInputStream(new FileInputStream(temp.toFile()));
- // 读取文件并输出
- while ( (readLength = fileReader.read(buffer)) != -1){
- fileWriter.write(buffer,0,readLength);
- fileWriter.flush();
- }
- //part i 的文件已经读入完毕, 关闭流
- fileReader.close();
- }
- // 写入完毕, 关闭输出流
- fileWriter.close();
- } catch (IOException e) {
- e.printStackTrace();
- System.out.println("IO 错误!");
- return false;
- }
- return true;
- }
再测试刚刚分割好的我是大哥大第 5 集
- public static void main(String[] args) throws IOException {
- double before = System.currentTimeMillis();
- Path bigboss = Paths.get("D:\\Video\\ 我是大哥大 \\ 我是大哥大. Kyou.kara.Ore.wa.Ep05.Chi_Jap.HDTVrip.1280X720.mp4.part1");
- FileSlice.glue(bigboss,12);
- double after = System.currentTimeMillis();
- System.out.println("拼接 12 个 part, 用时" + (after - before) + "ms");
- }
结果输出, 用 12s 左右, 还行.
拼接 12 个 part, 用时 12147.0ms
来源: https://juejin.im/post/5bf3f63c6fb9a049f570c158