利用归并排序算法对大文件进行排序

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用归并排序算法对大文件进行排序，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6481字，纯文字阅读大概需要10分钟。

内容图文

归并排序算法介绍，请参照Wikipeida

zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F

基本思想：

大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数

低于限制行数的子文件直接排序

两个排序好的子文件归并到父文件

直到最后所有排序好的父文件归并到输入的大文件并返回

之前看了网上很多示例代码，写的很不简洁，引入了过多的临时变量i, j, k等等，导致程序基本没法看，

只好自己写了一个，没有很关心执行效率，只求够用，以后有机会再优化一下吧。

Performance：

输入999999行

cost: 10140 MILLISECONDS

cost: 10 MICROSECONDS per line

JDK要求

Java 8

package com.java.sort.merge;

import com.google.common.base.Charsets;
import com.google.common.base.Stopwatch;
import com.google.common.base.Strings;
import com.google.common.collect.ImmutableList;
import com.google.common.collect.Iterators;
import com.google.common.collect.PeekingIterator;
import com.google.common.io.Files;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.IOUtils;
import org.apache.commons.io.LineIterator;
import org.apache.commons.io.filefilter.AndFileFilter;
import org.apache.commons.io.filefilter.PrefixFileFilter;
import org.apache.commons.io.filefilter.SuffixFileFilter;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.junit.AfterClass;
import org.junit.BeforeClass;
import org.junit.Test;

import java.io.File;
import java.io.FilenameFilter;
import java.io.IOException;
import java.io.Writer;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.TimeUnit;


public class FileMergeSort {
    private static final Logger log = LogManager.getLogger();
    private static final long total = 999999L;
    private static final int limit = 9999;

    private static void cleanTempFiles() {
        FilenameFilter filter = new AndFileFilter(ImmutableList.of(new PrefixFileFilter("sort"), new SuffixFileFilter(".part")));
        ImmutableList.copyOf(FileUtils.getTempDirectory().listFiles(filter)).forEach(File::delete);
    }

    private static int lineNumber(File input) throws IOException {
        int count = 0;
        LineIterator iterator = FileUtils.lineIterator(input);
        while (iterator.hasNext()) {
            iterator.next();
            count++;
        }
        return count;
    }

    private static File split(File input, int from, int to) throws IOException {
        File part = File.createTempFile("sort", ".part");
        Long lineNumber = 0L;
        String line = null;
        List<String> lines = new ArrayList<>(to - from);
        LineIterator iterator = FileUtils.lineIterator(input);
        while (iterator.hasNext()) {
            if (lineNumber > to) break;
            line = iterator.next();
            if (lineNumber >= from && lineNumber <= to) {
                lines.add(line);
            }
            lineNumber++;
        }
        FileUtils.writeLines(part, lines);
        return part;
    }

    private static File merge(File source, File left, File right) throws IOException {
        PeekingIterator<String> leftLineIterator = Iterators.peekingIterator(FileUtils.lineIterator(left));
        PeekingIterator<String> rightLineIterator = Iterators.peekingIterator(FileUtils.lineIterator(right));
        String leftLine, rightLine;
        try (Writer writer = Files.newWriter(source, Charsets.UTF_8)) {
            writer.write("");
            while (leftLineIterator.hasNext() && rightLineIterator.hasNext()) {
                leftLine = leftLineIterator.peek();
                rightLine = rightLineIterator.peek();
                if (leftLine.compareTo(rightLine) < 0) {
                    writer.append(leftLine.concat(IOUtils.LINE_SEPARATOR));
                    leftLineIterator.next();
                } else {
                    writer.append(rightLine.concat(IOUtils.LINE_SEPARATOR));
                    rightLineIterator.next();
                }
            }
            while (leftLineIterator.hasNext()) {
                writer.append(leftLineIterator.next().concat(IOUtils.LINE_SEPARATOR));
            }
            while (rightLineIterator.hasNext()) {
                writer.append(rightLineIterator.next().concat(IOUtils.LINE_SEPARATOR));
            }
        }
        return source;
    }

    private static File directSort(File input) throws IOException {
        List<String> list = new ArrayList<>(limit);
        FileUtils.lineIterator(input).forEachRemaining(list::add);
        list.sort(String::compareTo);
        FileUtils.writeLines(input, list);
        return input;
    }

    public static File mergeSort(File input) throws IOException {
        int total = lineNumber(input);
        if (total <= limit) {
            return directSort(input);
        }
        int half = total / 2;
        File left = mergeSort(split(input, 0, half));
        File right = mergeSort(split(input, half + 1, total));
        return merge(input, left, right);
    }


    @BeforeClass
    public static void init() throws IOException {
        cleanTempFiles();
        int minLength = String.valueOf(total).length();
        try (Writer writer = Files.newWriter(new File("long.txt"), Charsets.UTF_8)) {
            writer.write("");
            for (long i = total; i > 0L; i--) {
                writer.append(Strings.padStart(String.valueOf(i), minLength, ‘0‘).concat(IOUtils.LINE_SEPARATOR));
            }
        }
    }

    @AfterClass
    public static void clean() {
        cleanTempFiles();
    }

    @Test
    public void testSort() throws IOException {
        Stopwatch watch = Stopwatch.createStarted();
        File sorted = mergeSort(new File("long.txt"));
        watch.stop();
        log.info(String.format("cost: %s MILLISECONDS", watch.elapsed(TimeUnit.MILLISECONDS)));
        log.info(String.format("cost: %s MICROSECONDS per line", watch.elapsed(TimeUnit.MICROSECONDS) / total));
    }

}

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.java.app</groupId>
    <artifactId>sample</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.4</version>
        </dependency>       
        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>18.0</version>
        </dependency>        
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-api</artifactId>
            <version>2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-jcl</artifactId>
            <version>2.1</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>test</scope>
        </dependency>
    </dependencies>
</project>

原文：http://ivarchen.iteye.com/blog/2179500

内容总结

以上是互联网集市为您收集整理的利用归并排序算法对大文件进行排序全部内容，希望文章能够帮你解决利用归并排序算法对大文件进行排序所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1193162.html

来源：【匿名】

【上一篇】二叉树的基础操作(Java)【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【利用归并排序算法对大文件进行排序】教程文章相关的互联网学习教程文章

基本思想　　假如按照从小到大的顺序排序，对待排序数组进行遍历，如果当前值大于其后一个值则进行交换，不断的进行遍历，直到没有交换动作的发生。冒泡排序的最好时间复杂度为O（n），最坏的时间复杂度为O（n2），所以冒泡排序的平均时间复杂度为O（n2），另外冒泡排序不会改变相同元素的前后顺序，故其是一种稳定的排序算法。实现代码#include<iostream> usingnamespace std;int main() {int MyData[10] = { 7,3,12,46,32,64,13,...

三种全排序算法详解

1、全排列的非去重递归算法算法思路：全排列可以看做固定前i位，对第i+1位之后的再进行全排列，比如固定第一位，后面跟着n-1位的全排列。那么解决n-1位元素的全排列就能解决n位元素的全排列了，这样的设计很容易就能用递归实现。附代码段：void permutation1(char* str,int sbegin,int send) //全排列的非去重递归算法 {if( sbegin == send) //当 sbegin = send时输出{for(int i = 0;i <= send; i++) //输出一个排列cout << s...

四种排序算法与二分查找【代码】

1. 冒泡排序func BubbleSort(slice []int) []int {i, j, okay, count := 0, 0, true, len(slice)for i = 0; i < count-1; i++ { //最多需要进行count-1轮比较okay = truefor j = 0; j < count-i-1; j++ { //每一轮比较的逻辑if slice[j] > slice[j+1] {slice[j], slice[j+1] = slice[j+1], slice[j]okay = false}}if okay { //当轮比较没有发生位置交换，说明已经排序完成，可提前退出循环break}}return slice } 2. 插入排序func I...

高速排序算法

高速排序算法作者 July 二零一一年一月四日------------------------------------------ 写之前，先说点题外话。每写一篇文章，我都会遵循下面几点原则：一、保持版面的尽量清晰，力保排版良好。二、力争所写的东西，清晰易懂，图文并茂三、尽最大可能确保所写的东西精准，有实用价值。由于，我认为，你既然要把你的文章，发布出来，那么你就一定要为你的读者负责。不然，就不要发表出来。一切，为读者服务。 ok，闲不多说...

python学习之排序算法【代码】

1.冒泡算法：N个数从左到右，相邻两两比较，按照顺序排列。 #冒泡排序，升序 a = [4,5,1,6,3,7,1,10] for i in range(len(a)):for j in range(i+1,len(a)):if a[i] > a[j]:a[i], a[j] = a[j], a[i] print(a)[1, 1, 3, 4, 5, 6, 7, 10]#冒泡排序，降序 a = [4,5,1,6,3,7,1,10] for i in range(len(a)):for j in range(i+1,len(a)):if a[i] < a[j]:a[i], a[j] = a[j], a[i] print(a)[10, 7, 6, 5, 4, 3, 1, 1]原文：http://blog.51ct...

【C语言】两种方式实现冒泡排序算法【代码】

题目要求编写一个C语言程序,实现基本的冒泡排序算法.算法冒泡排序,用一句话来总结:一组数中,相邻的两个数进行比较、交换,将最大(小)数交换至尾(首)部,即完成了一次冒泡排序要想对N个数字进行排序,循环N次即可.如果真的不理解冒泡排序算法,请点击:冒泡排序_360百科核心代码//方式一:从头向尾遍历,将最大数(相对)沉入尾部(相对) void BubbleSort1(int *arr,int sz){int i = 0;int j = 0;assert(arr);for(i=0;i<sz-1;i++){for(j=0;j<s...

冒泡排序算法【代码】

冒泡排序算法的时间复杂度是什么？时间复杂度是O(n^2)。 1 #include "stdafx.h" 2 #include <iostream>3usingnamespace std;4void Swap(int &a, int &b)5{6int temp = a;7 a = b;8 b = temp;9} 1011void Bubble1(int *array, int length) 12{ 13for (int i=length-1;i>0;--i) //首先是要比较多少趟，每一趟冒泡可以确定一个值。最后一趟只剩一个就不用比较了（所以是i>0而不是i>=0)。14 { 15for (int j=0;j<i;++j) 16 ...

数据结构与算法 -- Python实现【归并排序算法】【代码】【图】

摘要：本文主要介绍的是python实现归并排序算法，本文首先会介绍归并排序的原理，并以一张思维导图来加深读者对该算法过程的理解，紧接着进行代码的实现。最后介绍该算法的时间复杂度。一.原理：1.将一个序列从中间位置分成两个序列；2.在将这两个子序列按照第一步继续二分下去；3.直到所有子序列的长度都为1，也就是不可以再二分截止。这时候再两两合并成一个有序序列即可。下面的这张图片可以很清晰的解释该原理：二.代码如下...

排序算法

五，快速排序（划分交换排序）思想：（选择一个中间值作为一个分割线，分开序列）　　通过第一个值作为中值（注意这里中值并不意味着最后位置是最中间）对整个数列进行划分，然后从右开始做判断，交换进行排序，最后要求：规则：这个中值的左边都小于它，右边都大于它。　　将list[0]提出来，0位空缺　　low游标初始指向0，和high游标指向尾部，在指向空值时不能挪动。high游标先动，直到有不满足规则的，交换空缺和high的值。然...

利用归并排序算法对大文件进行排序

归并排序算法介绍，请参照Wikipeidazh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入的大文件并返回之前看了网上很多示例代码，写的很不简洁，引入了过多的临时变量i, j, k等等，导致程序基本没法看...

js:数据结构笔记11--排序算法（1）【代码】【图】

基本准备： function CArray(numElems) {this.dataStore = [];this.pos = 0;this.numElems = numElems;this.insert = insert;this.toString = toString;this.clear = clear;this.setData = setData;this.swap =swap;for(var i = 0; i < numElems; ++i) {this.dataStore[i] = i;}}function setData() {for(var i = 0; i < this.numElems; ++i) {this.dataStore[i] = Math.floor(Math.random() * 100);//0-99}}function clear() {...

排序算法（七）非比较排序：计数排序、基数排序、桶排序【代码】【图】

前面讲的是比较排序算法，主要有冒泡排序，选择排序，插入排序，归并排序，堆排序，快速排序等。非比较排序算法：计数排序，基数排序，桶排序。在一定条件下，它们的时间复杂度可以达到O(n)。一，计数排序（Counting Sort）(1)算法简介计数排序(Counting sort)是一种稳定的排序算法。计数排序使用一个额外的数组C，其中第i个元素是待排序数组A中值等于i的元素的个数。然后根据数组C来将A中的元素排到正确的位置。它只能对整数进行排...

插入排序算法【代码】

///<summary>/// 插入排序///</summary>///<param name="unsorted"></param>staticvoid insertion_sort(int[] unsorted){for (int i = 1; i < unsorted.Length; i++){if (unsorted[i - 1] > unsorted[i]){int temp = unsorted[i];int j = i;while (j > 0 && unsorted[j - 1] > temp){unsorted[j] = unsorted[j - 1];j--;}unsorted[j] = temp;}}} 原文：http://www.cnblogs.com/greyhh/p/4709600.html

浅析排序算法

冒泡排序　　<script> // 原理：遍历整个数组，比较并交换前后相邻的元素 var arr = [5, 3, 4, 1, 2]; for (var i = 0; i < arr.length - 1; i++) { for (var j = 0; j < arr.length - i - 1; j++) { var temp = arr[j]; arr[j] = arr[j + 1]; arr[j + 1] = temp; } } // 关键点：两层循环 // 外层： i < arr.le...

Python常用排序算法【代码】【图】

#快排 1def q_sort(l):2 left = 03 right = len(l)-14return q(l,left,right)5 6def quick_sort(l,left,right):7if left >= right:8return l9 low = left 10 high = right 11while right>left: 12while right>left and l[right] >= l[left]: 13 right -=1 14 l[right],l[left] = l[left],l[right] 15while right>left and l[right] >= l[left]: 16 left += 1 17 l[right...

排序算法 - 相关标签

排序算法的时间复杂度排序算法总结

算法 - 最热教程

浅谈SQLServer查询优化器中的JOIN算法有没那种可逆算法是密文比明文短的呢？...javascript-类似Excel里面的NORMDIST函...C++中的分治算法及常见题目汇总压缩感知重构算法综述-学习笔记 c++中内置函数qsort（快速排序）和bsea...一、fpga图像处理算法整合基于遗传算法（deap）的非线性函数寻优...集成学习-Bagging集成学习算法随机森林...机器学习笔记（九）聚类算法及实践（K-...

首页 / 算法 / 利用归并排序算法对大文件进行排序

利用归并排序算法对大文件进行排序

内容导读

内容图文

内容总结

内容备注

内容手机端

【利用归并排序算法对大文件进行排序】教程文章相关的互联网学习教程文章

排序算法之冒泡排序(Bubble Sort)【代码】

三种全排序算法详解

四种排序算法与二分查找【代码】

高速排序算法

python学习之排序算法【代码】

【C语言】两种方式实现冒泡排序算法【代码】

冒泡排序算法【代码】

数据结构与算法 -- Python实现【归并排序算法】【代码】【图】

排序算法

利用归并排序算法对大文件进行排序

js:数据结构笔记11--排序算法（1）【代码】【图】

排序算法（七）非比较排序：计数排序、基数排序、桶排序【代码】【图】

插入排序算法【代码】

浅析排序算法

Python常用排序算法【代码】【图】

排序算法 - 相关标签

算法 - 最新教程

算法 - 最热教程