基础排序算法详解与优化

文章图片存储在GitHub，网速不佳的朋友，请看《基础排序算法详解与优化》或者来我的技术小站 godbmw.com

1. 谈谈基础排序

常见的基础排序有选择排序、冒泡排序和插入排序。众所周知，他们的时间复杂度是 O(n*n)。

但是，现在要重新认识一下基础排序算法，尤其是“插入排序”：在近乎有序的情况下，插入排序的时间复杂度可以降低到 O(n)的程度。

因此，在处理系统日志的任务中，因为日志记录是按照时间排序，但偶尔会有几条是乱序，此时使用插入排序再好不过。而对于高级排序算法，一个常见的优化就是利用插入排序做局部数据排序优化。

2. 算法实现

排序算法被封装在了SortBase.h中的SortBase命名空间中，以实现模板化和防止命名冲突。如下图所示：

2.1 选择排序

假设从小到大排序，那么，刚开始指针指向第一个数据，选择从当前指针所指向数据到最后一个数据间最小的数据，将它放在指针位置。

指针后移一位，重复上述步骤，直到指针移动到最后一个数据。

这种重复保证了每次，指针前面的数据都是从小到大排好顺序的数据。所以，从头到尾扫描一遍，自然排好序了。

代码如下：

template <typename T>
void selectionSort(T arr[], int n) {
  int minIndex = -1;
  for(int i = 0; i < n; i++) {
    minIndex = i;
    for(int j = i+1; j < n; ++j) {
      if(arr[j] < arr[minIndex]) {
        minIndex = j;
      }
    }
    swap(arr[i], arr[minIndex]);
  }
}

2.2 冒泡排序

假设排序是从小到大排序。

我一直感觉冒泡排序是和选择排序反过来了（如果说错请指正）。因为选择排序是每次选择最小的数据，放到当前指针位置；而冒泡排序是把不停交换相邻数据，直到把最大的数据“冒泡”到应该到的位置。

优化的地方是：记录每次交换的最后位置，在此之后的元素在下一轮扫描中均不考虑。因为交换的最后位置之后的元素已经是从小到大排序好了的。

在实现过程中，因为需要不停交换相邻两个数据，因此，消耗了很多额外时间。

template <typename T>
void bubbleSort(T arr[], int n) {
  int newn;
  do {
    newn = 0;
    for(int i = 1; i < n; i++) {
      if(arr[i-1] > arr[i]) {
        swap(arr[i-1], arr[i]);
        // 优化
        newn = i;
      }
    }
    n = newn; // 不再考虑 newn 后的数据
  } while (newn > 0);
}

2.3 插入排序

插入排序容易和上面两个算法搞混。可以类比打扑克牌时候的对扑克牌进行排序：我们会先排序前 1 张、然后是前 2 张、前 3 张 ... 一直到前 n 张。算法实现显然是双重循环，如下所示：

template <typename T>
void insertionSort(T arr[], int n) {
  for(int i = 1; i < n; i++) {
    for(int j = i ; j > 0; j--) {
      if(arr[j - 1] > arr[j]) {
        swap(arr[j], arr[j - 1]);
      } else {
        break; // 优化：已经保证之前都是正常排序，直接跳出即可
      }
    }
  }
}

显然，插入排序也能在局部排好序的情况下跳出循环（代码中的优化），以减少算法消耗时间。

然而上述算法其实跑分并比不上选择排序，因为swap(arr[j], arr[j - 1]);这行代码交换了一次，相当于赋值 3 次，在大数据量情况下，比较消耗时间。

优化: 内层循环，每次保存arr[i], 在检测到当前数据大于arr[i]的时候，后移一位当前元素arr[j] = arr[j-1];。当跳出内层循环时，直接将保存的arr[i]赋值给arr[j]即可。

template <typename T>
void insertionSort(T arr[], int n) {
  for(int i = 1; i < n; i++) {
    T e = arr[i];
    int j = i ;
    for(; j > 0 && arr[j-1] > e; j--) {
      arr[j] = arr[j-1];
    }
    arr[j] = e;
  }
}

3. 性能测试

首先利用 SortTestHelper::generateRandomArray函数生成大量无序随机数据，然后进行排序和时间测定。代码如下：

#include <iostream>
#include "SortHelper.h"
#include "SortBase.h"
#include "SortAdvance.h"

using namespace std;

int main() {
  int n = 50000, left = 0, right = n;

  int *arr = SortTestHelper::generateRandomArray<int>(n, left, right);
  int *brr = SortTestHelper::copyArray<int>(arr, n);
  int *crr = SortTestHelper::copyArray<int>(arr, n);
  SortTestHelper::testSort<int>(arr, n, SortBase::selectionSort<int>, "selection sort");
  SortTestHelper::testSort<int>(brr, n, SortBase::insertionSort<int>, "insertion sort");
  SortTestHelper::testSort<int>(crr, n, SortBase::bubbleSort<int>, "bubble sort");
  delete[] brr;
  delete[] arr;
  delete[] crr;

  return 0;
}

运行结果如下图所示：

除了大量无序随机数据，类似于系统日志的数据就是基本有序的大量数据。此时，测试代码如下：

#include <iostream>
#include "SortHelper.h"
#include "SortBase.h"
#include "SortAdvance.h"

using namespace std;

int main() {

  int n = 50000, left = 0, right = n;
  int *arr = SortTestHelper::generateNearlyOrderedArray<int>(n, 10);
  int *brr = SortTestHelper::copyArray<int>(arr, n);
  int *crr = SortTestHelper::copyArray<int>(arr, n);
  SortTestHelper::testSort<int>(arr, n, SortBase::selectionSort<int>, "selection sort");
  SortTestHelper::testSort<int>(brr, n, SortBase::insertionSort<int>, "insertion sort");
  SortTestHelper::testSort<int>(crr, n, SortBase::bubbleSort<int>, "bubble sort");
  delete[] brr;
  delete[] arr;
  delete[] crr;

  return 0;
}

如图所示，插入排序的只用了 0.002 秒。在这种数据情况下，插入排序的时间复杂度近似 O(N)，绝对快于高级排序的 O(NlogN)。除此之外，还保证了稳定性。

4. 感谢

本篇博客是总结于慕课网的《学习算法思想修炼编程内功》的笔记，liuyubobobo 老师人和讲课都很 nice，欢迎去买他的课程。

5. 更多内容

快速排序和归并排序：《高级排序算法实现与优化》
堆与堆排序：《堆、堆排序和优先队列的那些事》

基础排序算法详解与优化

1. 谈谈基础排序

2. 算法实现

2.1 选择排序

2.2 冒泡排序

2.3 插入排序

3. 性能测试

4. 感谢

5. 更多内容

xintan

引用和评论

系统设计：基于角色的权限管理设计实现

Visual Studio Code (VS Code) – C/C++ 入门

如何系统地入门学习stm32？

AI处理器组合

想从事嵌入式软件，有推荐的吗？

程序员如何利用周末提升自己

嵌入式行业真的没前途吗？