수학인듯 과학아닌 공학같은 컴퓨터과학/알고리즘 중급

고급 정렬 알고리즘

안정 정렬

비교한 값이 같을 때 서로 바뀌지 않는 정렬법을 안정 정렬이라고 한다.

거품(Bubble) 정렬

병합(Merge) 정렬

분할정복기법의 대표적 예이다. 소스는 은근 쉽다.

int arr[] = {5, 3, 7, 8, 6, 4, 2, 1, 0, 9};
int tmparr[10];

void sort(int, int);
void merge(int, int);

void sort(int start, int end)
{
    if(end > start)
    {
        sort(start, (start + end) / 2);
        sort((start + end) / 2 + 1, end);
    }
    merge(start, end);
}

void merge(int start, int end) //여기가 진짜다.
{
    int i = start, j = (start + end) / 2 + 1;
    int count = start;
    while(i <= (start + end) / 2 && j <= end)
    {
        if(arr[i] > arr[j])
        {
            tmparr[count++] = arr[j++];
        }
        else
        {
            tmparr[count++] = arr[i++];
        }
    }
    while(i <= (start + end) / 2)
    {
        tmparr[count++] = arr[i++];
    }
    while(j <= end)
    {
        tmparr[count++] = arr[j++];
    }
    for(i = start; i <= end; i++)
    {
        arr[i] = tmparr[i];
    }
}

불안정 정렬

비교한 값이 같을 때 서로 바뀌는 정렬법을 불안정 정렬이라고 한다.

선택(Selection) 정렬

해당 항목 참고.

삽입(Insertion) 정렬

해당 항목 참고.

퀵(Quick) 정렬

정렬의 왕. 시간 복잡도가 평균 [math]\displaystyle{ O(n\log n) }[/math]인 정렬 알고리즘들 중 가장 빠르다. 자료 중 하나를 정렬 기준으로 잡아서 이 자료보다 작은 걸 왼쪽으로, 큰 걸 오른쪽으로 보내는 걸 반복해 정렬한다고 보면 된다.

예를 들어, 5, 3, 7, 8, 6, 4, 2, 1, 0, 9를 정렬한다고 해보자. 맨 앞의 5를 기준으로 일단 정렬한다. 사람이 한다면 아마 3, 4, 2, 1, 0, 5, 7, 8, 6, 9가 될 것이다. 이 상태에서 5의 앞을 다시 정렬한다. 2, 1, 0, 3, 4와 5와 7, 8, 6, 9가 남았다. 이 때, 4는 3 뒤에 있는 오직 한 개의 수이므로 정렬이 되었다고 본다. 이런 식으로 하다 보면 0, 1, 2, 3, 4, 5, 6, 7, 8, 9의 올바른 순열이 나올 것이다. 소스는 다음과 같다.^[1]

int arr[] = {5, 3, 7, 8, 6, 4, 2, 1, 0, 9};

void sort(int, int);

void sort(int start, int end)
{
    int i = start + 1;
    int j = end;

    if(end < start)
        return;
    while(i < j)
    {
        while(arr[i] <= arr[start])
        {
            i++;
        }
        while(arr[j] >= arr[start])
        {
            j--;
        }
        if(i < j)
        {
            arr[i] = arr[i] ^ arr[j];
            arr[j] = arr[i] ^ arr[j];
            arr[i] = arr[i] ^ arr[j];
        }
    }
    if(arr[start] > arr[j])
    {
        arr[start] = arr[start] ^ arr[j];
        arr[j] = arr[start] ^ arr[j];
        arr[start] = arr[start] ^ arr[j];
    }

    sort(start, j - 1);
    sort(j + 1, end);
}

퀵 정렬이 모든 경우에 항상 빠른 것은 아니다. ~~거의 항상 빠른 것 뿐이다.~~ 최악의 경우, 즉 이미 모든 자료가 거의 정렬된 상태인 경우라면 [math]\displaystyle{ O(n^2) }[/math]의 성능을 보일 수 있지만, 정렬 기준을 맨 앞 값 대신 아무거나 하나 골라 잡는 방법으로 해결하면 거의 대부분의 경우에 [math]\displaystyle{ O(n\log n) }[/math]의 성능을 보장받을 수 있다. 더불어 실제로 정렬 알고리즘을 돌렸을 때 퀵 정렬은 다른 [math]\displaystyle{ O(n\log n) }[/math] 알고리즘보다 캐시 히트 레이트가 높아 훨씬 더 빠르기 때문에 일반적으로 정렬의 대부분은 퀵 정렬 알고리즘을 활용한 형태를 사용한다.

힙(Heap) 정렬

그 밖의 정렬 알고리즘

버킷(Bukket) 정렬

자릿수(Radix) 정렬

고급 자료구조

자주 사용되는 유명한 알고리즘

수치해석

정수론

계산 기하

트리

구현과 순회

Union-Find 알고리즘

이진 검색 트리

이진 검색 트리는 고급 자료구조를 위해서 다양하게 활용되기도 한다. 그에 관해서는 다음 문서를 참고.

힙

힙은 트리의 일종으로 부모 노드 값이 항상 자식 노드 값보다 큰 트리를 말한다. ~~힙소트 할때 쓰는 트리이다.~~ 보통 이진트리로 구현한다. 힙에 새 원소를 넣고 빼는 데에는 [math]\displaystyle{ O(n \log n) }[/math]의 시간 복잡도를 가진다. ~~뭔가 힙보다 힙정렬이 더 앞에 있는 것 같은 건 눈의 착각이다.~~

C로 힙을 구현하는 방법은 크게 두 가지, 배열과 포인터가 있다. 포인터로 하는 방법은 직관적이지만 많은 자원(메모리 또는 시간)이 소모된다. 하지만 배열은 힙의 각 노드를 배열의 어떤 인덱스에 대응시킬지 고민해야 하지만 훨씬 자원을 효율적으로 사용할 수 있다.

힙을 이용해 우선순위 큐를 쉽게 구현할 수 있다.

구간 트리

트라이

그래프

수학, 과학 시간에 많이 보던 그 그래프와는 사뭇 다르다. 알고리즘을 배우다 보면 어쩌면 가장 많이 나오는 부분일 지도 모른다. 주로 노드와 엣지로 표현된다. ~~왠지 노드는 동그라미이고 엣지는 선이다.~~ '그래프 구조'로 검색하면 그런 그림을 볼 수 있다. 간단한 구조체를 만들어 보자.

struct Edge //노드보다는 엣지로 나타내는 편이 대부분의 경우에 더 좋다.
{
    int snode; //시작 노드
    int enode; //종료 노드
    //int cost; //가중치를 가지는 엣지에 사용된다.
};

struct Edge가 하나 이상 있는 것이 바로 그래프이다.

순회 알고리즘

깊이 우선 탐색

Depth First Search, DFS

너비 우선 탐색

Breadth First Search, BFS

최단 경로

편의상 [math]\displaystyle{ i\longrightarrow j }[/math]로 이동하는 경로의 최소 비용을 [math]\displaystyle{ cost\left[i\right]\left[j\right] }[/math]라고 표기한다.

플로이드-워셜(Floyd-Warshall) 알고리즘

가장 쉬운 알고리즘이면서, 가장 최악의 효율을 가진 알고리즘이다. 그래프 상에 비용이 음수인 간선이 존재하는건 괜찮지만 비용이 음수인 사이클이 존재하지 않아야 한다.

현재까지 구한 [math]\displaystyle{ i }[/math]에서 [math]\displaystyle{ j }[/math]로 가는 최소 비용보다 [math]\displaystyle{ i }[/math]에서 [math]\displaystyle{ k }[/math]를 거쳐 [math]\displaystyle{ j }[/math]로 가는 최소비용이 더 작다면 [math]\displaystyle{ cost\left[i\right]\left[j\right] }[/math]를 [math]\displaystyle{ cost\left[i\right]\left[k\right] + cost\left[k\right]\left[j\right] }[/math]로 대치한다. 이렇게 해서 모든 [math]\displaystyle{ \left(i, j\right) }[/math]에 대해 [math]\displaystyle{ cost\left[i\right]\left[j\right] }[/math]를 [math]\displaystyle{ O \left( n^3 \right) }[/math]로 구할 수 있다.

C 코드로 표현하면 다음과 같다.

for(int k = 1; k <= n; ++k)
{
    for(int i = 1; i <= n; ++i)
    {
        for(int j = 1; j <= n; ++j)
        {
            if(cost[i][j] > cost[i][k] + cost[k][j]) cost[i][j] = cost[i][k] + cost[k][j];
        }
    }
}

데이크스트라(Dijkstra) 알고리즘

~~이거 왜 그리디에 없고 여기 있냐~~ 최단거리를 찾는 알고리즘이다. 움짤이 여럿 돌아다니니 한 번 보자.

Shortest path Dijkstra vs BellmanFord

~~c부터 조사하지 않는 게 수상하긴 하지만~~ 윗 것은 데이크스트라, 아랫 것은 벨먼 포드 알고리즘이다. 이것만 보고도 이해할 수 있다면 참 좋겠다.

데이크스트라의 알고리즘은 인터넷의 네크워크 계층에서 라우터가 라우팅을 할 때 사용되는 방법 중 하나로 최단 경로 우선 프로토콜(OSPF)에 사용된다.

벨먼-포드(Bellman-Ford) 알고리즘

추가바람

벨먼-포드의 알고리즘은 데이크스트라의 알고리즘과 비슷한 시기에 나왔으나, 데이크스트라의 알고리즘에 비하면 계산 횟수는 더 안 좋지만, 계산 과정과 전달 자체만은 비교적 간결한 형태를 띄고 있다. 인터넷에서 라우터가 라우팅을 할 때 사용되는 방법 중 하나인 라우팅 정보 프로토콜(RIP)에서 이 알고리즘을 사용하고 있다. OSPF에 비해서는 비교적 간결한 통신을 하지만, 순환 경로나 수신자가 메시지 도착 전에 가동 불능이 되는 경우에는 문제가 생길 수 있다는 단점이 있다.

위상 정렬

최소 비용 스패닝 트리

크러스컬(Kruskal) 알고리즘

프림(Prim) 알고리즘

강연결요소

네트워크 플로우

문자열 알고리즘

문자열 검색

KMP 알고리즘

보이어-무어 알고리즘

최종병기 접미사 트리

↑ 물론 최적화는 되어 있지 않다.

[1] 물론 최적화는 되어 있지 않다.

[1]