반응형

중복되는 연산을 줄이자

현실 세계에서는 다양한 문제가 있다. 
그런데 이 중에서 컴퓨터를 활용해도 해결하기 어려운 문제는 무엇일까? 최적의 해를 구하기에 시간이 매우 많이 필요하거나 메모리 공간이 매우 많이 필요한 문제 등이 컴퓨터로도 해결하기 어려운 문제이다.  컴퓨터는 연산 속도에 한계가 있고, 메모리 공간을 사용할 수 있는 데이터의 개수도 한정적이라는 점이 많은 제약을 발생시킨다. 그래서 우리는 연산 속도와 메모리 공간을 최대한으로 활용할 수 있는 효율적인 알고리즘을 작성해야 한다.

다만, 어떤 문제는 메모리 공간을 약간 더 사용하면 연산 속도를 비약적으로 증가시킬 수 있는 방법이 있다.
대표적인 방법이 바로 이번 장에서 다루는 다이나믹 프로그래밍(Dynamic Programming) 기법으로 동적계획법이라고 표현하기도 한다. 
먼저 다이나믹 프로그래밍의 기본적인 아이디어를 소개한 뒤에, 다이나믹 프로그래밍의 2가지 방식(탑다운과 보텀업)을 설명할 것이다. 특히 다이나믹 프로그래밍을 위해 자주 사용되는 메모제이션 기법까지 소개하겠다.

다이나믹 프로그래밍과 동적 할당의 다이나믹은 같은 의미일까?

지금까지 다룬 알고리즘은 이름으로 동작 과정을 유추할 수 있었지만, 다이나믹 프로그래밍은 감이 오지 않을 것이다. 
프로그래밍에서 다이나믹은 '프로그래밍 실행 도중에 라는 의미이다.
예를 들어, 자료구조에서 동적 할당(Dynamic Allocation)은 프로그램 실행 중에 프로그램 실행에 필요한 메모리를 할당하는 기법이다.
하지만 다이나믹 프로그래밍에서의 '다이나믹'은 이런 의미가 아니라는 것 정도만 기억하자.

 

다이나믹 프로그래밍에 대해 앙라보기 전에 기존의 알고리즘으로 해결하기 어려운 문제 중에서 다이나믹 프로그래밍으로 해결할 수 있는 문제를 살펴보자.

다이나믹 프로그래밍으로 해결할 수 있는 대표적인 예시로 피보나치 수열이 있다. 피보나치 수열은 이전 두 항의 합을 현재의 항으로 설정하는 특징이 있는 수열이다. 피보나치 수열은 다음과 같은 형태로 끝없이 이어진다.

수학자들은 점화식을 사용해 수열의 항이 이어지는 형태를 간결하게 표현한다. 
점화식이란 인접한 항들 사이의 관계식을 의미하는데, 예를 들어 수열 {an}이 있을 때 수열에서 각 항을 an 이라고 부른다고 가정하자.
우리는 점화식을 이용해 현재의 항을 이전의 항에 대한 식으로 표현할 수 있다. 예를 들어 피보나치 수열의 점화식은 다음과 같이 표현할 수 있다.

이러한 점화식은 인접 3항간 점화식이라고 부르는데 인접한 총 3개의 항에 대해서 식이 정의되기 때문이다. 
수학과 친하지 않은 독자를 위해 좀 더 기본 예시를 가져와 보았다.
1, 2, 3 ... 과 같이 이어지는 등차수열의 점화식은 다음과 같이 표현할 수 있다.

결과적으로 앞서 언급했더 피보나치 수열에서는 첫 번째 항과 두 번째 항의 값이 모두 1이기 때문에 최종적으로 피보나치 수열을 나타낼 때에는 다음과 같이 정의할 수 있다.

이를 해석하면 다음과 같다.

  • n번쨰 피보나치 수 = (n-1)번째 피보나치 수 + (n-2) 번째 피보나치 수
  • 단, 1번째 피보나치 수 = 1, 2번째 피보나치 수 = 1

 

프로그래밍에서는 이러한 수열을 배열이나 리스트로 표현할 수 있다. 
수열 자체가 여러개의 수가 규칙에 따라서 배열된 형태를 의미하는 것이기 때문이다.
파이썬에서는 리스트 자료형이 이를 처리하고, C/C++와 자바에서는 배열을 이용해 이를 처리한다.
리스트나 배열 모두 '연속된 많은 데이터'를 처리한다는 점은 동일하다.

그렇다면 이 점화식에 따라서 실제 피보나치 수를  구하는 과정을 어떻게 표현할 수 있을까? 
n번째 피보나치 수를 f(n)이라고 표현할 때 4번째 피보나치 수 f(4)를 구하려면 다음과 같이 함수 f를 반복해서 호출할 것이다.
그런데 f(2)와 f(1)은 항상 1이기 때문에 f(1)이나 f(2)를 만났을 때는 호출을 정지한다.

 

수학적 점화식을 프로그래밍으로 표현하려면 재귀 함수를 사용하면 간단하다.
예시를 소스코드로 바꾸면 다음과 같다.

 

8-1.py

# 피보나치 함수(Fibonacci Function)를 재귀 함수로 구현

def fibo(x):
    if x == 1 or x == 2:
        return 1
    return fibo(x - 1) + fibo(x - 2)

print(fibo(4))

그런데 피보나치 수열의 소스코드를 이렇게 작성하면 심각한 문제가 생길 수 있다. 
바로 f(n) 함수에서 n이 커지면 커질수록 수행 시간이 기하급수적으로 늘어나기 때문이다.
이 소스코드의 시간 복잡도는, 엄밀히 말하면 피보나치 수열의 정확한 시간 복잡도는 세타 표기법을 사용하여 θ(1.618...^n)으로 표현할 수 있다. 하지만 일반적으로는 빅오 표기법을 이용하여 O(2^N)의 지수시간이 소요된다고 표현한다.
예를 들어 N = 30이면, 약 10억 가량의 연산을 수행해야 한다.
f(6)일 때의 호출 과정을 그림으로 그려 확인해보자.

그림을 보면 동일한 함수가 반복적으로 호출되는 것을 알 수 있다. 이미 한 번 계산했지만, 계속 호출할 때마다 계산하는 것이다.
그림에서 f(3)이 몇번 호출되었는가? f(3)은 총 3번 호출되었다.
즉, f(n)에서 n이 커지면 커질수록 반복해서 호출하는 수가 많아진다. 예를 들어 f(100)을 계산하려면 얼마나 많은 연산을 해야 할까? 

2^10을 약 1,000이라고 했을 때, 연산 횟수는 약 1,000,000,000,000,000,000,000,000,000,000 번이다. 아마 현대의 2진수 처리 방식을 가진 컴퓨터 구조에 기반한 시스템에서 연산을 수행했을 때, 우리의 수명이 다할 때 까지 진행해도 답을 도출할 수 없을 것이다.

2^10은?

2^10은 1.024(약 1,000인데), 시간 복잡도가 O(2^N)인 상황에서 N이 100이라면 저 정도의 큰 수가 나온다.
일반적인 컴퓨터가 1초에 1억번 정도의 연산을 한다고 하면 이 수치만으로도 수백억년을 넘어간다.

 

이처럼 피보나치 수열의 점화식을 재귀 함수로 사용해 만들 수는 있지만, 단순히 매번 계산하도록 하면 문제를 효율적으로 해결할 수 없다.
이러한 문제는 다이나믹 프로그래밍을 사용하면 효율적으로 해결할 수 있다. 다만 항상 다이나믹 프로그래밍을 사용할 수는 없으며 
다음 조건을 만족할 때 사용할 수 있다.

  1. 큰 문제를 작은 문제로 나눌 수 있다.
  2. 작은 문제에서 구한 정답은 그것을 포함하는 큰 문제에서도 동일하다.

피보나치 수열은 이러한 조건을 만족하는 대표 문제이다. 이 문제를 메모이제이션(Memoization) 기법을 사용해서 해결해보자. 메모이제이션은 다이나믹 프로그래밍을 구현하는 방법 중 한 종류로, 한 번 구한 결과를 메모리 공간에 메모해두고 같은 식을 다시 호출하면 메모한 결과를 그대로 가져오는 기법을 의미한다. 메모이제이션은 값을 저장하는 방법이므로 캐싱(Caching)이라고도 한다.

8-2.py

# 한 번 계산된 결과를 메모이제이션(Memoization)하기 위한 리스트 초기화
d = [0] * 100

# 피보나치 함수(Fibonacci Function)를 재귀함수로 구현(탑다운 다이나믹 프로그램링)
def fibo(x):
    # 종료 조건(1 혹은 2 일때 1을 반환)
    if x == 1 or x == 2:
        return 1
    # 이미 계산한 적 있는 문제라면 그대로 반환
    if d[x] != 0:
        return d[x]
    # 아직 계산하지 않은 문제라면 점화식에 따라서 피보나치 결과 반환
    d[x] = fibo(x - 1) + fibo(x - 2)
    return d[x]

print(fibo(99))

파이썬 프로그램을 실행해보면 99번째 피보나치 수를 구하도록 했음에도 불구하고 금방 정답을 도출하는 것을 알 수 있다.

정리하자면 다이나믹 프로그래밍이란 큰 문제를 작게 나누고, 같은 문제라면 한 번씩만 풀어 문제를 효율적으로 해결하는 알고리즘 기법이다. 사실 큰 문제를 작게 나누는 방법은 퀵 정렬에서도 소개된 적이 있다. 퀵 정렬은, 정렬을 수행할 때 정렬할 리스트를 분할하며 전체적으로 정렬이 될 수 있도록 한다. 이는 분할 정복(Divide and conquer)알고리즘으로 분류된다. 다이나믹 프로그래밍과 분할 정복의 차이점은 다이나믹 프로그래밍은 문제들이 서로 영향을 미치고 있다는 점이다.

퀵 정렬을 예로 들면, 한 번 기준 원소(Pivot)가 자리를 변경해서 자리를 잡게 되면 그 기준 원소의 위치는 더이상 바뀌지 않고 그 피벗값을 다시 처리하는 부분 문제는 존재하지 않는다. 반면에 다이나믹 프로그래밍은 한 번 해결했던 문제를 다시금 해결한다는 점이 특징이다.
그렇기 때문에 이미 해결된 부분 문제에 대한 답을 저장해 놓고, 이 문제는 이미 해결됐던 것이니까 다시 해결할 필요가 없다고 반환하는 것이다. 
예를 들어 재귀 함수를 이용하는 방법(메모이제이션)에서는 한 번 푼 문제는 그 결과를 저장해 놓았다가 나중에 동일한 문제를 풀어야 할 때 이미 저장한 값을 반환한다.
f(6) 해법을 다시 메모이제이션 기법을 이용하여 그려보면 6번째 피보나치 수를 호출할 때는 다음 그림처럼 색칠된 노드만 방문하게 된다.

처음 방식으로 호출했던 부분은 실선으로 노드를 표현했는데 사실상 호출되지 않는다고 이해하자.
왜냐하면 호출하더라도 따로 계산하지 않고 리스트에서 값을 가져오거나 바로 1을 반환하기 때문이다.
물론 재귀함수를 사용하면 컴퓨터 시스템에서는 함수를 다시 호출했을 때 메모리 상에 적재되는일련의 과정을 따라야 하므로 오버헤드가 발생할 수 있다. 따라서 재귀 함수 대신에 반복문을 사용하여 오버헤드를 줄일 수 있다. 일반적으로 반복문을 이용한 다이나믹 프로그래밍이 더 성능이 좋기 때문이다.

그렇다면 다이나믹 프로그래밍을 적용했을 때의 피보나치 수열 알고리즘의 시간 복잡도는 어떻게 될까?
바로 O(N)이다. 왜냐하면 f(1)을 구한 다음 그 값이 f(2)를 푸는데 사용되고, f(2)의 값이 f(3)를 푸는데 사용되는 방식으로 이어지기 때문이다. 한번 구한 결과는 다시 구해지지 않는다.
따라서 실제로 호출되는 함수에 대해서만 확인해보면 다음과 같이 방문한다.

함수가 종료될 때 어떤 함수를 호출했는지, 현재의 피보나치 수를 출력하도록 코드를 만들면 실제로 그림처럼 호출된다는 것을 알 수 있다. 
이로써 시간 복잡도가 O(N)이라는 것을 쉽게 이해할 수 있다. 소스코드는 다음과 같다.

8-3.py

d = [0] * 100

def pibo(x):
    print('f(' + str(x) + ')', end=' ')
    if x == 1 or x == 2:
        return 1
    if d[x] != 0:
        return d[x]
    d[x] = pibo(x - 1) + pibo(x - 2)
    return d[x]

pibo(6)
f(6) f(5) f(4) f(3) f(2) f(1) f(2) f(3) f(4)

이처럼 재귀 함수를 이용하여 다이나믹 프로그래밍 소스코드를 작성하는 방법을,
큰 문제를 해결하기 위해 작은 문제를 호출한다고 하여 탑다운(Top-Down)방식 이라고 말한다.

반면에 단순히 반복문을 이용하여 소스코드를 작성하는 경우 작은 문제부터 차근차근 답을 도출한다고 하여 보텀업(Bottom-Up)방식이라고 말한다. 피보나치 수열 문제를 아래에서 위로 올라가는 보텀업 방식으로 풀면 다음과 같다.
동일한 원리를 적용하되 단순히 반복문을 이용하여 문제를 해결한 것으로 이해하면 된다.

8-4.py

# 앞서 계산된 결과를 저장하기 위한 DP 테이블 초기화
d = [0] * 100

# 첫 번째 피보나치 수와 두 번째 피보나치 수는 1
d[1] = 1
d[2] = 1
n = 99

# 피보나치 함수(Fibonacci Function) 반복문으로 구현(보텀업 다이나믹 프로그래밍)
for i in range(3, n + 1):
    d[i] = d[i - 1] + d[i - 2]

print(d[n])

탑다운(메모이제이션) 방식은 '하향식'이라고도 하며, 보텀업 방식은 '상향식' 이라고도 한다.
다이나믹 프로그래밍의 전형적인 형태는 보텀업 방식이다. 보텀업 방식에서 사용되는 결과 저장용 리스트는 'DP 테이블'이라고 부르며, 메모이제이션은 탑다운 방식에 국한되어 사용되는 표현이다.
다이나믹 프로그래밍과 메모이제이션의 개념을 혼용해서 사용하는 경우도 있는데, 엄밀히 말하면 메모이제이션은 이전에 계산된 결과를 일시적으로 기록해 놓는 넓은 개념을 의미하므로, 다이나믹 프로그래밍과는 별도의 개념이다.
한번 계산된 결과를 어딘가에 담아 놓기만 하고, 다이나믹 프로그래밍을 위해 활용하지 않을 수도 있다.

또한 앞서 수열은 배열이나 리스트로 표현할 수 있다고 했는데, 메모이제이션은 때에 따라서 다른 자료형, 예를 들어 사전(dict) 자료형을 이용할 수도 있다. 사전 자료형은 수열처럼 연속적이지 않은 경우에 유용한데, 예를 들어 an을 계산하고자 할 때 a0~an-1 모두가 아닌 일부의 작은 문제에 대한 해답이 필요한 경우가 존재할 수 있다. 이럴 때에는 사전 자료형을 사용하는 게 더 효과적이다.

다이나믹 프로그래밍을 이용하여 피보나치 수열 문제를 풀었던 방법을 잘 알아두면 다른 다이나믹 프로그래밍 문제에 접근하는 방법 또한 떠올릴 수 있을 것이다. 물론 3차원 리스트를 이용해야 하는 복잡한 난이도의 문제가 출제될 수도 있다.
이런 문제는 이어서 배울 9장 '최단 경루'의 '플로이드 워셜'알고리즘에서 다룬다.

하지만 코딩 테스트에서의 다이나믹 프로그래밍 문제는 대체로 간단한 형태로 출제되므로, 이 책에서 다루는 문제 정도만 바르게 습득해도 코딩 테스트에서 다이나믹 프로그래밍 문제를 풀기에는 큰 어려움이 없을 것이다.

문제를 푸는 첫 번째 단계는 (당연하게 들리겠지만) 주어진 문제가 다이나믹 프로그래밍 유형임을 파악하는 것이다.
특정한 문제를 완전 탐색 알고리즘으로 접근했을 때 시간이 매우 오래 걸리면 다이나믹 프로그래밍을 적용할 수 있는지 해결하고자 하는 부분 문제들의 중복 여부를 확인해보자.

일단 단순히 재귀 함수로 비효율적인 프로그래밍을 작성한 뒤에 (탑다운) 작은 문제에서 구한 답이 큰 문제에서 그대로 사용될 수 있으면, 즉 메모이제이션을 적용할 수 있으면 코드를 개선하는 방법도 좋은 아이디어다. 앞서 다루었던 피보나치 수열의 예제처럼 재귀 함수를 작성한 뒤에 나중에 메모이제이션 기법을 적용해 소스코드를 수정하는 것도 좋은 방법이다.

또한 가능하다면, 재귀 함수를 이용하는 탑다운 방식보다는 보텀업 방식으로 구현하는 것을 권장한다. 
시스템상 재귀 함수의 스택 크기가 한정되어 있을 수 있기 때문이다. 
실제로 앞에서 제시한 재귀적인 피보나치 수열의 소스코드에서 오천 번째 이상의 큰 피보나치 수를 구하도록 하면 'recursion depth 재귀 함수 깊이'와 관련된 오류가 발생할 수 있다. 이 경우 sys 라이브러리에 포함되어 있는 setrecursionlimit() 함수를 호출하여 재귀 제한을 완화할 수 있다는 점 정도만 기억하자.
지금까지 배운 내용을 토대로 실전 문제를 풀어보도록 하자.

반응형