콘텐츠로 이동

산술, 기하, 조화 평균에 대해 알아보자

평균에도 여러 종류가 있다는 사실!!! 알고계셨나요?

산술과 기하 그리고 조화 평균에 대해 알아봅시다.

개요

평균이라는 개념에 대해 알아보도록 합시다. 평균에도 여러 종류가 있다는 사실 알고계셨나요...? 제가 학생일 때 교육과정에는 없어서 성인이 되고 나서야 종류가 나뉜다는 걸 알았습니다... (1)

본 글을 통해 평균의 종류에는 무엇이 있고, 어떠한 상황에서 사용하는 지 알아보는 시간을 갖도록 합시다.

  1. 실제 다녔던 학교가 실업계(특성화고)였는데, 인문계와 교육과정(교과과정) 기준이 달라 미적분, 벡터, 허수 등 이런 거 아예 몰랐습니다. (억울)

산술 평균

산술 평균Arithmetic Mean은 우리가 일상생활 속에서 흔히 사용하는 그 평균입니다. 예를 들어 평균 연령, 평균 신장, 평균 체중 등 이때 사용하는 평균이 바로 산술 평균입니다.

영어로는 Arithmetic이 수식되는데요, 보통 이를 생략하고 단순히 mean으로 작성해 표기하기도 합니다. 그래서 보통 mean이라고 하면 산술 평균으로 보시면 됩니다. 그냥 갑자기 떠오르는 그 드립

\[ \frac{x_1 + x_2 + x_3 + ... + x_n}{n} \]

산술 평균은 N개의 데이터가 있을 때 이를 모두 더한 후 N으로 나누어 구할 수 있습니다.

Example

중간고사에서 국어는 100점, 영어는 85점, 수학은 50점을 받았다고 가정해봅시다. 이 세 과목의 산술 평균을 구하면 얼마일까요?

산술 평균 공식에 의해 \((100 + 85 + 50) \div 3\) 식이 도출되고 결괏값으로 78.33이라는 평균 점수가 산출(1)됩니다. 이 평균 점수는 학생이 전체적으로 평균 78.33점을 얻었다는 것을 의미하고 이를 통해 학생의 전반적인 학업 성취도를 파악할 수 있습니다. 하지만, 각 과목의 가중치, 난이도 등을 반영하지 않았기 때문에 단순히 평균 점수만으로 해당 학생이 어느 과목에서 강하고 약한 지를 파악할 수 없습니다.

  1. 수치나 값을 계산해내는 것

산술 평균은 극단치에 약하다!

산술 평균은 극단치(1)에 약하다는 단점이 존재합니다.

예를 들어 1, 2, 3의 데이터가 있을 때 산술 평균을 구하면 \((1 + 2 + 3) \div 3\)의 식으로 2라는 값이 산출됩니다. 하지만 여기에 100이라는 극단적으로 큰 값이 포함되면 산술 평균이 26.5로 매우 크게 변동됩니다.

예시가 그다지 와닿지 않아서 그래서 어쩌라고?! 생각할 수 있습니다. 아래의 예시로 이해도를 높여봅시다.

당신은 중소기업 A 회사에 다니고 있고 직원의 수는 총 5명입니다. 어느 날 우연히 메일로 직원 연봉 테이블이 수신(2)되어버리는 대참사가 일어나 버렸고... 각 직원의 연봉은 아래와 같았습니다.

직원 연봉
A 30,000,000
B 35,000,000
C 40,000,000
D 45,000,000
E 150,000,000

회사 직원의 평균 연봉을 알고 싶어서 산술 평균 값을 구하게 되었고 60,000,000이라는 값이 산출되었습니다. 여기서... 여러분이 보기에는 어떠신가요? 이 값은 직원들의 연봉을 잘 나타낸다고 생각하시나요?

평균 연봉으로 60,000,000이 산출되었지만 대부분의 직원은 이보다 낮은 걸로 확인되고 단 한 명만 평균보다 높게 받고 있습니다. 이러한 정보는 왜곡된 정보를 전달할 가능성이 높습니다. 예를 들어 A 회사는 평균 연봉이 60,000,000이래! 대부분 저 정도 받나봐!! 라는 매우 억울한 정보가 돌게 됩니다. 대부분은 평균보다 못받는데 말이죠. 즉, 한 명의 높은 연봉(극단치)으로 인해 평균 값이 높아져 직원들의 일반적인 연봉을 잘 나타내지 못하는 경우가 있습니다. 이를 산술 평균의 함정이라 합니다.

산술 평균의 함정을 피하기 위해 보통 중앙값Median이라는 걸 같이 표기합니다. 중앙값은 데이터의 크기를 순서대로 나열했을 때 중앙에 위치하는 값을 말합니다. 즉, 중앙값은 극단치 등으로 인해 격차가 커져 평균이 의미가 없을 때 사용합니다.

위 연봉 테이블을 기준으로 중앙값은 40,000,000이 됩니다. 중앙값은 극단치의 영향을 받지 않기 때문에 직원들의 일반적인 연봉을 더 잘 나타낼 수 있습니다.

👋 중앙값은 어떻게 구하죠?

데이터의 수가 홀수일 때 중앙값은 \((n + 1) \div 2\)로 구할 수 있습니다. 즉, \((n + 1) \div 2\) 위치에 있는 값이 중앙값입니다. 짝수일 때 중앙값은 \(n \div 2\)번째 값과 \((n \div 2) + 1\)번째 값의 산술 평균을 중앙값으로 합니다.

  1. 단어 그대로 극단적으로 값이 작거나 큰 것을 말한다. 같은 말로 이상치가 있다.
  2. 정보를 받음

기하 평균

기하 평균Geometric Mean은 산술 평균과 성격이 다릅니다. 이 녀석은 변화율의 대한 평균값을 의미합니다.

산술 평균이 합의 평균이었다면, 기하 평균은 곱의 평균이라 할 수 있습니다. 왜 곱의 평균이라 하냐면... 산술 평균은 단순히 값을 더한 후 나누는데 이 방법은 비율과 같은 곱의 성질을 제대로 반영하지 못하기 때문입니다. 즉, 기하 평균이 곱의 성질을 더 잘 반영합니다.

\[ \sqrt[n]{x_1 \times x_2 \times ... \times x_n} \]

기하 평균은 데이터의 수가 N개 일 때 N개의 수치를 모두 곱한 후 N 제곱근을 구합니다.

MONG_MARIA
소리야...?

음... 왠지 모르게 그 인물이 떠오르는 기하 평균은 연평균 주식 수익률과 인구 성장률(1)이라는 두 가지의 예시로 설명해 드리겠습니다. 예시를 보시면 바로 이해가 되실 거예요.

  1. 전년대비 인구의 변화율을 말한다. 즉, 증가 또는 감소를 나타내는 지표이다.

연평균 주식 수익률

당신은 약 2년간 해외가 아닌 국내 주식(?)을 투자했습니다. 2022년에 10,000,000원의 시드 머니(1)로 시작해 한해동안 10%의 수익이 발생하여 2023년에는 11,000,000원이 되었습니다. 2023년도 마찬가지로 한해동안 수익이 무려 25% 발생해서 2024년에는 13,750,000원이 되었습니다.

  1. 종잣돈. 여유분의 돈을 의미한다.

자, 여기서 문제입니다. 당신의 연평균 수익률은 얼마일까요?

10%의 수익률과 25%의 수익률이 발생했으니 \((10 + 25) \div 2\)의 산출 값인 17.5%가 연평균 수익률일까요? 즉, 연간 평균적으로 17.5%를 벌었다는 의미가 된다는 건데 정확한 값인지 검증해봅시다.

2022년 한해 동안 10,000,000원으로 시작하여 연평균 17.5%를 벌었다면 11,750,000원이 됩니다. 그리고 2023년 한해 동안 연평균 17.5%를 벌었다면 2024년에는 최종적으로 13,806,250원이 됩니다.

음... 뭔가 이상하지 않나요? 여러분은 분명 2024년에 최종적으로 13,750,000원을 벌었는데 연평균 수익률로 계산하면 돈을 더 번 걸로 나옵니다. (조상님이 도와줬나?!)

사실 우리는 잘못된 계산 방법으로 접근했습니다. 산술 평균으로 산출한 연평균 수익률로는 2024년의 최종 자산 가치를 구할 수 없습니다.

연평균 수익률이라는 것은 매년 얼마만큼의 수익률을 발생시켜야 현재의 자산가치가 될 수 있는 지를 의미합니다. 2023년의 자산 가치는 2022년의 자산 가치에 수익률을 곱해서 구할 수 있고, 2024년의 자산 가치는 2023년의 자산 가치에 수익률을 곱해서 구할 수 있습니다. 즉, 2024년의 자산 가치는 2022년과 2023년 수익률의 곱인 것을 의미합니다. 우리는 합이 아닌 곱의 성질을 이용해야 하기 때문에 산술 평균이 아닌 기하 평균을 이용해야 합니다.


기하 평균을 이용하려면 우선 퍼센트 수익률을 비율로 변환해야 합니다. 10%와 25%를 비율로 변환하면 1.101.25입니다. 이를 기하 평균 공식에 그대로 대입하면 됩니다.

\[ \sqrt[2]{1.10 \times 1.25} = \sqrt[2]{1.375}\]

위 수식은 값을 2번 곱했을 때 1.375가 나와야하는 것을 의미합니다. 결과적으로 1.1726이라는 값이 산출됩니다. 이를 다시 백분율(퍼센트)로 표기하기 위해 1을 뺀 후 100을 곱해줍니다.

최종적으로 17.26%라는 값이 나왔습니다. 자, 이제 검증해봅시다.

2022년 한해 동안 10,000,000원으로 시작하여 연평균 17.26%를 벌었다면 11,726,000원이 됩니다. 그리고 2023년 한해 동안 연평균 17.26%를 벌었다면 2024년에는 최종적으로 13,749,907원이 됩니다.

HOGOGOK
으아닛?!

산술 평균으로 나타낸 연평균 수익률로 계산했을 때와 기하 평균으로 나타낸 연평균 수익률로 계산했을 때 최종 값의 차이가 어떠신가요?

산술 평균은 엄청난 차이를 보인 반면에 기하 평균은 2024년 실제 자산 가치에 매우 근접한 값(근사치)을 보이는 걸 확인할 수 있습니다.

2023년 자산은 좀 이상한데요?

실제 2023년의 자산은 11,000,000원인데, 기하 평균에 의하면 11,726,000원으로 나타나 있습니다. 확실히 이상해보이죠?

이는 연평균 수익률 계산 특성 때문입니다. 연평균 수익률 17.26%라는 건 2년 동안의 성과를 균등하게 나눈 것입니다. 첫 해에 10%, 그 다음 해에 25%의 수익률이 발생했지만... 어쨌든 평균을 구해 매년 동일한 비율(17.26%)로 가정해서 그렇습니다.

연평균 수익률 특성 상 장기적인 투자 성과와 관점을 분석하고 평가하는 데 사용하기 때문에 각 연도를 정확하게 반영하지는 않습니다. 이 점 염두(1)에 두어주세요.

  1. 마음 속에 깊이 새기다.

인구 성장률

인구 성장률은 전년대비 인구의 변화율을 말합니다. 즉, 인구의 증가 또는 감소 지표를 의미하죠.

연도 인구 성장률
2022 10%
2023 20%
2024 -15%

최근 3년 간 인구 성장률이 위 표와 같다고 가정해봅시다. 주식 수익률 예시처럼 산술 평균과 기하 평균의 값을 구한 후 검증해보겠습니다.

초기 인구 수는 100명이라 가정합니다.

산술 평균 사용 시

산술 평균 공식으로 계산하면 평균 연간 성장률은 \((10 + 20 + (-15)) \div 3\) 식에 의해 5%로 산출됩니다.

해마다 5%씩 증가한다고 하면 아래 표와 같습니다.

연도 인구수
2022 \(100 \times 1.05 = 105\)
2023 \(105 \times 1.05 = 110.25\)
2024 \(110.25 \times 1.05 = 115.76\)

5%를 비율로 나타내면 1.05입니다.

산술 평균에 따라 3년 후 인구는 약 115.76명으로 나타납니다.

기하 평균 사용 시

기하 평균에 의한 평균 연간 성장률을 구하려면 정확성을 위해 성장률을 비율로 변환해야 합니다.

퍼센트 성장률을 비율로 나타내면 1.10, 1.20, 0.85입니다.

기하 평균 공식을 따르면 \(\sqrt[3]{1.10 \times 1.20 \times 0.85}\)\(\sqrt[3]{1.122}\)로... 3번 곱해서 1.122가 나오는 수를 찾으면 됩니다. 즉, \(1.122^{(1/3)}\)으로 1.039가 산출됩니다.

이를 다시 퍼센트로 변환하면 \(1.039 - 1.0 = 0.039\)로, 백분율 표기를 위해 \(100\)을 곱하면 \(3.9\%\)가 최종적으로 산출됩니다. 즉, 기하 평균에 의하면 평균 연간 성장률은 3.9%입니다.

해마다 3.9%씩 증가한다고 하면 아래 표와 같습니다.

연도 인구수
2022 \(100 \times 1.039 = 103.9\)
2023 \(105 \times 1.039 = 108.95\)
2024 \(110.25 \times 1.039 = 113.20\)

기하 평균에 따라 3년 후 인구는 약 113.20명으로 나타납니다.

결론

연도 인구수
2022 \(100 \times 1.10 = 110\)
2023 \(110 \times 1.20 = 132\)
2024 \(132 \times 0.85 = 112.2\)

초기 인기 100명을 기준으로 실제 연도별 변화를 반영하면 위 표와 같습니다.

실제 3년 후 인구는 112.2명입니다.

산술 평균 5%를 사용한 결과는 115.76명이고 기하 평균 3.9%를 사용한 결과는 113.20명으로 나타났습니다. 차이가 꽤 크죠? 기하 평균 3.9%를 사용한 결과가 실제 결과에 매우 가깝습니다. (근사치)

이는 산술 평균보다 기하 평균이 곱셈과 같은 변동을 더 정확하게 반영하기 때문입니다. 그래서 성장률과 같이 곱셈적 특성을 가지는 데이터를 분석할 때는 기하 평균을 사용합니다.

조화 평균

조화 평균Harmonic MeanN개의 데이터가 있을 때, 각 데이터의 역수를 취해 산술 평균을 구한 후 다시 역수를 취하는 것을 말합니다.

\[\frac{n}{\frac{1}{x_1} + \frac{1}{x_2} + \frac{1}{x_3} + ... + \frac{1}{x_n}}\]

조화 평균을 계산하는 공식은 대략 위와 같습니다. 조화 평균은 데이터의 역수가 의미가 있을 때 사용합니다. 의미가 있다는 말이 참 아리송하죠?! 이번에도 예시를 통해 이해해 봅시다.

평균 속력

조화 평균은 보통 평균 속력을 구할 때 많이 사용합니다. 데이터의 역수가 의미가 있어야 한다고 했었죠?

예를 들어 어느 거리를 이동하는 데 시속 10km/h 일 때 그 역수는 \(\frac{1}{10}\) h/km입니다. 이 역수가 의미하는 바는 특정 거리(1km)를 이동하는 데 걸리는 시간을 의미합니다.

10km/h라는 속도는 1시간 동안 10km를 이동하는 속도입니다. 이를 역수로 변환하면 1km를 이동하는 데 걸리는 시간을 의미하게 되죠. 1km를 이동하는데 \(\frac{1}{10}\)시간... 즉 6분이 걸리네요.(1)

  1. 1시간은 60분이므로 \(\frac{1}{10}\)을 분 단위로 변환하면 \(\frac{1}{10} \times 60 = \frac{60}{10} = 6\)분으로 산출됩니다.

데이터의 역수가 의미있어야 한다는 것은 이것을 말합니다.


자, 이제 예시로 이해해 봅시다.

당신은 자전거를 타고 A, B, C 지점을 각각 시속 15km/h, 20km/h, 30km/h로 이동했습니다. 각 지점 사이의 거리는 50km로 동일합니다.

조금 더 쉽게 이해하기 위해 아래 표를 준비했습니다.

지점 시속 소요 시간
A 15km/h \(\frac{50}{15} = 3.33\)시간
B 20km/h \(\frac{50}{20} = 2.5\)시간
C 30km/h \(\frac{50}{30} = 1.66\)시간

전체 소요 시간은 7.49시간으로 나타납니다. 반올림하면 대략 7.5시간이지요. 자, 이때의 평균 속력을 구해봅시다.

혹시 산술 평균으로 계산하려 했나요? 그러면 안 됩니다.

\((15 + 20 + 30) \div 3 = 21.67\)

위 식과 같이 산술 평균으로 구하면 21.67km/h라는 값이 산출됩니다. 그렇다면 이 값을 이용하면 이동한 경과 시간이 그대로 산출될까요?

총 이동 거리는 150km이고 평균 속력은 21.67km이니 \(\frac{150}{21.67} = 6.9\) 시간으로 산출됩니다. 실제 소요 시간과 꽤 차이가 나버립니다. 즉, 산술 평균으로 구한 평균 속력은 틀렸음을 나타내고 있습니다. 그렇다면 조화 평균의 계산식을 이용해 구해봅시다.

\[\frac{3}{\frac{1}{15} + \frac{1}{20} + \frac{1}{30}} = \frac{3}{\frac{4}{60} + \frac{3}{60} + \frac{2}{60}} = \frac{3}{\frac{9}{60}} = \frac{3}{\frac{3}{20}} = \frac{3}{0.15}\]

시속의 역수를 구한 후 분수의 덧셈을 수행합니다. 분수를 더하거나 빼려면 분모가 같아야 합니다. 그래서 최소공배수를 찾아 공통된 분모를 갖게 합니다. 최종 결괏값으로 \(\frac{3}{0.15}\) 산출되었는데 분모에 소수가 있어 정확히 무슨 값인지 모를 수 있습니다. 분모와 분자에 100을 곱한 후 나눠봅시다.

\[\frac{3}{0.15} = \frac{300}{15} = 20\]

조화 평균으로 평균 속력을 구하니 20km/h로 나타났습니다. 그렇다면 검증에 들어가봅시다.

WTF
나니?!

총 이동 거리는 150km이고 평균 속력은 20km/h이니 \(\frac{150}{20} = 7.5\) 시간으로 산출됩니다. 어떠신가요? 실제 소요 시간과 같지 않나요?

각 구간별 데이터로 부터 전체의 평균을 구하려면 산술 평균이 아닌 조화 평균을 이용합니다. 평균 속력 말고도 평균 응답 시간, 인터넷 속도 등 생각보다 다양한 곳에서 사용되고 있습니다.