[파이썬] 데이터 시각화의 종류와 유형

데이터 시각화는 데이터를 그래프, 차트, 플롯 등의 시각적인 형태로 표현하는 과정을 말합니다. 데이터 시각화는 데이터를 이해하고 분석하는 데 도움이 되며, 중요한 인사이트를 발견할 수 있는 강력한 도구입니다. 이번 글에서는 파이썬을 사용하여 다양한 유형의 데이터 시각화를 살펴보겠습니다.

1. 선 그래프 (Line Plot)

선 그래프는 시간, 순서 등과 같은 연속적인 데이터를 시각화하는 데 자주 사용됩니다. 주로 변화나 추세를 보여주기 위해 사용되며, x축은 시간 또는 순서를 나타내고 y축은 변수의 값입니다. 예를 들어 주식 가격의 변동 추이를 선 그래프로 표현할 수 있습니다.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [10, 15, 7, 12, 9]

plt.plot(x, y)
plt.xlabel('Time')
plt.ylabel('Value')
plt.title('Line Plot')
plt.show()

2. 막대 그래프 (Bar Chart)

막대 그래프는 범주형 데이터를 시각화하는 데 주로 사용됩니다. 각 범주에 따른 값을 비교하기 쉽고, 데이터의 분포를 파악할 수 있습니다. 예를 들어 각 도시의 인구를 막대 그래프로 표현할 수 있습니다.

import matplotlib.pyplot as plt

cities = ['Seoul', 'Tokyo', 'New York', 'Paris']
population = [9765000, 13929286, 8398748, 2140526]

plt.bar(cities, population)
plt.xlabel('City')
plt.ylabel('Population')
plt.title('Bar Chart')
plt.show()

3. 산점도 (Scatter Plot)

산점도는 두 변수 간의 관계를 표현하는 데 사용되며, 각 변수의 값에 따라 점을 찍어 표현합니다. 이를 통해 변수 간의 상관관계나 패턴을 파악할 수 있습니다. 예를 들어 나이와 소득 수준 간의 관계를 산점도로 표현할 수 있습니다.

import matplotlib.pyplot as plt

age = [25, 30, 35, 40, 45, 50, 55]
income = [3000, 4000, 5000, 6000, 7000, 8000, 9000]

plt.scatter(age, income)
plt.xlabel('Age')
plt.ylabel('Income')
plt.title('Scatter Plot')
plt.show()

4. 히스토그램 (Histogram)

히스토그램은 연속적인 데이터를 구간으로 나누고 각 구간에 속하는 데이터의 수를 표현하는 데 사용됩니다. 주로 데이터의 분포를 확인하고 데이터의 빈도를 분석하는 데 사용됩니다. 예를 들어 성적 분포를 히스토그램으로 표현할 수 있습니다.

import matplotlib.pyplot as plt

grades = [70, 80, 85, 90, 95, 100, 85, 90, 95, 80, 75, 85, 80]

plt.hist(grades, bins=5)
plt.xlabel('Grade')
plt.ylabel('Frequency')
plt.title('Histogram')
plt.show()

결론

이상으로 파이썬에서 다양한 종류의 데이터 시각화를 소개했습니다. 데이터 시각화를 통해 데이터를 쉽게 이해하고 분석할 수 있으며, 중요한 인사이트를 발견하는 데 도움이 됩니다. 데이터 시각화는 데이터 과학, 머신 러닝, 인공지능 등 다양한 분야에서 필수적인 기술이므로, 데이터 시각화 기술을 습득하는 것은 매우 중요합니다.