[파이썬] ggplot `geom` 레이어 사용법

ggplot은 R 및 Python에서 사용할 수 있는 데이터 시각화 패키지입니다. geom은 ggplot 패키지에서 사용되는 그래프 요소를 나타내는 레이어입니다. 이 블로그 포스트에서는 ggplot의 geom 레이어의 사용법을 설명합니다.

1. Scatter plot

Scatter plot은 두 변수 간의 상관 관계를 시각화하는 데 사용됩니다. 아래는 ggplot에서 scatter plot을 생성하는 방법을 보여주는 예제 코드입니다.

# 필요한 라이브러리 가져오기
from plotnine import *
from plotnine.data import mpg

# 데이터프레임 설정하기
df = mpg

# scatter plot 그리기
(
    ggplot(df)  # 데이터프레임 설정
    + geom_point(aes(x="displ", y="hwy"))  # scatter plot 생성
    + labs(title="Scatter plot example", x="Displacement", y="Highway MPG")  # 그래프 제목 및 축 레이블 설정
)

2. Line plot

Line plot은 시간에 따른 변화나 추세를 시각화하는 데 사용됩니다. 아래는 ggplot에서 line plot을 생성하는 방법을 보여주는 예제 코드입니다.

# 필요한 라이브러리 가져오기
from plotnine import *
from plotnine.data import economics_long

# 데이터프레임 설정하기
df = economics_long

# line plot 그리기
(
    ggplot(df)  # 데이터프레임 설정
    + geom_line(aes(x="date", y="value", color="variable"))  # line plot 생성
    + labs(title="Line plot example", x="Date", y="Value")  # 그래프 제목 및 축 레이블 설정
)

3. Bar plot

Bar plot은 범주형 데이터의 빈도수 또는 합계를 시각화하는 데 사용됩니다. 아래는 ggplot에서 bar plot을 생성하는 방법을 보여주는 예제 코드입니다.

# 필요한 라이브러리 가져오기
from plotnine import *
from plotnine.data import diamonds

# 데이터프레임 설정하기
df = diamonds

# bar plot 그리기
(
    ggplot(df)  # 데이터프레임 설정
    + geom_bar(aes(x="cut", fill="clarity"), stat="count")  # bar plot 생성
    + labs(title="Bar plot example", x="Cut", y="Count")  # 그래프 제목 및 축 레이블 설정
)

위의 예제 코드에서는 scatter plot, line plot, bar plot을 생성하는 방법을 보여주었습니다. geom_point, geom_line, geom_bar는 ggplot의 geom 레이어 중 일부이며, 다양한 그래프 유형을 생성할 수 있습니다. 각각의 geom 함수에는 데이터프레임 및 해당 유형의 그래프를 생성하기 위한 필수 인자들이 있으므로, 해당 인자들을 올바르게 설정하는 것이 중요합니다.

ggplot의 geom 레이어를 활용하여 데이터 시각화를 하는 것은 그래프의 이해도를 높이고, 데이터 패턴을 파악하는 데 도움이 됩니다. 위의 예제 코드를 참고하여 자신만의 그래프를 만들어보세요!