[파이썬] ggplot 사용자 정의 스케일 만들기

06 Sep 2023

ggplot

ggplot은 데이터 시각화를 위한 강력한 도구입니다. 그러나 때로는 기본 제공 스케일만으로는 원하는 시각화 효과를 얻기 어려울 수 있습니다. 이러한 경우에는 ggplot의 사용자 정의 스케일 기능을 활용할 수 있습니다.

사용자 정의 스케일은 ggplot에서 데이터를 변환하거나 조작하여 시각화에 더 나은 제어력을 제공합니다. 이를 통해 데이터의 특성을 더 잘 나타낼 수 있고, 특정한 시각화 효과를 구현할 수 있습니다.

아래는 ggplot에서 사용자 정의 스케일을 만드는 간단한 예시입니다.

예시: 로그 스케일링

로그 스케일링은 데이터의 크기가 큰 경우에 유용한 방법입니다. 예를 들어, 양의 값의 범위가 1부터 100000까지인 경우, 선형 스케일링을 사용하면 값의 차이가 미미하게 나타나게 됩니다. 반면에 로그 스케일링을 사용하면 값의 차이를 뚜렷하게 보여줄 수 있습니다.

import numpy as np
import pandas as pd
from ggplot import *

# 데이터 생성
np.random.seed(0)
x = np.random.rand(100) * 100000
y = np.random.rand(100) * 100000
df = pd.DataFrame({'x': x, 'y': y})

# 로그 스케일링 스케일 생성
class Log10Scale(Scale):
    def __init__(self, *args, **kwargs):
        super(Log10Scale, self).__init__(*args, **kwargs)
        
    def transform(self, limits):
        transformed_limits = np.log10(limits)
        return transformed_limits
        
    def inverse_transform(self, limits):
        inverse_transformed_limits = 10 ** limits
        return inverse_transformed_limits

# ggplot으로 시각화
p = ggplot(df, aes(x='x', y='y')) + \
    geom_point() + \
    scale_x_continuous(scale=Log10Scale()) + \
    scale_y_continuous(scale=Log10Scale())
    
print(p)

위의 코드에서 Log10Scale이라는 사용자 정의 스케일 클래스를 만들어 로그 스케일링을 정의하였습니다. 해당 스케일 클래스는 transform 메소드와 inverse_transform 메소드를 구현하여 원하는 데이터 변환을 수행합니다.

ggplot 패키지의 scale_x_continuous와 scale_y_continuous 함수를 이용하여 생성한 객체에 scale 파라미터에 Log10Scale 스케일을 전달하여 로그 스케일링을 적용하였습니다.

결과적으로, x와 y 축에 로그 스케일로 변환된 값을 사용하여 데이터를 시각화하게 됩니다.

이와 같이, 사용자 정의 스케일을 만들어 원하는 데이터 변환을 적용할 수 있는 ggplot의 기능을 통해 데이터 시각화의 다양한 효과를 구현할 수 있습니다.