데이터 분석 작업에서 가장 중요한 단계 중 하나는 데이터를 합치고 연결하는 것입니다. 이를 통해 여러 개의 데이터셋을 하나로 통합하고, 다양한 변수들을 조합하여 더 유용한 정보를 추출할 수 있습니다. 이번 포스트에서는 Python을 사용하여 데이터를 합치고 연결하는 방법을 알아보겠습니다.
데이터 프레임 합치기
가장 간단한 방법은 두 개의 데이터 프레임을 합치는 것입니다. pandas
라이브러리는 데이터 프레임을 조작하는 데 가장 널리 사용되는 도구입니다. 아래는 예시 데이터 프레임을 생성하는 코드입니다.
import pandas as pd
df1 = pd.DataFrame({'이름': ['John', 'Mike', 'Sarah'],
'나이': [25, 30, 35]})
df2 = pd.DataFrame({'이름': ['Tom', 'Sarah', 'Jessica'],
'성별': ['남', '여', '여']})
두 개의 데이터 프레임 df1
과 df2
가 생성되었습니다. 이제 이 두 데이터 프레임을 합쳐보겠습니다.
두 데이터 프레임을 행 단위로 합치기
df_combined = pd.concat([df1, df2])
위 코드는 concat()
함수를 사용하여 두 개의 데이터 프레임을 행 단위로 합칩니다. 결과적으로 df_combined
라는 새로운 데이터 프레임이 생성됩니다.
두 데이터 프레임을 열 단위로 합치기
df_combined = pd.concat([df1, df2], axis=1)
위 코드는 axis=1
인자를 추가하여 두 데이터 프레임을 열 단위로 합칩니다. 결과적으로 df_combined
라는 새로운 데이터 프레임이 생성됩니다.
데이터 프레임 연결하기
때로는 두 개 이상의 데이터 프레임을 특정 기준에 따라 연결해야 할 때가 있습니다. 예를 들어, 두 데이터셋이 동일한 식별자 열을 가지고 있어 이를 기준으로 데이터를 연결하려고 할 때입니다.
merged_df = pd.merge(df1, df2, on='이름')
위 코드는 merge()
함수를 사용하여 이름
열을 기준으로 두 데이터 프레임을 연결합니다. 결과적으로 merged_df
라는 새로운 데이터 프레임이 생성됩니다.
결론
데이터 합치기와 연결은 데이터 분석 작업에서 필수적인 과정입니다. Python의 pandas
라이브러리를 사용하여 데이터 프레임을 합치고 연결하는 방법을 알아보았습니다. 이러한 작업을 통해 더 풍부한 정보를 추출하고, 보다 신뢰할 수 있는 분석 결과를 얻을 수 있습니다.