[python] 데이터 필터링과 선택하기

Python은 데이터를 처리하고 조작하는 데 매우 유용한 언어입니다. 데이터 분석 및 조작을 위해 데이터를 필터링하고 선택하는 기술은 매우 중요합니다. 이 블로그 포스트에서는 Python을 사용하여 데이터를 필터링하고 선택하는 방법에 대해 알아보겠습니다.

Pandas 라이브러리를 사용한 데이터 필터링

Pandas는 Python에서 데이터 조작을 위한 강력한 도구입니다. 데이터프레임이나 시리즈에서 조건에 맞는 데이터를 선택하기 위해 lociloc 메서드를 사용할 수 있습니다.

import pandas as pd

# 데이터프레임 생성
data = {'이름': ['지수', '영희', '철수', '민지'],
        '나이': [25, 30, 22, 35],
        '성별': ['여', '여', '남', '여']}
df = pd.DataFrame(data)

# 나이가 25 이상인 행 선택
filtered_data = df.loc[df['나이'] >= 25]
print(filtered_data)

위의 코드에서 loc 메서드를 사용하여 나이가 25 이상인 행을 선택했습니다.

NumPy 배열을 사용한 데이터 필터링

NumPy는 다차원 배열을 처리하기 위한 파이썬 라이브러리로, 데이터를 필터링하는 데 효과적입니다. 조건에 따라 데이터를 선택하기 위해 불리언 인덱싱을 사용할 수 있습니다.

import numpy as np

# 1차원 배열 생성
arr = np.array([1, 2, 3, 4, 5])

# 배열에서 3보다 큰 요소 선택
filtered_arr = arr[arr > 3]
print(filtered_arr)

위의 코드에서 arr > 3을 사용하여 3보다 큰 요소를 선택했습니다.

데이터를 필터링하고 선택하는 방법은 데이터 분석 및 조작에서 매우 중요합니다. Python의 Pandas 및 NumPy 라이브러리를 사용하면 이러한 작업을 더욱 쉽게 수행할 수 있습니다.

이러한 기술을 응용하여 데이터 분석 및 시각화에 활용할 수 있으며, 데이터 기반 의사결정에 도움이 될 것입니다.

참고 자료