[파이썬] 데이터 분석과 영화 분석

소개

데이터 분석은 현대 사회에서 점점 중요해지는 분야입니다. 데이터 분석을 통해 우리는 숨겨진 패턴과 통찰력을 발견하고, 이를 활용하여 비즈니스, 과학, 사회 등 다양한 분야에서 의사 결정을 내릴 수 있습니다. 이번 블로그 글에서는 데이터 분석을 통해 영화 분석을 해보고자 합니다.

데이터 수집

데이터 분석을 위해서는 먼저 필요한 데이터를 수집해야 합니다. 영화 분석을 하기 위해서는 영화에 대한 정보가 필요합니다. 이 데이터를 수집하기 위해 영화 데이터베이스 API를 활용할 수 있습니다.

import requests
import json

api_key = "YOUR_API_KEY"
url = f"https://api.themoviedb.org/3/movie/popular?api_key={api_key}"

response = requests.get(url)
data = json.loads(response.text)

movies = data["results"]

for movie in movies:
    title = movie["title"]
    release_date = movie["release_date"]
    print(f"Title: {title}, Release Date: {release_date}")

위 코드는 The Movie Database (TMDB) API를 사용하여 인기 영화 목록을 가져와 출력하는 예제입니다. 자세한 내용은 TMDB API 문서를 참조하시기 바랍니다.

데이터 분석

수집한 데이터를 바탕으로 영화에 대한 다양한 분석을 할 수 있습니다. 예를 들어, 영화의 장르 분포를 알아보기 위해 데이터를 카운팅할 수 있습니다.

genre_counts = {}

for movie in movies:
    genres = movie["genres"]
    for genre in genres:
        genre_name = genre["name"]
        genre_counts[genre_name] = genre_counts.get(genre_name, 0) + 1

for genre, count in genre_counts.items():
    print(f"Genre: {genre}, Count: {count}")

위 코드는 수집한 영화 데이터에서 장르를 추출하여 카운트하는 예제입니다. 장르별로 영화의 개수를 출력합니다.

시각화

데이터를 시각화하여 좀 더 직관적으로 분석 결과를 확인할 수 있습니다. 예를 들어, 영화의 평점 분포를 히스토그램으로 나타내는 코드는 다음과 같습니다.

import matplotlib.pyplot as plt

ratings = [movie["vote_average"] for movie in movies]

plt.hist(ratings, bins=10)
plt.xlabel("Rating")
plt.ylabel("Count")
plt.title("Movie Ratings Distribution")
plt.show()

위 코드는 수집한 영화 데이터에서 평점을 추출하여 히스토그램으로 나타내는 예제입니다. 평점의 분포를 시각화하여 영화의 평균 평점과 평점의 분포를 확인할 수 있습니다.

결론

이번 블로그 글에서는 데이터 분석을 통해 영화에 대한 분석을 수행하는 방법에 대해 알아보았습니다. 데이터 분석을 통해 영화의 장르 분포나 평점 분포 등을 확인할 수 있으며, 이를 통해 영화 산업에 대한 통찰력을 얻을 수 있습니다. 데이터 분석은 영화 분석뿐만 아니라 다양한 분야에서 활용될 수 있으며, 더 나은 의사 결정을 내릴 수 있는 도구로 활용할 수 있습니다.