Pythonで簡単にできるデータ分析!PandasとMatplotlibを使った実践的な方法

データ分析

Pythonを使ったデータ分析は、初心者でも簡単に始められる非常に強力な方法です。この記事では、PandasMatplotlibを使って、データの取得から可視化までをステップバイステップで解説します。具体的なサンプルコードを交えながら、実際にどのようにデータを扱うのかを学んでいきましょう。


1. Python環境の準備

Pythonでデータ分析を始めるために、まずは必要なライブラリをインストールしましょう。主に使用するのはPandasMatplotlibです。

以下のコマンドでインストールできます。

pip install pandas matplotlib

インストールが完了したら、実際にデータを扱う準備が整いました。


2. Pandasによるデータの操作

Pandasは、データ分析に非常に便利なライブラリです。データフレーム(DataFrame)という形式で、複雑なデータを簡単に操作できます。

2.1 データの読み込み

まず、CSVファイルを読み込んでデータを確認してみましょう。以下のサンプルでは、data.csvというファイルを読み込みます。

import pandas as pd

# CSVファイルの読み込み
df = pd.read_csv('data.csv')

# データの最初の5行を表示
print(df.head())

2.2 データの基本操作

Pandasでは、データの選択やフィルタリング、集計などが非常に簡単です。例えば、ageというカラムに基づいて、年齢が30歳以上の行を抽出する場合は次のようにします。

# 年齢が30歳以上の行を抽出
df_filtered = df[df['age'] >= 30]
print(df_filtered)

また、列の集計を行う場合、例えば年齢の平均を計算するには次のように書きます。

# 年齢の平均を計算
average_age = df['age'].mean()
print(f"平均年齢: {average_age}")

3. Matplotlibでデータの可視化

次に、Matplotlibを使ってデータを可視化してみましょう。Matplotlibは、グラフを作成するための強力なツールです。

3.1 データの棒グラフを作成

Pandasで集計したデータをMatplotlibを使って棒グラフにする方法を見ていきましょう。以下は、年齢分布を可視化するためのコードです。

import matplotlib.pyplot as plt

# 年齢の分布を棒グラフに
df['age'].value_counts().plot(kind='bar')

# グラフのタイトルとラベルを設定
plt.title('年齢の分布')
plt.xlabel('年齢')
plt.ylabel('人数')

# グラフを表示
plt.show()

このコードは、ageカラムの各年齢の出現回数を棒グラフとして表示します。

3.2 散布図による関係性の可視化

次に、散布図を使って2つの変数間の関係を可視化してみましょう。例えば、agesalaryの関係を表示します。

# 年齢と給与の散布図
plt.scatter(df['age'], df['salary'])

# グラフのタイトルとラベルを設定
plt.title('年齢と給与の関係')
plt.xlabel('年齢')
plt.ylabel('給与')

# グラフを表示
plt.show()

この散布図により、年齢と給与の関係が視覚的に確認できます。


4. データのクリーニングと前処理

データ分析を行う際には、データのクリーニングも重要なステップです。Pandasを使えば、欠損値の処理や重複データの削除が簡単にできます。

4.1 欠損値の処理

データに欠損値がある場合、fillna()を使って欠損値を埋めることができます。

# 欠損値を0で埋める
df_filled = df.fillna(0)

また、欠損値を含む行を削除するには、dropna()を使います。

# 欠損値を含む行を削除
df_cleaned = df.dropna()

4.2 重複データの削除

データに重複がある場合、drop_duplicates()を使って重複行を削除できます。

# 重複した行を削除
df_unique = df.drop_duplicates()

5. まとめ

Pythonを使ったデータ分析の基本を学びました。Pandasでデータを操作し、Matplotlibで可視化することで、データから有益な情報を引き出すことができます。今回紹介したコードを元に、自分でデータを操作し、様々なデータ分析を試してみてください。

さらに高度な分析や可視化を行うためには、追加のライブラリや手法を学ぶことも大切です。これからもPythonでのデータ分析を楽しんでください!

このサイトを稼働しているVPSはこちら

コメント

タイトルとURLをコピーしました