おはこんばんにちは! ブロガー兼プログラマーの自由人 中丸 ゆう(@pepenoheya_blog)です。
今回から、Pandas入門講座を行っていきます。
1回目の講座では「Pandasとはなにか。」という部分からPandasで扱うデータ型、用語の解説を行っていきます。
Pandas(パンダス)とは、Pythonライブラリの1つで、データ操作や、データ分析をする時や、表計算ソフトを使わずに表にまとめたいときなどに用いるライブラリです。
Pandasは中でNumPyも使っているので、NumPyについても学習しておきましょう。
Pandasはデータ操作、解析の中でも、表形式にデータをまとめたり、データを視覚化するときに重宝されるライブラリです。
Pythonでデータ分析を行ってみたい方やAIについて詳しくなりたい方には習得必須のライブラリなので、この講座をしっかりと学んでいきましょう。
- データ分析を勉強したい
- Pythonでスクレイピングしたデータを有効活用したい
- データサイエンティストとして働きたい
- Excelなどを使わずにデータを操作したい
Pandas(パンダス)とは?
pandasはデータ操作やデータ分析を行うことを目的として作られたライブラリで、NumPyを中で使っています。データを見える化したり、表形式の処理が得意なライブラリです。
Pandasの発音はパンダスと読まれることが日本ではメジャーです。英語ではパンダズと濁るみたいですが、僕はパンダスと呼んでいます。
表形式のデータとは、Excelやスプレッドシートのように行にそれぞれのデータ、列には各項目を入れたりするデータの処理形式のことで、Pandasを使うことで、Excelやスプレッドシートを使わずして、Excelでやりたいことができるようになります。
まずは、Pandasを実際に使ってみて、イメージをしていきましょう!
Pandas以外にデータ分析で使えるライブラリは?
Pandas以外にもデータ分析を行う上で重要なPythonライブラリにMatplotlibやNumPy、Scikit-learnがあります。
Matplotlib(マットプロットリブ)は、グラフを描画するためのPythonライブラリで、NumPy(ナムパイ)は数値計算や、行列演算をするのに長けたPythonライブラリです。
Scikit-learn(サイキットラーン)は機械学習を扱うのに便利なPythonライブラリです。
それぞれ、Pandasと組み合わせて利用することでデータ分析に役立つライブラリなので、いずれはすべて習得しておくと良いでしょう。
Pandasで扱うデータ形式
Pandasを使う上でまず押さえたいのが、扱うデータ形式の種類です。
Pandasで使うデータ形式はSeries(シリーズ)とDataFrame(データフレーム)の2種類あります。
SeriesはDataFrameから1列、1行だけを取り出したみたいに、Pythonでいうリストに似た形をしているデータ形式です。
DataFrameはExcelやスプレッドシートのように列と行のある表形式で表されるデータ形式で、一番使われる形です。
DataFrameは、Seriesが集まって成り立っているイメージを持っておくことで、DataFrameの操作にも役立つので覚えておきましょう。
百聞は一見にしかず。しっかり表示してみた結果を見てみましょう。
Pandasのデータ形式①:Series(シリーズ)型
#Seriesの作成
s = pd.Series([0,10,20,30])
print(s)
#出力結果↓↓
0 0
1 10
2 20
3 30
Pandasのデータ形式の一つはSeries(シリーズ)型。
1列のみもしくは1行のみで形成される一次元のデータ構造のことで、リスト型に似ているのが特徴です。
横の[0,1,2,3]をインデックスと呼びます。
Pandasのデータ形式②:DataFrame(データフレーム)型
df = pd.DataFrame([[1, 10], [2, 20], [3, 30]])
print(df)
#出力結果↓↓
0 1
0 1 10
1 2 20
2 3 30
Pandasのデータ形式2つ目はDataFrame(データフレーム)型。
列と行の表形式タイプのデータ構造です。
列名をカラム名、行名をインデックス名と呼びます。
Pandasをインストールからインポートまで!
実際にPandasをお使いのPython実行環境で使えるようにしましょう!
Pythonの実行環境がまだ整っていない方はこちらの記事を参考に環境を整えてください。
僕はMac OSを使っていて、実行環境はJupyter lab単体で使っています。
Anacondaなどのパッケージ化された実行環境をインストール済みの人は、すでにPandasなどの重要ライブラリはインストールされた状態になっているのでここは読み進めて大丈夫です。
それ以外で使っている方は、pipを使ってインストールしていきましょう!
pip install pandas
でインストールできます。
インストールが完了したら、まずはインポートしてPandasを使うことを宣言をしていきましょう!
import Pandas as pd
Pandasをインポートするときは、as pd をつけることで、pd.関数名と簡略した形でPandasの機能を使えるので、as pd をつけるのが慣習とされています。
これでPandasを使う準備が完了しました。
まとめ
今回は、Pandasの基本用語や、データ構造についてまとめておきました。
次回からPandas基本操作に入っていきます。
その第一歩として2回目の講座ではSeriesの作成方法を覚えていったり、インデックス名を変更してみたりしていきますので次回もどうぞよろしくおねがいします!
- Pandas(パンダス)はデータ分析や分析するデータの操作をするのに便利なPythonライブラリです
- PandasにはSeriesとDataFrame2つのデータ形式が存在する
- Series 👉 一次元のデータ構造
- DataFrame 👉 列と行で成り立つ表形式のデータ構造
- Pandas入門講座ではPythonでデータ分析や機械学習を学びたい人の初歩的な学習として役立つ知識を身に着けていきます。