読者です 読者をやめる 読者になる 読者になる

初老のボケ防止日記

おっさんのひとりごとだから気にしないようにな。

スポンサーリンク

Python Pandasをさわってみる(3)

Python Pandas


前回でPandasで扱うデータが出来上がったので、それを使って色々と試してみる。

前回の記事で、公開されている統計データのEXCELをCSVに変換したので、今回はそれをPandasから使ってみるのだ。

osa030.hatenablog.com

動作環境

環境

OS Windows 8.1(64bit)
Python 2.7.9(32bit)
Pandas 0.16.2

対象データ

政府が公開している統計データEXCELファイルを変換したCSVファイル。フォーマットは以下。

year 西暦
prefecture 都道府県名
young 0-14歳の人口
adult 15-64歳の人口
elder 65歳以上の人口

日本語の文字コードはUTF-8 となっており、ヘッダ行の後に以下件数格納されている。

都道府県 47
期間 45(1970-2014)
合計 2,115

以下は全部「ipython」での実行。Pandasの詳細は以下を参考にした。

pandas: powerful Python data analysis toolkit — pandas 0.16.2 documentation

試してみる

「CSVから読込」

In [1]: import pandas as pd
In [2]: df = pd.read_csv("./1970-2014.csv")

読み込んだCSVデータはDataFrameというオブジェクトに変換される。Pandasでは基本はこのDataFrameを操作する。

pandas.DataFrame — pandas 0.16.2 documentation

「件数を調べる」

  • 「全データ件数」
In [3]: len(df)
Out[3]: 2115
  • 「1970年のデータ件数」
In [4]: len(df[ df.year == 1970])
Out[4]: 47
  • 「埼玉県のデータ件数」
In [5]: len(df[ df.prefecture == '埼玉県'])
Out[5]: 45

「中身を見る」

  • 「全データの先頭5件」
In [6]: df.head(5)
Out[6]:
   year prefecture young adult elder
0  1970        北海道  1309  3576   299
1  1971        北海道  1302  3577   309
2  1972        北海道  1302  3580   323
3  1973        北海道  1308  3588   336
4  1974        北海道  1316  3611   352
  • 「全データの末尾5件」
In [7]: df.tail(5)
Out[7]:
      year   prefecture young adult elder
2110  2014        熊本県     244  1046   504
2111  2014        大分県     150   674   347
2112  2014        宮崎県     153   642   319
2113  2014       鹿児島県     227   963   478
2114  2014        沖縄県     249   903   270
  • 「2014年の先頭5件」
In [8]: df[ df.year == 2014].head(5)
Out[8]:
      year   prefecture young adult elder
2068  2014        北海道     621  3261  1519
2069  2014        青森県     155   784   383
2070  2014        岩手県     156   749   380
2071  2014        宮城県     297  1458   573
2072  2014        秋田県     112   587   339
  • 「2014年の末尾5件」
In [9]: df[df.year == 2014].tail(5)
Out[9]:
      year   prefecture young adult elder
2110  2014        熊本県     244  1046   504
2111  2014        大分県     150   674   347
2112  2014        宮崎県     153   642   319
2113  2014       鹿児島県     227   963   478
2114  2014        沖縄県     249   903   270
  • 「沖縄県の先頭5件」
In [11]: df[df.prefecture == '沖縄県'].head(5)
Out[11]:
      year prefecture young adult elder
1380  1970        沖縄県     -     -     -
1381  1971        沖縄県     -     -     -
1382  1972        沖縄県   324   578    68
1383  1973        沖縄県   323   600    70
1384  1974        沖縄県   323   623    73

変換前のEXCELファイルに以下の記載があるので該当データは「-」となっている。

昭和45年,46年は沖縄県を含まない。

沖縄県が返還されたのは1972年ですから。

それまではアメリカ統治下なので、日本に来るにはパスポートが必要だったり、クルマが右側通行だったり標識がマイルだったそうな。オッサンも生まれる前の出来事だからよくわからない。

  • 「沖縄県の末尾5件」
In [12]: df[ df.prefecture == '沖縄県'].tail(5)
Out[12]:
      year prefecture young adult elder
1926  2010        沖縄県   247   904   243
1973  2011        沖縄県   247   912   242
2020  2012        沖縄県   248   911   250
2067  2013        沖縄県   249   906   260
2114  2014        沖縄県   249   903   270

とりあえずはデータは上手く読み込めた模様。次回は読み込んだデータをもう少し加工してみる。


高度成長と沖縄返還―1960‐1972 (現代日本政治史)

高度成長と沖縄返還―1960‐1972 (現代日本政治史)

スポンサーリンク