コンテンツにスキップ

3.0 学習ガイドとタスクリスト:データ分析と可視化

データ分析学習ガイドの最小ループ

主な学習ルートは 第 3 章の入口 にまとめました。このページは、練習中に見る短いチェックリストとして使います。

読み込む確認する整える集計する可視化する説明する

グラフを一文で説明できないなら、データの質問に戻ります。

このページを終えたら、この evidence card を残します。

データソース
生レコードまたは使用した小規模データセット
処理ステップ
純 Python、NumPy、Pandas、可視化、または SQL の操作
出力
cleaned data、statistic、chart、query result、またはreport note
失敗確認
データ不足、形状不一致、誤った集計、または不明確な質問
期待される成果
信頼性を支える証拠があるデータアーティファクト
チェック証拠
行、列、型、欠損値を確認できるdf.info() と欠損メモ
重複、欠損、明らかな外れ値を処理できるクリーニングログ
groupby で質問に答えられる集計表
具体的な質問に合うグラフを選べる3 つのグラフファイル
結論と限界を書けるreport.md
再現可能なワークショップを完了できるch03_output/
確認の考え方と解説
  • このチェックリストは最終的な証拠監査として使います。各プロジェクトで、生ファイル、クリーン済みファイルまたはクリーニングスクリプト、要約表、グラフ、短い結論を指し示せる状態にします。
  • 各結論には、支える証拠を 1 文、限界を 1 文で書きます。この習慣により、小さく汚いデータから言いすぎることを防げます。
  • 別の学習者が新しいフォルダから notebook や script を再実行できないなら、次章へ進む前にパス、依存関係、README 手順を直します。
成果物答えるべきこと
データ辞書各列は何を意味し、単位は何で、どこから来たか。
クリーニングログどの行や値を変え、その規則がなぜ受け入れられるか。
集計表どの数値パターンが答えを支えているか。
グラフこの可視化は 1 つのどの問いに答えるか。
限界メモ欠損データ、サンプリング、時間、リークにより、まだ何が間違いうるか。

1 つの CSV を、元データからクリーニング済みデータ、集計表、グラフ、短い結論まで進められたら、第 4 章へ進めます。