コンテンツにスキップ

11.3.1 テキスト分類ロードマップ:テキスト入力、ラベル出力

テキスト分類は、文章を 1 つ受け取り、カテゴリを 1 つ返すタスクです。感情分析、スパム判定、問い合わせ分類、レビュー判定はすべてこの形です。

テキスト分類章の進め方

順番方法使いどころ
1ルール baselineまずタスクの形を確認する
2TF-IDF + 分類器小さなデータで強い基準線を作る
3embedding + neural model意味情報を使って改善する

従来分類 baseline の流れ

baseline は、後で比べるための最初の基準です。最初から複雑なモデルに進むより、簡単なルールで入力と出力を確認すると失敗に気づきやすくなります。

texts = ["great course and clear examples", "confusing setup error"]
positive_words = {"great", "clear", "good", "useful"}
for text in texts:
score = sum(word in positive_words for word in text.split())
label = "positive" if score > 0 else "needs_review"
print(label, "-", text)

期待される出力:

Terminal window
positive - great course and clear examples
needs_review - confusing setup error

操作のコツ:この baseline は賢くありません。目的は「分類タスクの入出力を固定すること」です。ここでラベル定義が曖昧なら、強いモデルでも安定しません。

embedding と pooling を使う分類の流れ

深層学習版では、token を embedding に変え、文全体の表現を作り、最後にラベルを予測します。pooling は複数 token の情報を 1 つの文ベクトルにまとめる操作です。

チェック合格ライン
分類タスク入力が文章、出力がラベルだと説明できる
baseline比較用の最小基準だと説明できる
TF-IDF単語の出現と重要度から特徴量を作る考え方を言える
neural 分類embedding、pooling、分類ヘッドの流れを説明できる

このページを終えたら、この evidence card を残します。

ラベルスキーマ
ラベル定義と境界例
データセット分割
固定の train/test 例または評価セット
予測
予測ラベル、期待ラベル、そして信頼度またはスコア
失敗確認
クラス不均衡、ラベル重複、リーク、または紛らわしい表現
期待される成果
失敗理由ごとにまとめた指標とエラーサンプル