人工知能と競プロやってくブログ

深層学習・機械学習・AI・atcoder・競技プログラミングについて調べてやってみたことをまとめるブログです

Kerasデータセットのロイターニュースワイヤーの元文章を表示する簡単サンプル作ったが、トピックのラベルが謎

Keras 深層学習 Python Jupyter Notebook ロイターニュースワイヤー

ロイターのニュースのデータもKerasに入ってることに気がついたんで、元文章の表示プログラムを書いてみました。

ロイターのニュースワイヤートピックス分類データセットとは

46のトピックにラベル付けされた，11228個のロイターのニュースワイヤーのデータセット
IMDBデータセットと同様、ニュース文言は前処理済みで，各レビューは単語のインデックス（整数）のシーケンスとなっている
単語はデータセットにおいての出現頻度によってインデックスされている。そのため例えば，整数"3"はデータの中で3番目に頻度が多い単語である
トレーニングデータが8982個、テストデータが2246個

ロイターニュースの元文章を表示するソースコード

IMDBと一緒なんで表示自体は瞬間的にできたんですが、ハマったのがラベル。

ロイターデータセットのラベルの数字は何なの？

ラベルの数字(y_train、y_test)を、これが指すトピックの文言に変換して表示するようにしようと思ったんです。なんでネットをいろいろ検索してみたんですが、この数字が何に対応しているのかサッパリわからない。1時間くらい粘ってあきらめました。

stackoverflow.com stackoverflowの質問も、なぜかスルーされてる。

誰か知ってる人、教えてください〜。

参考

データセット - Keras Documentation

uchidama.hatenablog.com