人工知能プログラミングやってくブログ

深層学習・機械学習・AIについて調べてやってみたことをまとめるブログです

KerasデータセットのIMDB映画レビューの元文章を表示する簡単サンプル

https://gyazo.com/61fb70ff3b27be861883dbc31fc9d71d

IMDBは触ったことがなかったんで、とりあえずデータセットの中身をみるところから始めてみました。

IMDB映画レビュー感情分類データセットとは

  • 感情 (肯定/否定) のラベル付けをされた,25,000のIMDB映画レビューのデータセット
  • レビューは前処理済みで,各レビューは単語のインデックス(整数)のシーケンスとなっている
  • 単語はデータセットにおいての出現頻度によってインデックスされている。そのため例えば,整数"3"はデータの中で3番目に頻度が多い単語である
  • ラベルが1ならば肯定的な意見。0ならば否定的な意見

さて、コードを書いて実際どのようなデータが入っているか見てみます。

IMDBの元文章を表示するソースコード

x_trainが文章を出現頻度を表す整数のインデックスに変換したもの。
y_trainが感情の肯定、否定ラベルであることがわかる。
x_test、y_testは学習結果のテスト用データだが、このテストデータも25000件用意されていることがわかる。

参考

stackoverflow.com

大筋ここにのってるコードをベースに、自分好みにすり合わせ。
ありがとう!

データセット - Keras Documentation