人工知能と競プロやってくブログ

深層学習・機械学習・AI・atcoder・競技プログラミングについて調べてやってみたことをまとめるブログです

KerasデータセットのIMDB映画レビューの元文章を表示する簡単サンプル

https://gyazo.com/61fb70ff3b27be861883dbc31fc9d71d

IMDBは触ったことがなかったんで、とりあえずデータセットの中身をみるところから始めてみました。

IMDB映画レビュー感情分類データセットとは

  • 感情 (肯定/否定) のラベル付けをされた,25,000のIMDB映画レビューのデータセット
  • レビューは前処理済みで,各レビューは単語のインデックス(整数)のシーケンスとなっている
  • 単語はデータセットにおいての出現頻度によってインデックスされている。そのため例えば,整数"3"はデータの中で3番目に頻度が多い単語である
  • ラベルが1ならば肯定的な意見。0ならば否定的な意見

さて、コードを書いて実際どのようなデータが入っているか見てみます。

IMDBの元文章を表示するソースコード

x_trainが文章を出現頻度を表す整数のインデックスに変換したもの。
y_trainが感情の肯定、否定ラベルであることがわかる。
x_test、y_testは学習結果のテスト用データだが、このテストデータも25000件用意されていることがわかる。

参考

stackoverflow.com

大筋ここにのってるコードをベースに、自分好みにすり合わせ。
ありがとう!

データセット - Keras Documentation