人工知能と競プロやってくブログ

深層学習・機械学習・AI・atcoder・競技プログラミングについて調べてやってみたことをまとめるブログです

KerasデータセットのIMDB映画レビューの元文章を表示する簡単サンプル

深層学習 Python Keras Jupyter Notebook IMDB

IMDBは触ったことがなかったんで、とりあえずデータセットの中身をみるところから始めてみました。

IMDB映画レビュー感情分類データセットとは

感情 (肯定/否定) のラベル付けをされた，25,000のIMDB映画レビューのデータセット
レビューは前処理済みで，各レビューは単語のインデックス（整数）のシーケンスとなっている
単語はデータセットにおいての出現頻度によってインデックスされている。そのため例えば，整数"3"はデータの中で3番目に頻度が多い単語である
ラベルが1ならば肯定的な意見。0ならば否定的な意見

さて、コードを書いて実際どのようなデータが入っているか見てみます。

IMDBの元文章を表示するソースコード

x_trainが文章を出現頻度を表す整数のインデックスに変換したもの。
y_trainが感情の肯定、否定ラベルであることがわかる。
x_test、y_testは学習結果のテスト用データだが、このテストデータも25000件用意されていることがわかる。

参考

stackoverflow.com

大筋ここにのってるコードをベースに、自分好みにすり合わせ。
ありがとう！

データセット - Keras Documentation