今回は大晦日も近いという事で
紅白歌合戦2019の出演者など、その見どころを
テキストマイニングで分析してみました
私のブログでは難しい数式などは出てきませんので
統計分析が苦手なあなたも楽しんでご覧ください
使用したツールはテキストマイニング用統計解析ソフト「KH Coder」です
「何それ?」という人はこちらの記事で解説していますので併せてご覧ください
☞米津玄師「パプリカ」等の歌詞をテキストマイニングで分析してみた
紅白歌合戦2019のデータ
まずは紅白歌合戦2019のデータを集めない事には話になりません
「出演者リスト」など色々と使うデータについて考えたのですが
今回は公式ホームページにある「新着情報」の中から
引用元:第70回NHK紅白歌合戦 公式HP
見所を紹介する記事の中にある
下の写真の赤枠で囲った「紹介文」のテキストデータを集めて使用する事にしました
正直、このデータを集めるのが一番しんどい作業です
スクレイピングソフトがうまく動けば楽なのですが
NHKのサイトのレイアウトがばらばらで・・・
と文句は言わずに地道に集めました
集めたデータはこちらから見れます↓
データ引用元:第70回NHK紅白歌合戦 公式HP
抽出された単語は4,910個でした
テキストマイニング解析結果
それでは解析結果を見ていきたいと思います
前処理結果
まずはデータの前処理の結果をお見せします
KHCoderでは単語を分解し、品詞を揃える「形態素解析」を自動で行ってくれます
1度味見で実施したところ「令和」という単語がソフトに認識されなかった為
強制抽出する単語に「令和」を加えて前処理を実施しました
結果は6秒で終了です
頻出語リスト
次は単語の出現回数を表す「頻出語リスト」を表示します
それがこちらです
TOPは当然「紅白」ですよね次は「NHK」それから「紅白歌合戦」
この3つは入るのが当然で明らかに見所を表す単語ではないので
「抽出禁止単語」に登録して再度頻出語リストを作成すると以下のようになります
これを見ると「日本」と「世界」がトップ2となりました
「日本と世界とのコラボレーション」や「日本代表の世界での活躍」などが考えられます
あとは「歌う」「夢」「届ける」などは紅白のキーワードですよね
気になるのは「KISS」「ラグビー」あたりでしょうか
対応分析
次は各「見所ポイント」と「単語」がどんな対応をしているのか調べる「対応分析」を実施してみます
「対応分析」では「見所ポイント」同士の「距離」を表すこともできます
結果を見てみると・・・
「YOSHIKI feat .KISS」それから「三津谷さん」が
圧倒的距離感!
他との交わり合いを許さない独自の空間を形成してますね!
他が団子状態で全く分かりません。
通常はこのような特徴的な単語は除いて全体が把握できるようにするのですが
今回は面白かったのでこのままにしておきます
データ引用元:第70回NHK紅白歌合戦 公式HP
共起ネットワーク
最後は各単語同士の繋がりを「視える化」する「共起ネットワーク」を実施します
これを行うことでバラバラだった単語同士が繋がり、意味を捉えやすくなります。
その結果は・・
「米津(玄師)」「嵐」「コラボレーション」「応援曲」これは当日に発表される「カイト」のことでしょう
「子どもFoorin」と「米津(玄師)」これは前回取り上げた「パプリカ」でしょう
「YOSHIKI」「KISS」が「繰り広げる」「夢」「ロック」これは先ほどのロック界の夢のコラボレーションですね
「ラグビーワールドカップ」や「ビートたけし」「RADWINPS」という単語も見れます
あとは「ジャニーさん」の追悼ステージもあるのでこれも注目です
あれ、三津谷さんは・・・
単語の出現回数は少ないけど個性が強いということでしょうか?
まとめ
今回は大晦日も近いという事で「紅白歌合戦2019」その出演者などの見所をテキストマイニングを使って分析してみました。
「米津玄師と嵐のコラボレーションによる新曲発表」や「YOSHIKIfeat.KISS」「ラグビー日本代表」「三津谷さん」など沢山の見所がありそうです。
ぜひ皆さんもこの記事を参考にしながら「紅白歌合戦2019」を楽しんでもらえればと思います。