アダルトビデオコミュニティで人気のビデオは?
前回は、「blackでblowjobな内容なビデオが人気である」であると仮定して、視聴数とコメント数で人気度を表現しようとした。
視聴数とコメント数の分布を確認すると、べき乗分布になっており、べき乗分布の最大セグメントは同じビデオだろうと考えた。
そこで、今回はその予想にもとづいて検証してみる。
視聴最大のビデオとコメント数最大のビデオの特定
※ 前は文字列が文字列が含まれた列名でパーズエラーが起きてたけど、もう一度ためしたら、起きなくなっていたので、オリジナルのデータフレームを使います
データフレームの読み込み
In [146]: original_df=pd.read_csv('../data/csv/xhamster.csv')
ただし、このデータはには欠損値があるので除去しないといけない。(欠損値はNumpyクラスのnaであるNaNで表現される)
NaNを除去するためには、
In [146]: no_na=original_df.dropna()
欠損値を除去してから、ソートをしてみる。
ソートの記法はデータフレームクラスのメソッド。
記法は
データフレームインスタンス.sort_index(by=ソートキーの列名, ascending=False)
この記法に従ってソートすると、
In [146]: no_na.sort_index(by='nb_views', ascending=False).head(2) Out[146]: id upload_date title \ 82071 230295 2009-11-06 bbw my gir 32755 370343 2010-06-20 the mom was never able to do patience 2 channels \ 82071 ['Amateur', 'BBW', 'Tits'] 32755 ['Asian', 'Matures', 'Tits'] description nb_views nb_votes \ 82071 best bbw ever. 7243879 3444 32755 The mom lost the husband and was passing hot d... 6092737 3438 nb_comments runtime uploader 82071 98 110 89a238363e5b56e0cee97d441d7752a7e1c0cf38 32755 41 2010 8851928f8ddf75556f0d82d39bea74ff7c133ded
コメント数でソートしてみると、
In [147]: no_na.sort_index(by='nb_comments', ascending=False).head(2) Out[147]: id upload_date title \ 669095 960405 2011-12-15 downblouse 701772 974831 2011-12-27 me posing at home includes cumsho channels \ 669095 ['Amateur', 'Flashing', 'Voyeur'] 701772 ['Men'] description nb_views nb_votes \ 669095 Eirini sti Mykono 1069506 2492 701772 I shoot these videos so I can get good still s... 111721 2061 nb_comments runtime uploader 669095 885 67 40dba7f210f80930f3b4ed3dbce22d830eb6cdce 701772 712 386 2d60ea16fd2ff7b69c49257c83efbe2db4545edc
idがビデオのidをしめしているので、確認してみる。
視聴数が最大のビデオは230295。
コメント数が最大のビデオは960405。
つまり、予想に反して、視聴数最大とコメント数最大は別のビデオだとわかった。
よく考えたら、別にたくさん視聴されたからといって、たくさんコメントがつくわけではない。 たくさんコメントがつくビデオは「もっともコメントしたくなるようなビデオだった」だけの話
たくさん視聴されたビデオは「もっとも話題だったビデオだった」だけの話
結論は「人気度=視聴数=コメント数」の表現に無理があった。
## もっともコメントしたくなるようなビデオをみてみよう。
コメント数最大のビデオが判明したので、そのビデオの情報をもう少し見てみる。 pandasでは
データフレームオブジェクト[データフレームオブジェクト[列名]=='検索条件']
で検索できる。
In [148]: no_na[no_na['uploader']=="40dba7f210f80930f3b4ed3dbce22d830eb6cdce"] Out[148]: id upload_date title \ 106836 964927 2011-12-19 downblouse fuck 227817 1302091 2012-06-29 girl topless downblouse pics 669095 960405 2011-12-15 downblouse channels description nb_views \ 106836 ['Amateur', 'Beach', 'Voyeur'] All about me 149431 227817 ['Beach', 'Nipples', 'Tits'] pics 61160 669095 ['Amateur', 'Flashing', 'Voyeur'] Eirini sti Mykono 1069506 nb_votes nb_comments runtime \ 106836 2154 188 327 227817 917 66 83 669095 2492 885 67 uploader 106836 40dba7f210f80930f3b4ed3dbce22d830eb6cdce 227817 40dba7f210f80930f3b4ed3dbce22d830eb6cdce 669095 40dba7f210f80930f3b4ed3dbce22d830eb6cdce
もっともコメント数がおおかったビデオは タイトルがdownblouse
descriptionがEirini sti Mykono
だった。
downblouseとは、屈んだ時におっぱいが見えちゃう感じの状態を指す。参考
で、descriptionのEirini sti Mykonoはググってみた限りでは、どっかの有名人のような感じ。
いずれにせよ、仮説とは違うってことがわかった。
もっとも話題だったビデオを見てみよう。
In [155]: no_na[no_na['uploader']=='89a238363e5b56e0cee97d441d7752a7e1c0cf38'] Out[155]: id upload_date title channels \ 82071 230295 2009-11-06 bbw my gir ['Amateur', 'BBW', 'Tits'] description nb_views nb_votes nb_comments runtime \ 82071 best bbw ever. 7243879 3444 98 110 uploader 82071 89a238363e5b56e0cee97d441d7752a7e1c0cf38
もっとも話題だったビデオは
タイトルが bbw my gir
descriptionがbest bbw ever.
bbwとはbig beautiful womanの略である。あ〜、日本語でいうと「ぽっちゃり(笑)」のことですな。
my girとあるので、bbwな彼女のビデオかと思われます・・・
(ぜんっぜん興味がわかない)
結論
アダルトビデオコミュニティでもっとも人気のビデオは「blackのblowjob」ではなさそうだ。
直接は、人気のビデオを確認はできなかったが、「もっとも話題のビデオ」と「もっともコメントしたくなるビデオ」の結果を見る限りでは、仮説は間違っていた。ということが言えるだろう。
で、Porngramで、blackとblowjobのスコアが高くなっていた理由を考えてみると、「投稿されたビデオのうち、一番、タイトルやdescriptionやタグに多かったのが、blowjobやblackだった。」ということを示していたに過ぎない。
そもそも、仮説を立てる段階から間違っていたのだった。
さて、次はどんな視点で見てみようか。