アダルトビデオコミュニティで人気のビデオは?

前回は、「blackでblowjobな内容なビデオが人気である」であると仮定して、視聴数とコメント数で人気度を表現しようとした。

視聴数とコメント数の分布を確認すると、べき乗分布になっており、べき乗分布の最大セグメントは同じビデオだろうと考えた。

そこで、今回はその予想にもとづいて検証してみる。

視聴最大のビデオとコメント数最大のビデオの特定

※ 前は文字列が文字列が含まれた列名でパーズエラーが起きてたけど、もう一度ためしたら、起きなくなっていたので、オリジナルのデータフレームを使います

データフレームの読み込み

In [146]: original_df=pd.read_csv('../data/csv/xhamster.csv')   

ただし、このデータはには欠損値があるので除去しないといけない。(欠損値はNumpyクラスのnaであるNaNで表現される)

NaNを除去するためには、

In [146]: no_na=original_df.dropna()

欠損値を除去してから、ソートをしてみる。

ソートの記法はデータフレームクラスのメソッド

記法は

データフレームインスタンス.sort_index(by=ソートキーの列名, ascending=False)

この記法に従ってソートすると、

In [146]: no_na.sort_index(by='nb_views', ascending=False).head(2)
Out[146]: 
           id upload_date                                    title  \
82071  230295  2009-11-06                               bbw my gir   
32755  370343  2010-06-20  the mom was never able to do patience 2   

                           channels  \
82071    ['Amateur', 'BBW', 'Tits']   
32755  ['Asian', 'Matures', 'Tits']   

                                             description  nb_views  nb_votes  \
82071                                     best bbw ever.   7243879      3444   
32755  The mom lost the husband and was passing hot d...   6092737      3438   

       nb_comments  runtime                                  uploader  
82071           98      110  89a238363e5b56e0cee97d441d7752a7e1c0cf38  
32755           41     2010  8851928f8ddf75556f0d82d39bea74ff7c133ded  

コメント数でソートしてみると、

In [147]: no_na.sort_index(by='nb_comments', ascending=False).head(2)
Out[147]: 
            id upload_date                              title  \
669095  960405  2011-12-15                         downblouse   
701772  974831  2011-12-27  me posing at home includes cumsho   

                                 channels  \
669095  ['Amateur', 'Flashing', 'Voyeur']   
701772                            ['Men']   

                                              description  nb_views  nb_votes  \
669095                                  Eirini sti Mykono   1069506      2492   
701772  I shoot these videos so I can get good still s...    111721      2061   

        nb_comments  runtime                                  uploader  
669095          885       67  40dba7f210f80930f3b4ed3dbce22d830eb6cdce  
701772          712      386  2d60ea16fd2ff7b69c49257c83efbe2db4545edc 

idがビデオのidをしめしているので、確認してみる。

視聴数が最大のビデオは230295。

コメント数が最大のビデオは960405。

つまり、予想に反して、視聴数最大とコメント数最大は別のビデオだとわかった。

よく考えたら、別にたくさん視聴されたからといって、たくさんコメントがつくわけではない。 たくさんコメントがつくビデオは「もっともコメントしたくなるようなビデオだった」だけの話

たくさん視聴されたビデオは「もっとも話題だったビデオだった」だけの話

結論は「人気度=視聴数=コメント数」の表現に無理があった。

## もっともコメントしたくなるようなビデオをみてみよう。

コメント数最大のビデオが判明したので、そのビデオの情報をもう少し見てみる。 pandasでは

データフレームオブジェクト[データフレームオブジェクト[列名]=='検索条件']

で検索できる。

In [148]: no_na[no_na['uploader']=="40dba7f210f80930f3b4ed3dbce22d830eb6cdce"]
Out[148]: 
             id upload_date                         title  \
106836   964927  2011-12-19               downblouse fuck   
227817  1302091  2012-06-29  girl topless downblouse pics   
669095   960405  2011-12-15                    downblouse   

                                 channels        description  nb_views  \
106836     ['Amateur', 'Beach', 'Voyeur']       All about me    149431   
227817       ['Beach', 'Nipples', 'Tits']               pics     61160   
669095  ['Amateur', 'Flashing', 'Voyeur']  Eirini sti Mykono   1069506   

        nb_votes  nb_comments  runtime  \
106836      2154          188      327   
227817       917           66       83   
669095      2492          885       67   

                                        uploader  
106836  40dba7f210f80930f3b4ed3dbce22d830eb6cdce  
227817  40dba7f210f80930f3b4ed3dbce22d830eb6cdce  
669095  40dba7f210f80930f3b4ed3dbce22d830eb6cdce  

もっともコメント数がおおかったビデオは タイトルがdownblouse

descriptionがEirini sti Mykono

だった。

downblouseとは、屈んだ時におっぱいが見えちゃう感じの状態を指す。参考

で、descriptionのEirini sti Mykonoはググってみた限りでは、どっかの有名人のような感じ。

いずれにせよ、仮説とは違うってことがわかった。

もっとも話題だったビデオを見てみよう。

In [155]: no_na[no_na['uploader']=='89a238363e5b56e0cee97d441d7752a7e1c0cf38']                                            
Out[155]: 
           id upload_date       title                    channels  \
82071  230295  2009-11-06  bbw my gir  ['Amateur', 'BBW', 'Tits']   

          description  nb_views  nb_votes  nb_comments  runtime  \
82071  best bbw ever.   7243879      3444           98      110   

                                       uploader  
82071  89a238363e5b56e0cee97d441d7752a7e1c0cf38 

もっとも話題だったビデオは

タイトルが bbw my gir

descriptionがbest bbw ever.

bbwとはbig beautiful womanの略である。あ〜、日本語でいうと「ぽっちゃり(笑)」のことですな。

my girとあるので、bbwな彼女のビデオかと思われます・・・

(ぜんっぜん興味がわかない)


結論

アダルトビデオコミュニティでもっとも人気のビデオは「blackのblowjob」ではなさそうだ。

直接は、人気のビデオを確認はできなかったが、「もっとも話題のビデオ」と「もっともコメントしたくなるビデオ」の結果を見る限りでは、仮説は間違っていた。ということが言えるだろう。

で、Porngramで、blackとblowjobのスコアが高くなっていた理由を考えてみると、「投稿されたビデオのうち、一番、タイトルやdescriptionやタグに多かったのが、blowjobやblackだった。」ということを示していたに過ぎない。

そもそも、仮説を立てる段階から間違っていたのだった。

さて、次はどんな視点で見てみようか。