pandas

グループ化集計して、上位N件の取得

やりたいこと データフレームをグループ化して集計(平均)し、その上で、各グループについて上位N件を取得したい。 つまり、やることを分解すると、 1 グループ化して数値集計(今回は平均) 2 集計した数値で、各グループごとに上位N件取得 1 グループ…

numpyの行列をpandasのdataframeに変換したい

やりたいこと numpyの行列をpandasのdataframeに変換したい。 以前、pandasのdataframeをnumpyの行列にしたいということを書いたが、今度は逆のことをしたい。 どう解決するか? ここに書いてあった。 pd.DataFrame(numpy_array) とすればいい。 引数にいろ…

pandasのdataframe型をnumpyのarray型に変換する

やりたいこと dataframeを行列として扱いたい。 なので、numpyのarray型(np.arrayかnp.adarrayにしたい) どう解決するか? ここに書いてあった。 なんだか、いろいろな人が回答しているが、一番シンプルでわかりやすかったのがこれ。 df.as_matrix() すで…

アダルトビデオコミュニティで人気のビデオは?

前回は、「blackでblowjobな内容なビデオが人気である」であると仮定して、視聴数とコメント数で人気度を表現しようとした。 視聴数とコメント数の分布を確認すると、べき乗分布になっており、べき乗分布の最大セグメントは同じビデオだろうと考えた。 そこ…

ビッグデータで見るアダルトビデオコミュニティ

※この記事はpandasやMコマンドの練習お題として選んだ「アダルトビデオコミュニティの分析」をコードと共に紹介するシリーズです 以前、アダルトビデオコミュニティの統計データの紹介をしたことがある。 長いこと放置していたが、せっかくなので、このデー…