2014-05-01から1ヶ月間の記事一覧

「データフレームの時間列を文字列分解して、日付と時間にして、それぞれ別の列にして追加したい。でも、strsplit関数を使うとリストで返ってきて困る」 時の対処法

R

解決策 sapplyと自作関数の併用で乗り切る いまこんなデータがあるとする > print(head(ex_data)) date_jst ID 1 2014-05-11 00:00:04 17220 2 2014-05-11 00:00:05 25377 3 2014-05-11 00:00:05 21841 4 2014-05-11 00:00:06 23536 5 2014-05-11 00:00:07 1…

POSIXct型で時間の比較演算

R

ログデータを扱っていると、時間で比較を行いたいケースが出てくる。 例えば、「〜月〜日の〜時より前のログだけ抽出」とか。 そんな時に、時間の比較演算をしてくれるのが、POSIXct型。 詳しくはwikiにゆずるとして、使い方だけ。 split_time_tmp <- "06:00…

Twitteのデータを取得しよう

R

ある日、「RでTwitterのデータを扱えるんかな?」とふと思い立った。 で、調べてみると、できるらしい。っていうかやっている人がけっこういるらしい。 これとかこれとか。 仕組みはほとんどわかってないのだが、Twitter連携アプリとして認証させていまい、t…

xargsを使ってお手軽に分散処理をしよう!

複数のパラメータがあって、どのパラメータの組み合わせがいいのか?調べたい。でも多重for文を使うと大変なことに(ただでさえRのforはク・・) →bashコマンドのxargsを併用して、お手軽に分散処理をする。 参考にしたサイト:ここ 用意するもの 1 パラメ…

WebブラウザでIpythonを使おう!(Rstudioのpython版)

なんとIpythonにwebインターフェースが存在するんだそうな。 そんなにメリットがあるとも思えないが、とりあえず使ってみたい! そんな思いからまたサーバーでIpythonを稼働させてみることにした。 使うサーバーは恒例のAmazon EC2。 まずはここを参考にしつ…

Macで作業ウィンドウがどっかにいっていまって仕事になんない時

言葉では説明できないが(たぶん、経験ある人には伝わる)、Mac OSでは時々、作業ウィンドウが存在しているんだけど、表示されない状態が発生する。 そんな状況に対処するための方法。リンク

複数の学習データから行う回帰分析

R

世の中,案外データは揃わないものである. 研究室にいた頃は「学習データが足りないのが悪いんや」とか言っていたが,そうそう都合よくデータは揃わないものである. さて,いま,重回帰を行ないたいとしよう. ただし,ここからが重要だが,つぎはぎの系列…

ggplotできれいなグラフを描こう

R

グラフを描くときにどうするか? 何らかのデータを扱う者にとっては共通の悩みだろう. 自分の場合,面倒なときはデータをexcelに落としこんでから簡単にグラフを描いてしまうことが多い. しかし,次のような場合はどうだろう? Rがサーバーで稼働していて…

Amazon ec2でRの実行環境を整える

R

前回の記事では、Amazon EC2でのサーバーの立て方と初期設定の方法とか紹介した。 そのあとやることは、もうRの設定である。 「apt-getでRのインストールして、RstudioのGUIコンソールでも準備しようかなあ」と思っていたら、そんなことをしなくとももっと簡…

Amazon ec2で快適実験生活

社会人になって1ヶ月が経った。 新人研修も終わり、実際の業務に関わりはじめたわけであるが、、、ここで最大の難関が行く手を阻む。それは、「R」だ。 正直に言うと、Rは学部の頃に卒業研究のために統計をちょっと取る程度に使い、それからはほとんど触って…