R
やりたいこと Rスクリプトでスクリプトファイルが存在しているパスを取得したい。 pythonでいうとこの__file__を実現したい。 もうちょい踏み込んだ説明 なんでかっていうと、コマンドラインインターフェースだけ独立させて存在させたいわけですよ。 私、分…
この記事ではこんなことを書くよ テキストマイニング的に次元削減とプロットする話 t-SNEとかいうイケてる名前のアルゴリズム プリキュアとセーラームーンはどっちの方がいいか はじめに 計算機分野に所属する人たちは時々、本当に間抜けなことを真面目に取…
やりたいこと ggplot2で日本語を利用できるようにする 前提 サーバーでRを実行している レポートhtmlを作成している レポートのグラフ中に日本語が含まれる ggplot2ではデフォルトの設定では日本語はサポートされていないので、フォントの指定が必要。 でも…
やりたいこと データに対して、連関規則を見つけたい。 いわゆる、「バスケット分析」や「アソシエーション分析」を行ないたい。 RではArulesパッケージが用意されているので、簡単に活用できる(はずなんだけどなあ) arulesの使い方はここやここなど、とっ…
やりたいこと Rmdで生成しているhtml内にテーブルがあって、xtableを使用して表を表示している。 で、この表を罫線で囲みたい。 解決法 xtableを使うチャンク内で下の記述を入れる。コピペでおk。 しかも、最初にxtableをprintしてるチャンク内に記述すれば…
やりたいこと 自分で他ファイルに定義した関数を読み込む時に、きちんと読み込み元を明示する。 Rでは他のファイルに定義された関数を呼ぶときは、source(ファイル名)と記述するが、多くのファイルを読み込み始めると、どの関数がどこで定義されたのか?わか…
Rはオブジェクト指向の言語ではない。従って、呼び出している関数が、どのクラスのメソッドなのか?を意識してなくともコードが書ける。 しかし、それがために、思わぬ事態を招くことがある。 今回はそんなバッドな事例を紹介しようと思う。 現象 crontabに…
ハマりポイント dplyrのsummarise関数を使って、集計処理をしたい。 具体的には、グループ化して、条件に合うベクトルの長さを取得したい。 input_df %.% dplyr::group_by(グループ化変数) %.% dplyr::summarise(length(集計したい変数)) しかし、実行してみ…
やりたいこと 月曜日の日付を特定する。 ソシャゲで週ごとのイベントの数値集計したいときに重宝する機能である。 解決法 日付をunix timeに変換してから割り算をする。 割り算のあまりで「月曜日が何日前か?」を判断して、引き算を行う。 コードは以下 Det…
やりたいこと データフレームから特定の列だけを削除したい。 でも、列の指定はインデックスじゃなくて、列名で指定したい。 解決策 setdiff関数を使う。 書式 df[setdiff(colnames(df), "除外したい列名")] ※ こっちでもOK。というか、こっちの方が書式的に…
URLの文字分割したい時など、?とかの特殊記号が登場する。 しかし、単純に?でstrsplit関数を使うと、文字が全部分解されてしまう。Fu*k これは?がメタ文字として扱われているためで、?を文字として扱って分割するにはエスケープを2つもつけないといけない。…
例えば、ある関数をforループで毎回呼び出して処理させている時は、foreachとldplyに置き換えられる。 一般に、後者の方が処理速度が早いらしい。 ま、そんな言語設計してる時点でどうかしてると思うがな! GetSum <- function(a){ x <- a + 1 + 2 return_df …
Rでクラスを実装するには3つの方法がある。 S3オブジェクト S4オブジェクト R5オブジェクト 世に出回っている多くのクラスはS3で実装されているようだが(自分の見た限りだと)、S3は「インスタンス生成時に型エラーを出さない」という致命的な欠陥がある。…
解決策 sapplyと自作関数の併用で乗り切る いまこんなデータがあるとする > print(head(ex_data)) date_jst ID 1 2014-05-11 00:00:04 17220 2 2014-05-11 00:00:05 25377 3 2014-05-11 00:00:05 21841 4 2014-05-11 00:00:06 23536 5 2014-05-11 00:00:07 1…
ログデータを扱っていると、時間で比較を行いたいケースが出てくる。 例えば、「〜月〜日の〜時より前のログだけ抽出」とか。 そんな時に、時間の比較演算をしてくれるのが、POSIXct型。 詳しくはwikiにゆずるとして、使い方だけ。 split_time_tmp <- "06:00…
ある日、「RでTwitterのデータを扱えるんかな?」とふと思い立った。 で、調べてみると、できるらしい。っていうかやっている人がけっこういるらしい。 これとかこれとか。 仕組みはほとんどわかってないのだが、Twitter連携アプリとして認証させていまい、t…
複数のパラメータがあって、どのパラメータの組み合わせがいいのか?調べたい。でも多重for文を使うと大変なことに(ただでさえRのforはク・・) →bashコマンドのxargsを併用して、お手軽に分散処理をする。 参考にしたサイト:ここ 用意するもの 1 パラメ…
なんとIpythonにwebインターフェースが存在するんだそうな。 そんなにメリットがあるとも思えないが、とりあえず使ってみたい! そんな思いからまたサーバーでIpythonを稼働させてみることにした。 使うサーバーは恒例のAmazon EC2。 まずはここを参考にしつ…
世の中,案外データは揃わないものである. 研究室にいた頃は「学習データが足りないのが悪いんや」とか言っていたが,そうそう都合よくデータは揃わないものである. さて,いま,重回帰を行ないたいとしよう. ただし,ここからが重要だが,つぎはぎの系列…
グラフを描くときにどうするか? 何らかのデータを扱う者にとっては共通の悩みだろう. 自分の場合,面倒なときはデータをexcelに落としこんでから簡単にグラフを描いてしまうことが多い. しかし,次のような場合はどうだろう? Rがサーバーで稼働していて…
前回の記事では、Amazon EC2でのサーバーの立て方と初期設定の方法とか紹介した。 そのあとやることは、もうRの設定である。 「apt-getでRのインストールして、RstudioのGUIコンソールでも準備しようかなあ」と思っていたら、そんなことをしなくとももっと簡…
社会人になって1ヶ月が経った。 新人研修も終わり、実際の業務に関わりはじめたわけであるが、、、ここで最大の難関が行く手を阻む。それは、「R」だ。 正直に言うと、Rは学部の頃に卒業研究のために統計をちょっと取る程度に使い、それからはほとんど触って…
自然言語処理の世界では「時系列データ」というと,HMMモデルのようなイメージがある(主観).品詞が隠れ状態で,単語が観測状態になっており,文中の単語のインデックスと共に「時間が経過していく」という格好だ.ただ,一般的に「時系列データ」というと…
まず、はじめてわかったことがひとつ。 それは主成分分析といってもやり方がふたつあるということ。ひとつは相関係数行列を用いるやり方。 もうひとつは分散共分散行列を用いるやり方。Rでは主成分分析用の関数にprincompが用意されているが、princompのcor…
LSIのコードを走らせてみたかったので、Mecabを入れることにした。 http://d.hatena.ne.jp/a_bicky/20120324/1332591498 (本当に参考になる) RにはRMeCabというインターフェースが用意されているので、これまた助かる。ちょっとだけ手間取ったのが、Rでの…
何にもわかってないままに始めたので最初のうちはよかったんだけど、後半になるにつれて「ん、何かおかしいぞ?」ということがたびたび出て来た。というのも、Rのデータ構造の基本はすべてベクトル構造になっていたからであった。 だから、1と入力したつもり…
いままで知らなかったけど、命名規則ってのがあるみたいで。http://www.okada.jp.org/RWiki/?R%A4%CB%A4%AA%A4%B1%A4%EB%B3%CE%CE%A8%CA%AC%C9%DBそもそもRの基礎操作は http://takenaka-akio.org/doc/r_auto/chapter_05.html行列操作に関して参考になったの…