管理者権限のない環境でpip installを行う

やりたいこと pip installコマンドを使って、pythonライブラリを簡単にインストールしたい。 ただし、管理者権限はもっておらず、「試すための目的でいちいちインストールを管理者に頼む。」なんてことはできない状況。 解決方法 --userのオプションを利用す…

twitterから有用な情報を発信するユーザーを発見する研究

やりたいこと Twitterネットワークの中から、「役にたつ(とtwitterユーザーが考える)」情報を発信するユーザーを発見したい。 そこで、この目的の研究を探してみた。 Twitterにおけるフォローに関する影響力に基づくハブ度の推定 以下、読んでみたメモ…

ブログの引っ越しをした

とあるアフィリエイトを申請してみたかったのだが、どうやらはてなブログのままだと審査に通らないらしい(と、いうかそもそも受け付けてくれない。ドメインをみて弾いているとか?) そこで、自分でドメインとって、新しくブログを運用してみようと思った。…

Rでデータフレームから特定の列を削除したい

R

やりたいこと データフレームから特定の列だけを削除したい。 でも、列の指定はインデックスじゃなくて、列名で指定したい。 解決策 setdiff関数を使う。 書式 df[setdiff(colnames(df), "除外したい列名")] ※ こっちでもOK。というか、こっちの方が書式的に…

twitter APIにアクセスして情報取得

やりたいこと Twitterのユーザー情報を取得してきたい。Pythonで! PythonのTwitter APIライブラリを使う python-twitterを使えば、非常にお手軽にapiを利用できる。 なので、以前からちょいちょい利用していたのだが、最近、試してみたら、あれ!?ユーザー…

レンタルサーバーかりて、ホームページを作ってみた

何書こうか?と迷ったが、このブログを開設するまでの経緯でも書いておく。 レンタルサーバー業者選び まずは、自分でホームページつくるにも、サーバーを借りてこなくてはいけない。 周りからは、「無料サービスのサーバーでいいんじゃない?どーせサーバー…

日付一覧からファイルを結合する

次の様な日付一覧があるとする 2014-07-01 2014-07-02 2014-07-03 2014-07-04 2014-07-05 2014-07-06 2014-07-07 2014-07-08 2014-07-09 この日付をファイル名に含んだファイル郡があって、そのファイル郡をひとつに結合してしまいたい。 ログデータを扱って…

bashスクリプトの中でheaderファイルを挿入するには?

bashスクリプトを書いているときに、「ファイルにheaderを挿入するコマンド」を使いたいときがある。 例えば、SQLから取得してきたファイルをcsvとして整形して保存しておく時とか。 この時、ぼくはよくSQLから取得してきた文字列を変数に格納して、それから…

アダルトビデオコミュニティで人気のビデオは?

前回は、「blackでblowjobな内容なビデオが人気である」であると仮定して、視聴数とコメント数で人気度を表現しようとした。 視聴数とコメント数の分布を確認すると、べき乗分布になっており、べき乗分布の最大セグメントは同じビデオだろうと考えた。 そこ…

ビッグデータで見るアダルトビデオコミュニティ

※この記事はpandasやMコマンドの練習お題として選んだ「アダルトビデオコミュニティの分析」をコードと共に紹介するシリーズです 以前、アダルトビデオコミュニティの統計データの紹介をしたことがある。 長いこと放置していたが、せっかくなので、このデー…

日付の名前がついたファイルを週ごとに連結する

ログファイルを扱っていると、タイトルのような需要がちょくちょく出てくる。 例えば、一週間でログインしたユーザーのみを知りたいときとか。 この場合、日付の名前がついたファイルを週ごとに連結して、sortしてuniq・・・ってことになるのだが、週ごとに…

Rのエスケープ文字はダブルのエスケープ

R

URLの文字分割したい時など、?とかの特殊記号が登場する。 しかし、単純に?でstrsplit関数を使うと、文字が全部分解されてしまう。Fu*k これは?がメタ文字として扱われているためで、?を文字として扱って分割するにはエスケープを2つもつけないといけない。…

foreachとldplyを使ってforループの記述から脱却しよう

R

例えば、ある関数をforループで毎回呼び出して処理させている時は、foreachとldplyに置き換えられる。 一般に、後者の方が処理速度が早いらしい。 ま、そんな言語設計してる時点でどうかしてると思うがな! GetSum <- function(a){ x <- a + 1 + 2 return_df …

シェルスクリプト内で改行を含めたprint的なことをしたい

変数の中身を表示するprint的なアレはechoを使えばよいが、echoだと改行されない。 そこで、改行されるようにするには・・・ echo "${変数}" とダブルクオートでかこってやればよい ここに書いてある

R5クラスを利用してクラスを実装する

R

Rでクラスを実装するには3つの方法がある。 S3オブジェクト S4オブジェクト R5オブジェクト 世に出回っている多くのクラスはS3で実装されているようだが(自分の見た限りだと)、S3は「インスタンス生成時に型エラーを出さない」という致命的な欠陥がある。…

「データフレームの時間列を文字列分解して、日付と時間にして、それぞれ別の列にして追加したい。でも、strsplit関数を使うとリストで返ってきて困る」 時の対処法

R

解決策 sapplyと自作関数の併用で乗り切る いまこんなデータがあるとする > print(head(ex_data)) date_jst ID 1 2014-05-11 00:00:04 17220 2 2014-05-11 00:00:05 25377 3 2014-05-11 00:00:05 21841 4 2014-05-11 00:00:06 23536 5 2014-05-11 00:00:07 1…

POSIXct型で時間の比較演算

R

ログデータを扱っていると、時間で比較を行いたいケースが出てくる。 例えば、「〜月〜日の〜時より前のログだけ抽出」とか。 そんな時に、時間の比較演算をしてくれるのが、POSIXct型。 詳しくはwikiにゆずるとして、使い方だけ。 split_time_tmp <- "06:00…

Twitteのデータを取得しよう

R

ある日、「RでTwitterのデータを扱えるんかな?」とふと思い立った。 で、調べてみると、できるらしい。っていうかやっている人がけっこういるらしい。 これとかこれとか。 仕組みはほとんどわかってないのだが、Twitter連携アプリとして認証させていまい、t…

xargsを使ってお手軽に分散処理をしよう!

複数のパラメータがあって、どのパラメータの組み合わせがいいのか?調べたい。でも多重for文を使うと大変なことに(ただでさえRのforはク・・) →bashコマンドのxargsを併用して、お手軽に分散処理をする。 参考にしたサイト:ここ 用意するもの 1 パラメ…

WebブラウザでIpythonを使おう!(Rstudioのpython版)

なんとIpythonにwebインターフェースが存在するんだそうな。 そんなにメリットがあるとも思えないが、とりあえず使ってみたい! そんな思いからまたサーバーでIpythonを稼働させてみることにした。 使うサーバーは恒例のAmazon EC2。 まずはここを参考にしつ…

Macで作業ウィンドウがどっかにいっていまって仕事になんない時

言葉では説明できないが(たぶん、経験ある人には伝わる)、Mac OSでは時々、作業ウィンドウが存在しているんだけど、表示されない状態が発生する。 そんな状況に対処するための方法。リンク

複数の学習データから行う回帰分析

R

世の中,案外データは揃わないものである. 研究室にいた頃は「学習データが足りないのが悪いんや」とか言っていたが,そうそう都合よくデータは揃わないものである. さて,いま,重回帰を行ないたいとしよう. ただし,ここからが重要だが,つぎはぎの系列…

ggplotできれいなグラフを描こう

R

グラフを描くときにどうするか? 何らかのデータを扱う者にとっては共通の悩みだろう. 自分の場合,面倒なときはデータをexcelに落としこんでから簡単にグラフを描いてしまうことが多い. しかし,次のような場合はどうだろう? Rがサーバーで稼働していて…

Amazon ec2でRの実行環境を整える

R

前回の記事では、Amazon EC2でのサーバーの立て方と初期設定の方法とか紹介した。 そのあとやることは、もうRの設定である。 「apt-getでRのインストールして、RstudioのGUIコンソールでも準備しようかなあ」と思っていたら、そんなことをしなくとももっと簡…

Amazon ec2で快適実験生活

社会人になって1ヶ月が経った。 新人研修も終わり、実際の業務に関わりはじめたわけであるが、、、ここで最大の難関が行く手を阻む。それは、「R」だ。 正直に言うと、Rは学部の頃に卒業研究のために統計をちょっと取る程度に使い、それからはほとんど触って…

トンプソンのモチーフインデックス電子版についてのお話

トンプソンのモチーフインデックスというのは,世界中のお話のモチーフを網羅した(と言われている)インデックス本である. 元々は6巻から成る本なのだが,最近では電子版も公開されている. さて,この本の困ったところは,この本は「あくまでモチーフの…

Mac Marvericsでキーボード設定

意外と知られていないことだが,ペルシア語にはキーボードが2種類存在している. ひとつはPersian(無印),もうひとつがPersian ISIRI系統. 前者はPersianとは名ばかりでただのアラビア語キーボードの拡張である. したがって,かなり使いづらい(文字コー…

お手軽POS tagging(ペルシア語編)

また例によって,ペルシア語の話である. きょうのお題は「ちょー簡単にペルシア語の品詞タグ付けをしよう!」 そもそも品詞タグ付けってなに? 読んで字の如く,単語に品詞情報をつけること. 「なにそれ?楽しいの?」と思うかもしれないが,自然言語処理…

英語論文の論理関係語

論文書くときには論理関係に気を配らないといけない. 論理関係をはっきりさせるのには,接続詞の正しい使い方が必要不可欠だ.普段,話しことばで使っているいる英語とはたいぶ異なる. 頭がいい人は,論理関係を示す英語をきちんと頭に入れているのだが,…

Semi-Supervised Representation Learning for Cross-Lingual Text Classificationを読んだメモ

Min Xiao and Yuhong Guo, ACL 2013 1 この論文の要旨 要は,多言語文書分類. 従来のやり方だと,単語辞書を使うとか,MTシステムを使うとか,LDAで対訳トピックを抽出して選択的な翻訳をするだとか.そういった方法が使われてきた. この論文では,二段階…