統計ER さん プロフィール

  •  
統計ERさん: 統計ER
ハンドル名統計ER さん
ブログタイトル統計ER
ブログURLhttps://toukeier.hatenablog.com/
サイト紹介文統計ソフトの使い方。統計ソフトRが多め。
参加カテゴリー
更新頻度(1年)情報提供227回 / 169日(平均9.4回/週) - 参加 2018/04/29 09:37

統計ER さんのブログ記事

  • 統計ソフトRでテキストマイニングをやろう!
  • 統計ソフトRでテキストマイニングをやろう!もちろん全部無料! テキストマイニングとは? テキストマイニングツールMeCab(和布蕪、めかぶ) 統計ソフトRでMeCabを使うにはRMeCabをインストール! ワードクラウド その他の解析 まとめテキストマイニングとは?テキストデータを名詞、動詞、形容詞など、濃い意味合いを持つ言葉と、助詞、助動詞、感嘆詞、疑問詞など意味合いが強くない言葉に分けて、発生頻度を [続きを読む]
  • ツイッターからツイートを取り出す方法
  • ツイッター(Twitter)からツイート(Tweets、つぶやき)を取り出す方法。自分がつぶやいたことやリツイート(Retweet、RT)したことを解析に使うことができる。プロフィール画像を して設定とプライバシーを選択。最下段のツイート履歴の右側を 。下のキャプチャではメールの再送信になっているが、最初はツイートを取得するという内容になっている。ほどなく登録しているメールアドレスにダウンロードの準備が [続きを読む]
  • 主成分回帰 PCR と部分最小二乗回帰 PLS はどうやる?
  • 主成分回帰(Principal Component Regression, PCR)は、主成分分析と回帰分析の融合。主成分分析で情報の集約をして、変数を減らしてから回帰分析を行う方法。多重共線性が心配な変数同士が含まれていても、主成分得点に集約されるため問題がなくなる。部分最小二乗回帰(Partial Least Squares Regression, PLS Regression)は、主成分回帰の発展版。独立変数は主成分回帰と同じ。PLSは独立変数だけでなく、従属変数にも新たな得 [続きを読む]
  • 統計ソフトRで主成分分析を行うには?
  • 主成分分析は、たくさんの変数を、主成分と呼ばれる合成変数に集約する分析。合成変数というのは、係数(重み、負荷量、loading)と変数値をかけたものの合計。主役級の主成分から第一主成分、第二主成分、、、と呼ばれる。たくさん、たくさん変数があるときに、主成分でまとめると、情報がまとまって考えやすくなる。情報の海に溺れている状態から、情報が整理されてわかりやすくなる感じ。統計ソフトRで主成分分析を行うには?pr [続きを読む]
  • リッジ、ラッソ、エラスティックネットで高性能な予測モデルを作る!
  • 線形回帰モデルは、変数がたくさんあればあるほど、当てはまりのいい回帰式ができる。当てはまりのいい回帰式の欠点は、新しいデータでの予測に使えないことだ。予測性能に優れるモデルを作るのがRidge(リッジ)回帰とLASSO(ラッソ)回帰、Elastic net(エラスティックネット)だ。リッジ、ラッソ、エラスティックネットは何をやっているか?線形回帰モデルは、係数(パラメータ)を推定するときに最小二乗法を用いる。通常の最 [続きを読む]
  • サポートベクターマシンのコストパラメータCとは?
  • 学習セットでばっちり分類できても、新しいデータではうまく分類できないのは、機械学習の本来の目的から適切ではない。目的は、新たなデータでも学習セットと同じように適切に分類できる分類器を作ること。目的を達成するために調整できるパラメータがある。サポートベクターマシンのコストパラメータとは?コストパラメータは誤分類を許容する指標。が小さいと誤分類を許容する。大きいと誤分類を許容しない。が大きい場合は、複 [続きを読む]
  • ランダムフォレストのチューニングとは?
  • ランダムフォレストはチューニングして最適化する。チューニングは決定木を最適化する方法。ランダムフォレストの場合は、決定木の数と特徴量(説明変数)の数を最適化する。パッケージのインストールと準備最初に一回だけパッケージのインストールをする。install.packages("randomForest")呼び出して使えるように準備する。library(randomForest)例題として使用するデータMASSパッケージのfglデータを使う。fglはForensic [続きを読む]
  • 統計ソフトRでランダムフォレストを行うには?
  • アンサンブル学習でポピュラーなのがランダムフォレスト。統計ソフトRでランダムフォレストをやってみた。toukeier.hatenablog.comパッケージの準備パッケージはrandomForestというそのままの名前のパッケージを使う。最初に一回だけインストールする。install.packages("randomForest")使えるように呼び出しておく。library(randomForest)ランダムフォレストで決定木を作る例irisデータを使って、ランダムフォレストで [続きを読む]
  • 統計ソフトRでアンサンブル学習!バギングはどうやる?
  • アンサンブル学習を統計ソフトRでやってみよう!まずはバギング。バギングはBootstrap Aggregatingの略。toukeier.hatenablog.comパッケージの準備adabagパッケージをインストールする。install.packages("adabag")インストール後、呼び出しておく。library(adabag)データの準備例題のデータを準備する。データはirisを使う。irisは150行のデータ。一部を学習データにする。150を50ずつ3つに分けて、それぞれ50個から35 [続きを読む]
  • ランダムフォレストとバギング、何がどう違う?
  • 決定木をより汎用化するために考えられた、バギングとランダムフォレスト。どこがどう違うのか?概念的な簡単な説明。アンサンブル学習とは何か?ランダムフォレストとバギングはともにアンサンブル学習と呼ばれていて、似た手法だ。アンサンブル学習とは、たくさんのサンプルから作成した識別器の結果を集合して、最適な識別器を作る、機械学習の方法。何度もサンプリングして平均をとる方法を一般的にアンサンブル学習と言う。 [続きを読む]
  • 統計ソフトRで決定木分析を行うには?
  • 無料統計ソフトRで決定木分析のやり方をご紹介。難しいプログラムが組めなくてもすぐに使える。パッケージの準備決定木分析のパッケージrpartときれいな決定木の描画パッケージpartykitをインストールする。インストールは初めの一回だけでOK。install.packages("rpart")install.packages("partykit")library()で呼び出しておく。library(rpart)library(partykit)決定木作成の例rpartパッケージのkyphosis(脊柱後弯症)デー [続きを読む]
  • 決定木の剪定 Cost-Complexity Pruningとは?
  • 庭師の仕事ではないが、決定木には剪定(せんてい)という過程がある。剪定とは何か?簡単に紹介。完璧に分類した決定木は弱点が?あるデータセットから、決定木を作ったとする。決定木は、大きく茂らせれば茂らせるほど、きれいに分岐して、分類してくれる。しかしながら、機械学習の観点から言うと、あまりにきれいに分類してしまうのは好ましくない。なぜなら、完璧にデータセットを分類できても、ほかのデータセットで試して [続きを読む]
  • 決定木はどのように分岐を作っていくのか?
  • 決定木の分岐(ノード)を作るときどのような計算をしているのか?Gini不純度を計算している。Gini不純度とは何か?簡単に紹介。Gini不純度とは何か?どんな計算をしているのか?Gini不純度とは、ある特徴でデータを2分割するときに、特徴の要素Aである確率とAでない確率をかけて合計したもの。特徴要素Aだけになるような特徴はGini不純度ゼロで、分割に最適。例えば、ある商品を買ってくれる顧客を予想する決定木を作るとして、性 [続きを読む]
  • エクセルでサンプルサイズ
  • Microsoft Excel(エクセル)でサンプルサイズ計算をできるようにしてみた。エクセルでできるサンプルサイズ計算!下記テーブルをスクロールしてお好みのサンプルサイズ計算を見つけて!PayPalロゴを して購入した後にメールが届くので、メール本文のリンクからダウロード!もし届かない場合は以下からご連絡を。toukeier.hatenablog.com2018年9月13日から新価格 500円から100円にプライスダウン!試験デザインサ [続きを読む]
  • 統計ソフトRのISLRパッケージWeeklyデータの分析例
  • 機械学習で、よりよく推測できるモデルを選ぶ。統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。データの準備ISLRパッケージのWeeklyデータは、S&P500指数の週当たりのリターンのデータ。S&P500とは?9つの変数、1089行のデータから成り立っている。始めに一回だけインストールする。install.packages("ISLR")使うときには呼び出す。library(ISLR)Weeklyデータを確認してみる。> str(Weekly)'dat [続きを読む]
  • 統計ソフトRのISLRパッケージWeeklyデータの分析例
  • 機械学習で、よりよく推測できるモデルを選ぶ。統計ソフトRのISLRパッケージのWeeklyデータで基礎的な機械学習を行ってみた。データの準備ISLRパッケージのWeeklyデータは、S&P500指数の週当たりのリターンのデータ。S&P500とは?9つの変数、1089行のデータから成り立っている。始めに一回だけインストールする。install.packages("ISLR")使うときには呼び出す。library(ISLR)Weeklyデータを確認してみる。> str(Weekly)'dat [続きを読む]
  • 質問・相談はこちらから。
  • 統計ER 質問フォーム統計に関する疑問・質問・相談があれば、以下のフォームから。メールアドレスなど個人情報、相談内容は漏洩なきよう厳重に管理。ブログに質問者や質問の詳細が特定されない内容の記事を掲載することあり。質問、相談は勉強になり、当方の利益になるため無料。*は必須項目です *メールアドレス:*ご質問・ご相談などご自由に: Powered by FormMailer. [続きを読む]
  • Number Needed to Harmはどうやって計算するのか?
  • 有害必要数(Number Needed to Harm, NNH)は、1人の有害事象が起こる人が出現するのに、何かの影響を受けた人が何人必要かという数。NNHを計算するにはどうやるか?使えるシチュエーションは、曝露Aを受ける人受けない人処置Bを受ける人受けない人介入Cを受ける人受けない人などなど。統計ソフトRで計算するなら、以下の自作の関数を使って計算できる。riskdiff.confint 必要な情報をインプットしたら、答えが出る。グループ1 [続きを読む]
  • 統計ソフトRで罹患率比の計算はどうやるのか?
  • 統計ソフトRで、罹患率比の計算は、どうやるのか?どんなパッケージを使えば簡単にできるのか?罹患とは?罹患率とは?罹患(りかん)とは?罹患とは病気にかかること。病気にかかったことは、診断によってわかる場合と、発症によってわかる場合がある。診断とは、外来の診察で下される場合や、血液検査の結果や、CTやMRIの結果で判断される場合などがある。発症とは症状が出ること。冷や汗が出るほど胸痛が起きて数十分続いたと [続きを読む]