統計ER さん プロフィール

  •  
統計ERさん: 統計ER
ハンドル名統計ER さん
ブログタイトル統計ER
ブログURLhttps://toukeier.blogspot.jp/
サイト紹介文統計に関する疑問・質問・相談のEmergency Room「統計ER」やってます。
参加カテゴリー
更新頻度(1年)情報提供37回 / 26日(平均10.0回/週) - 参加 2018/04/29 09:37

統計ER さんのブログ記事

  • 統計ソフトRでヒストグラムを描くには?histogram
  • ヒストグラム(histogram)を描く統計ソフトRでヒストグラムを描くには、hist()でOK。実に簡単。ヒストグラムというのは、いくつかのカテゴリに区切って、データの分布をグラフで見てみる方法。統計ソフトRでは、カテゴリに区切るのを自動でやってくれるのがありがたい。例えば、年齢のデータがあるとして、5歳刻みにするか、10歳刻みにするか、はたまた、もっと微妙な刻みにするか、なんて考えなくていい。適切な刻みでグラフを作 [続きを読む]
  • 統計ソフトRでいくつかのグラフを並べて描く方法は?layout
  • 超重要:いくつかのグラフを並べて描く layout()グラフを並べて描きたいと思うことは多い。統計ソフトRなら、縦だろうと横だろうと、2つだろうと4つだろうと、自由自在にレイアウトできる。グラフを縦に2つ並べる layout(1:2)layout(1:2)tapply(sleep$extra, sleep$group, hist) グラフを横に2つ並べる layout(t(1:2)layout(t(1:2)) tapply(sleep$extra, sleep$group, hist) グラフを4つ並べる(左上、左下、右上、右下の順)layo [続きを読む]
  • 統計ソフトRで相関係数を計算するには?correlation
  • 統計ソフトRで、分布図、相関係数計算、相関係数検定をやってみた。統計ソフトRで散布図を描くには?中間テストと期末テストの点数には、相関性があるか?見てみよう。chukan kimatu plot(chukan, kimatu, xlim=c(0,100), ylim=c(0,100), pch=16, cex=1.3) 統計ソフトRで相関係数の計算と母相関係数ゼロの検定は?相関係数を計算すると、相関係数0.92の強い相関。母相関係数がゼロの帰無仮説はもちろん棄却。p値は0.00002335で統計 [続きを読む]
  • 統計ソフトRで文字列を操作する handling character data
  • 統計ソフトRに限らず、ソフトウェアは、このデータが文字なのか、数値なのかを厳密に分けて対応している。なので、同じ数字であっても、数値として認識されていれば計算できるが、文字として認識されれば、計算できない。同じ1,2,3,4,5であっても、計算できる数値として認識されるか、単なるアラビア数字の文字として認識されるか、で大きく異なるのだ。文字列ベクトルの結合統計ソフトRでは、paste()で文字列を操作できる。例えば [続きを読む]
  • 統計ソフトRでデータの正規性の確認はどうやるのか?normality
  • データの正規性とは、データが正規分布しているかどうかのこと。正規分布を前提にした統計手法が多いため、データが正規分布をしているかどうかが問題になることが多い。正規分布かどうかの検定データが正規分布しているかどうかの検定には、Shapiro-Wilk test (シャピロ・ウィルクの検定)がある。帰無仮説は「正規分布している」。なので、棄却されないほうがいい。しかし、お気づきかもしれないが、統計学的有意でなかった場合 [続きを読む]
  • データを眺めてみるには?mean, sd, median, skewness, kurtosis
  • 平均と標準偏差統計ソフトRで、平均値は、mean()で算出する。標準偏差は、sd()で計算する。sdはstandard deviationの略。平均値と標準偏差の値の関係で、データの分布を大まかに推測できる。平均値が標準偏差の3倍あれば、だいだい正規分布している。正規分布をしていれば、平均値に±標準偏差の2倍の範囲に、データの約95%が収まる。> mean(chickwts$weight)[1] 261.3099> sd(chickwts$weight)[1] 78.0737平均を標準偏差で割って [続きを読む]
  • データフレームの操作ってどうやる?data frames
  • データフレームとは?統計ソフトRの中で、データフレームとは、データの一つの塊を言っている。それも、変数名がついて、何列かのデータのことだ。エクセルで言えば、A、B、Cと列が並んでいるところに、Aには、年齢Bには、性別Cには、居住地などのデータが入っているとする。データを取得した人が100人だったとする。この100人の年齢、性別、居住地の一塊が、データフレームだ。エクセルのファイルをタブ区切りにテキストに変換し [続きを読む]
  • Rにデータを読み込むにはどうしたらいいか? Read the data file
  • 統計ソフトRにデーを読み込むには?統計ソフトRのとっかかりにくさの一つに、データファイルの読み込み方の難しさがある。WindowsやMacしか触れたことがない人が増えた。パスとかディレクトリとか言われても、( ゚д゚)ぽか〜ん例えば、Windows10で、Cドライブの直下にdataというフォルダを作って、そこにデータファイルを置くとする。データの置き場所がC:/data、StantonAGrantz-anova-tukey-dunnett.txtがデータファイルの名前。 [続きを読む]
  • ライブラリって何?どう使うの?library
  • 統計ソフトRでlibraryはよく使う関数だ。library()ライブラリは、辞書の定義だと、  〔コンピュータ〕ライブラリー:   プログラムやデータなどをひとまとまりに登録したファイル.出典:Progressive English-Japanese Dictionary, Third edition Shogakukan 1980,1987,1998/プログレッシブ英和中辞典 第3版 小学館 1980,1987,1998である。統計ソフトRでは、library()で必要なプログラムを呼び出す指令になる。例を挙げると、 [続きを読む]
  • 連続した数を発生させるには?Sequence generation
  • 連続した数を使いたいとき、どうしたらいいか?たとえば0から1まで、0.05ずつ刻んだ数が欲しい。そんなとき、統計ソフトRでは、seq()という関数を使う。Sequenceの頭3文字だね。同じ数列を作るのに、いろいろな方法がとれる。一番単純に書きたいね。(x1 (x2 (x3 (x4 ちなみに全体を()でくくっているのは、結果をコンソールに示すため。変数を作成するだけなら、x1 x2 x3 x4 だけでOK。結果はみんな一緒。> (x1 [1] 0.00 0.05 0. [続きを読む]
  • 有害必要数 Number Needed to Harmはどうやって計算するの?
  • 有害必要数(Number Needed to Harm, NNH)は、1人の有害事象が起こる人が出現するのに、何かの影響を受けた人が何人必要かという数。使えるシチュエーションは、曝露Aを受ける人受けない人処置Bを受ける人受けない人介入Cを受ける人受けない人などなど。統計ソフトRで計算するなら、自作の関数を作って計算できる。riskdiff.confint p1 p2 diff se LL UL NNH NNH.LL NNH.UL c( round(c(Prop.G1=p1,Prop.G2=p2,Difference=diff,LL. [続きを読む]
  • ロジスティック回帰分析で変数選択はどうやる?bestglm
  • 統計ソフトRを使って、多重ロジスティック回帰分析でBICを使って、簡単に変数選択ができる。BICは、Bayesian Information Criterionの頭文字語。統計モデルへのあてはまりを検討するときに、変数が多すぎると評価が下がる規準になっている。変数が多ければ多いほど、統計モデルへのあてはまりはよくなるが、新たなデータでの予測には向かなくなるし、そもそも複雑より単純なモデルで記述できたほうがいい。まずbestglmをインストー [続きを読む]
  • 重回帰分析で簡単に変数選択する方法は?bestglm
  • 重回帰分析で変数選択は苦労するもの。統計ソフトRで重回帰分析をする場合に、いいプログラムを見つけた。その名もbestglm。ま、そのまんまだね。AIC, BIC(デフォルト), BICqなどのInformation Criterionを使ってベストの変数の組み合わせを見つけてくれるすぐれもの。bestglmのヘルプにあるznuclearデータで試してみよう。事前にインストールしておいたあとbestglmを呼び出す。library(bestglm) データフレームの構造をみるなら、 [続きを読む]
  • Rにパッケージ(Package)のインストール(Install)って何?
  • 統計ソフトRはパッケージをインストールするとさらに強力になる!無料の統計ソフトRは、最初からかなりいろいろなことができます。世界一最強の統計ソフトだけにすごいのです。ですが、もっとすごいのは、あとからパッケージをインストールして、さらにいろいろな解析ができるようになることです。統計ソフトRは追加パッケージをインストールする前からすごい!まず、新しいパッケージをインストールしなくてもできる統計解析を挙 [続きを読む]
  • 無料統計ソフトRを使った簡単な計算
  • 無料統計ソフトRを使った簡単な計算の方法を動画で紹介しました。足し算、引き算、掛け算、割り算、累乗、自然対数、平方根です。コマンドラインに書いてエンターキーを押して計算させるこれだけで、簡単に計算ができちゃいます。少しずつ覚えていけば、すぐに研究レベルの統計解析ができるようになれます。千里の道も一歩より、ですね。 いいなと思ったら、ぜひシェアをお願いします。 [続きを読む]
  • 統計ソフトRで罹患率比 incidence rate ratio の計算はどうやるの?
  • 統計ソフトRで、罹患率比の計算は、どうやるのでしょうか?どんなパッケージを使えば簡単にできるのでしょうか?罹患率比はいいけど、その前に、罹患率とは?罹患とは?罹患(りかん)って何?罹患とは病気にかかることです。病気にかかったことは、診断によってわかる場合と、発症によってわかる場合があります。診断とは、外来の診察で下される場合や、血液検査の結果や、CTやMRIの結果で判断される場合など、さまざまです。 [続きを読む]
  • 最大マージン分類器とは?
  • 最大マージン分類器とは何でしょうか?調べてみました。最大マージン分類器とは?最大マージン分類器とは、マージンを最大化する分類器のことです。では、マージンとは何でしょうか?マージンとは、データを分類する境界線からデータまでの距離のことです。データを区切る境界線はいくつか引くことができますが、データからの距離が最大化するように規定された境界線が、最大マージン分類器と呼ばれます。参考ウェブサイト:サポー [続きを読む]
  • Rでダネット検定 Dunnett test をするには?
  • 統計ソフトRでダネット検定 Dunnett testをするにはどうしたらよいのでしょうか?ダネット検定は、比較対照群といくつかの実験群を多重比較する方法ですね。比較対照群との比較を繰り返すのは不適切なので、ダネット検定が必要になります。統計ソフトRでダネット検定をするには?まずmultcompパッケージをインストールします。インストールは一回だけでOKです。ポップアップ画面が出たら、Japanを選んでください。install.packages [続きを読む]
  • RでランダムフォレストrandomForestのtuneRFはどう使うの?
  • 統計ソフトRのランダムフォレストパッケージrandomForestには、tuneRFというプログラムがあります。tuneRFはどのように使うのでしょうか?ランダムフォレストのチューニングとはどんなものでしょうか?インストールは最初の一回だけです。install.packages("randomForest")ランダムフォレストのパッケージrandomForestを呼び出します。library(randomForest)MASSパッケージの中のfglというデータを使います。fglはForensic Glass F [続きを読む]
  • Rでランダムフォレスト random forestを行うには?
  • 統計ソフトRでランダムフォレストを実行するにはどうすればよいでしょうか?パッケージはrandomForestを使います。きれいな決定木を作成するパッケージpartykitも使いましょう。#インストールは最初の一回だけです。install.packages("randomForest")install.packages("partykit")#使うパッケージrandomForestとpartykitを呼び出します。library(randomForest)library(partykit)#ランダムシードを指定して再現性を持たせます。set. [続きを読む]
  • RのadabagパッケージでバギングBaggingを行うには?
  • 統計ソフトRのadabagパッケージを使ってバギングBaggingを行うには、どうすればよいでしょうか?adabagのヘルプのスクリプトを使って説明します。まず、install.packages("adabag")でadabagパッケージをインストールしてください。たくさんのパッケージが同時にインストールされますので、少し放っておきましょう。そのあとはlibrary(adabag)でadabagを使えるようにします。seedを決めていつも同じ結果が出るようにしてから、50区 [続きを読む]