starpentagon さん プロフィール

  •  
starpentagonさん: 有意に無意味な話
ハンドル名starpentagon さん
ブログタイトル有意に無意味な話
ブログURLhttp://starpentagon.net/analytics/
サイト紹介文統計、データマイニング、最適化など世の中の95%以上の人は関心を持たなさそうな話を書ています
参加カテゴリー
更新頻度(1年)情報提供61回 / 365日(平均1.2回/週) - 参加 2016/12/03 00:56

starpentagon さんのブログ記事

  • Kaggle Titanicチュートリアル: 基礎集計編
  • 続いて学習/評価データの基礎集計をしていきます。基礎集計では異常値(定義上、ありえない値)がないか分布の確認外れ値がないか頻度の少ないデータがないか学習、評価データで分布に偏りがないかを確認し、適切な前処理を検討することがポイントです。なお、notebookはGithubにアップしています。生存フラグ(Survived)0 or 1の数値が入っており学習データ891人中の生存者は342人(38%)です。乗客の4割しか生存できなかったと考え [続きを読む]
  • Kaggle Titanicチュートリアル: データ確認編
  • データ分析と聞くと機械学習アルゴリズムを使ったモデル構築に目がいきますが、どのアルゴリズムが使えそうかアルゴリズムに適した形にデータ整形するには分析対象のデータの内容をきちんと理解しておくことが重要です。そこで、分析の第一歩としてデータ定義の確認データ内容の確認欠損データの確認をしていきます。データ定義の確認Titanicチュートリアルでは乗客ごとに性別などの情報が提供されています。チュートリアルのサイ [続きを読む]
  • Kaggle Titanicチュートリアル: 環境構築編
  • ここでは分析を始めるために必要な学習/評価データのダウンロード分析環境準備について説明します。学習/評価データのダウンロード「Data」のページに行くとデータ定義と説明学習/評価データと予測結果のサンプルが提供されています。特にデータの内容で不明点があれば必ずここのデータ定義に立ち返って確認するようにしましょう。自分でデータを確認しながらデータ定義とその内容についてまとめておくのもオススメです。さて、 [続きを読む]
  • Kaggle Titanicチュートリアル: 準備編
  • ここではKaggle Titanicチュートリアルを始めるにあたって必要なKaggleアカウントの作成/サインインTitanicチュートリアルの内容/ルール確認について説明します。Kaggleのアカウント作成/サインインまずKaggleのアカウントがないと何も始まらないのでまだアカウントがない人はアカウントを作成しましょう。Kaggleのトップページにある「Regisgter with just one click」でGoogle, Facebook, Yahooのアカウントと連携するか、E-m [続きを読む]
  • Kaggle Titanicチュートリアルでみる機械学習のポイント
  • 世界最大の分析コンペティションサイトKaggleでは、機械学習およびKaggleのチュートリアルとして「Titanic: Machine Learning from Disaster」が用意されています。このチュートリアルでは映画でも有名なタイタニック号の沈没事故を題材に乗客の情報(性別、年齢、客室のグレードなど)から生存者を予測することが目標です。生存者を予測するには欠損値などのデータハンドリング地道なデータ理解と特徴量生成過学習に陥らないよう [続きを読む]
  • 確率変数の相関係数
  • 2つの確率変数が直線関係があるかを示す指標として相関係数(correlation coefficient)があります。単に「相関係数」という場合には2つのデータ系列[math](x_i, y_i), i=1,dots,n[/math]間の直線関係を表す「ピアソンの積率相関係数」が有名ですがここでは確率変数[math]X, Y[/math]の相関係数について定義と以下の性質スケール不変性とりうる値の範囲[math]X, Y[/math]の線形性との関係[math]X, Y[/math]の独立性との関係を紹介 [続きを読む]
  • 【統計検定2級】2018年6月過去問 解答例
  • 2018年6月開催分の解答例です。前回に続き今回も仮説検定や区間推定からの出題が多くありました。内容も定義を正確に暗記統計量等を正確に算出算出結果を適切に評価できることが要求されており難度が高いです。今後もこの傾向が続きそうなので受験される方はきちんと準備をしておいた方が良さそうです。問1[1]偏差が「平均からの差」、標準化得点が「平均0、分散1に正規化した値」であることと縦軸の範囲が-2〜2-20〜3030〜80であ [続きを読む]
  • AIビジネスの法律実務(人工知能法務研究会 編)
  • AIビジネスの法律実務AIはどうしても「技術的にこんなことができる」という話が先行しますが、ビジネス活用にあたってはAIを構築する際の第三者が著作権を持つ学習データを利用してよいのか構築したAIをどう権利保護するかAIが想定外の挙動をした場合の責任はどうなるのかAIが資格が必要な行為(医療行為、法律文書作成など)を行えるかなど「できる/できない」ではなく「やって良い/悪い」といった法律面も考慮する必要がありま [続きを読む]
  • データの尺度水準
  • 調査から得たデータは4つの尺度水準名義尺度順序尺度間隔尺度比例尺度に分けられます。データに対して可能な演算(ex. 足し算、掛け算や平均を取るなど)は尺度水準に依存し、要約統計量や検定法は尺度水準に応じて適切に選定する必要があります。統計の教科書では最初の方に出てくるため忘れやすく、間違った要約統計量を使ってしまうことも多いので、ここでは改めてその定義と適用可能な演算、統計量についてまとめます。名義尺 [続きを読む]
  • Python(Pandas)でのビン分割(binning)方法
  • 数値データを適当な境界で区切りカテゴリデータ化することをビン分割(binning)と呼びます。例えば「年齢」をざっくり「年代」としてみることで傾向が捉えやすくなるなど機械学習ではよく行われる前処理の一つです。pandasでは数値データをビン分割する方法として指定した境界値でビン分割含まれるデータ数が同一になるようにビン分割が提供されておりここではその使い方を紹介します。なお、こちらで紹介したPythonスクリプトをG [続きを読む]
  • 金融データサイエンス(三菱UFJトラスト投資工学研究所 編)
  • 実践 金融データサイエンス 隠れた構造をあぶり出す6つのアプローチ本書では金融におけるデータ分析がビッグデータ/AIの発展でどのように進化したかを紹介しています。金融系のお客様と仕事する機会があり読んだのですが最近の動向、ネタを仕入れるのに適した本だと思います。まず金融データの変化、拡大を概観した後に活用事例が紹介されています。テーマは企業間の取引関係をネットワーク構造化し、その情報をもとに株価予測CSR [続きを読む]
  • Jupyter notebookをリモートで利用する
  • 分析環境の定番であるJupyter notebookで分析処理を実行するマシン(サーバ側)分析結果を確認するマシン(クライアント側)と分けて運用する方法を紹介します。私の場合だとパラメタチューニングで大量の並列処理をする時やGPU処理をする時に自室に置いてある分析用マシンで処理ノートPCから処理の指示/結果確認ということをしています。ちょっとした設定をするだけで重い計算を別マシンで実行し、結果を手元のPCで確認できると [続きを読む]
  • Condaの仮想環境をJupyter Notebookから利用する
  • Anacondaにはcondaという環境管理機能が用意されており用途に応じてPython環境を使い分けることができます。(仮想環境の構築/管理方法は「AnacondaでのPython仮想環境の構築」を参照ください。)ここではcondaで作った仮想環境をJupyter notebookで利用する方法を紹介します。前提Anacondaはインストール済みとします。動作はMac(OS: High Sierra)とWindows 7で確認しています。なお、コマンド操作はそれぞれ以下で行います。Mac [続きを読む]
  • ILSVRC論文(全体編)
  • 良質かつ大規模な画像データセットの代名詞でもあるImageNetを使った画像認識コンペティションがImageNet Large Scale Visual Recognition Challenge(ILSVRC)です。2010年から開催されており2012年にHinton先生らのチームがAlexNetで圧勝し大きな注目集めたのを皮切りに毎年のように新しいモデルが登場しDeep Learning躍進の舞台となったコンペです。本論文はその名も「ImageNet Large Scale Visual Recognition Challenge」という [続きを読む]
  • Macでセグメンテーション技術Mask R-CNNを動かす
  • 画像セグメンテーション(Semantic segmentation)技術として注目を集めている「Mask R-CNN」をMacで動かす機会があったのでその手順を紹介します。Python3, TensorFlow, Kerasを使った実装(「Mask R-CNN for Object Detection and Segmentation」)を利用し、学習済みのパラメタを使うことで簡単にセグメンテーションを試すことができました。実行環境以下の環境で動作をさせています。Mac: MacBook Air 2013 MidOS: High Sierra [続きを読む]
  • Macで物体検知アルゴリズムYOLO V3を動かす
  • 物体検知(object detection)アルゴリズムとして有名なYOLO(You Only Look Once)のバージョンが上がりYOLO V3がリリースされました。YOLO V2も高速/高精度でしたがさらなる高速化、高精度化がなされています。MacでYOLO V3を使って画像の物体検知動画の物体検知内蔵カメラを使ったリアルタイム物体検知を行う機会があったのでその手順を紹介します。実行環境以下の環境で動作をさせています。Mac: MacBook Air 2013 MidOS: High [続きを読む]
  • AnacondaでのPython仮想環境の構築
  • Anacondaにはcondaという環境管理機能が用意されており用途に応じてPython環境を使い分けることができます。特にDeep Learning系のフレームワークは関連モジュールを特定バージョンに揃えておく必要があり、Pythonの仮想環境化は必須といっても良いでしょう。ここでは、よく使うPython仮想環境の作成/管理機能を紹介します。Anacondaのインストールまず、Anacondaをインストールします。AnacondaのダウンロードページからPython 3 [続きを読む]
  • 標本抽出法
  • 統計検定2級では毎回のように標本抽出法の問題が出題されています。ここでは主要な標本抽出法の概要と特徴をまとめ、統計検定2級での出題例を解説します。標本抽出について推測統計学では母集団から一部を抽出し、抽出した集団の性質から母集団の性質を推測します。母集団から標本を抽出する方法として以下の手法単純無作為抽出法系統抽出法層化無作為抽出法多段抽出法クラスター抽出法が知られておりそれぞれメリット、デメリット [続きを読む]
  • CIFAR-10データセット
  • CIFAR-101)「サイファー・テン」や「シーファー・テン」と呼びます。はAlexNetで有名なAlexさんらが構築したもので80 million tiny imagesから飛行機、犬など10クラス学習用データ5万枚評価用データ1万枚を抽出したデータセットです。TensorFlowのチュートリアルにも含まれており触ってみる機会の多いデータセットだと思います。手書き数字を集めたMNISTと比べ「飛行機」や「犬」など一般の物体が写った画像が対象になり画像認識ら [続きを読む]
  • MNISTデータセット
  • MNIST1)「エムニスト」と呼びます。はDeep Learningや機械学習のチュートリアルで頻繁に登場するデータセットで、28×28ピクセルのグレースケール(8bit)の手書き数字(0-9)画像が学習用: 6万枚評価用: 1万枚収録されています。元々はNISTと呼ばれる手書き文字を集めたデータセットから数字データを抜き出したものになっています。入手方法Yann LeCun先生の「THE MNIST DATABASE of handwritten digits」が公式ページで学習用/評価 [続きを読む]
  • MNISTデータセット
  • MNIST1)「エムニスト」と呼びます。はDeep Learningや機械学習のチュートリアルで頻繁に登場するデータセットで、28×28ピクセルのグレースケール(8bit)の手書き数字(0-9)画像が学習用: 6万枚評価用: 1万枚収録されています。元々はNISTと呼ばれる手書き文字を集めたデータセットから数字データを抜き出したものになっています。入手方法Yann LeCun先生の「THE MNIST DATABASE of handwritten digits」が公式ページで学習用/評価 [続きを読む]
  • OneVsRestClassifierのチューニング方法
  • Pythonの機械学習ライブラリscikit-learnには2クラス分類モデルを複数用いて多クラス分類を行うOneVsRestClassifierが用意されています。また、パラメタチューニングの仕組みとしてGridSearchCVが提供されていますが、そのまま使うとOneVsRestClassifierのパラメタしか動かせません。ここではOneVsRestClassifier内部で使われる2クラス分類モデルをGridSearchCVでチューニングする方法を紹介します。実行例としてDigitsデータセッ [続きを読む]