はじめてでもわかる

統計解析・データマイニング
      R言語入門

      hamadakoichi
        濱田 晃一

 統計解析・データマイニング + WEB 勉強会
         第1回

        2010/02/13
自己紹介


・ID: hamadakoichi
  (Hatena/Twitter/YouTube/Skype)
  濱田晃一


・専門:理論物理学(量子統計場の理論). 博士(2004.3)
  Ph.D.Thesis : http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf
・業務:業務プロセスに関する統計解析・実行制御など
・趣味:Hip Hop Dance/ House Dance を13年
  Youtube: http://www.youtube.com/hamadakoichi
・Blog: http://d.hatena.ne.jp/hamadakoichi
・Twitter: http://twitter.com/hamadakoichi
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
Rとは

             オープンソースの
          統計解析・データマイニング環境

      ・Open Source
      ・Free Software
      ・統計解析の言語・開発実行環境
      ・Ross Ihaka and Robert Gentleman (1996)
      ・S言語クローン. 高速
      ・各種Interface : SAS, SPSS, S-PLUS, RDBMS…
      ・Object型言語
Rとは


  各種統計解析・データマイニングが容易に行えます
例:時系列解析
ソースコード




実行結果
Rとは


      R Console や Eclipse上で実行できます
                                 StatET Eclipse plug-in
  R Console            Eclipse   R-Script 実行




              R Graphic Window
Rとは


                  各種環境設定の方法


      ・R のインストール・環境設定
       http://d.hatena.ne.jp/hamadakoichi/20100103/1262511121


      ・R を Eclipseで使う方法
       http://d.hatena.ne.jp/hamadakoichi/20100110/1263127663


      ・Java R Interface (JRI) を用い
       統計解析環境 R を Java から使用する
       http://d.hatena.ne.jp/hamadakoichi/20100111/1263227076
本資料内のRソースコード

           本資料内で挙げてある Rソースコードは
             以下のエントリに記載しています

   hamadakoichi blog : http://d.hatena.ne.jp/hamadakoichi

  内容              リンク
  データ構造           R言語プログラミング: データ型・操作
  データ入出力          R言語プログラミング: データ入出力
  データ演算           R言語プログラミング: 基本演算子・初等関数
                  R言語プログラミング: データ結合
  基本統計量 算出        R言語プログラミング: 基本統計量の算出
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
データ構造


                        Rのデータ型
                    型            概要
        integer            整数
        numerical          実数
        complex            複素数
        character          文字
        logical            論理値
        vector             ベクトル
        matrix             行列(同一型要素)
        data frame         行列(任意型要素)
        array              配列
        list               リスト
データ構造

          Vector
        1次元のデータセット
データ構造

          Matrix
        同一型要素の行列
データ構造

          Matrix
        同一型要素の行列
データ構造

        Data Frame
        任意型要素の行列
データ構造

        Array
        配列
データ構造

        List
        リスト
データ構造


        データ型の確認
データ構造


        データ型の確認
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
データの入出力

種類     方法            関数                        説明
入力   エディタ入力   edit          エディタで編集。保存には代入が必要
              fix           エディタで編集
     ファイル読込   read.table    小・中規模データの読込みに適している
                            (テキスト)
              read.csv      小・中規模データの読込みに適している
                            (CSV)
              scan          大規模データの読込みに適している
              他             foreign packageでSAS, SPASS, Stata,S-PLUSファ
                            イル形式もサポート
出力   ファイル出力   write         通常の出力
              write.table   Data Frameを出力(テキスト)。テキストは” ”で囲
                            まれ、数値データはそのまま出力
              write.csv     Data Frameを出力(CSV)
              sink          コンソールに返される内容を出力
データの入出力

種類     方法            関数                        説明
入力   エディタ入力   edit          エディタで編集。保存には代入が必要
              fix           エディタで編集
     ファイル読込   read.table    小・中規模データの読込みに適している
                            (テキスト)
              read.csv      小・中規模データの読込みに適している
                            (CSV)
              scan          大規模データの読込みに適している
              他             foreign packageでSAS, SPASS, Stata,S-PLUSファ
                            イル形式もサポート
出力   ファイル出力   write         通常の出力
              write.table   Data Frameを出力(テキスト)。テキストは” ”で囲
                            まれ、数値データはそのまま出力
              write.csv     Data Frameを出力(CSV)
              sink          コンソールに返される内容を出力
エディタによる編集

                   edit
   表計算風のエディタで編集できる。保存には代入が必要




            引数 price は変更されない


            代入先の price2 が変更される
エディタによる編集

                     fix
            表計算風のエディタで編集できる




             引数 price が変更される
データの入出力

種類     方法            関数                        説明
入力   エディタ入力   edit          エディタで編集。保存には代入が必要
              fix           エディタで編集
     ファイル読込   read.table    小・中規模データの読込みに適している
                            (テキスト)
              read.csv      小・中規模データの読込みに適している
                            (CSV)
              scan          大規模データの読込みに適している
              他             foreign packageでSAS, SPASS, Stata,S-PLUSファ
                            イル形式もサポート
出力   ファイル出力   write         通常の出力
              write.table   Data Frameを出力(テキスト)。テキストは” ”で囲
                            まれ、数値データはそのまま出力
              write.csv     Data Frameを出力(CSV)
              sink          コンソールに返される内容を出力
ファイル読込み

            read.table
  小・中規模データの読込みに適している(テキストファイル)
ファイル読込み

             read.csv
   小・中規模データの読込みに適している(CSVファイル)
ファイル読込み

                scan
          大規模データの読込みに適している
データの入出力

種類     方法            関数                        説明
入力   エディタ入力   edit          エディタで編集。保存には代入が必要
              fix           エディタで編集
     ファイル読込   read.table    小・中規模データの読込みに適している
                            (テキスト)
              read.csv      小・中規模データの読込みに適している
                            (CSV)
              scan          大規模データの読込みに適している
              他             foreign packageでSAS, SPASS, Stata,S-PLUSファ
                            イル形式もサポート
出力   ファイル出力   write         通常の出力
              write.table   Data Frameを出力(テキスト)。テキストは” ”で囲
                            まれ、数値データはそのまま出力
              write.csv     Data Frameを出力(CSV)
              sink          コンソールに返される内容を出力
ファイル読込み

           write
          通常の出力
ファイル読込み

                sink
          コンソールに返される内容を出力
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
データ演算


                      算術演算子
演算      演算子   記述例
加算      +     a+b
減算      -     a-b
乗算      *     a*b
除算      /     a/b
べき算     ^     a^b
整数除算 %/%      a%/%b
剰余      %%    a%%b
データ演算


                      比較演算子
演算      演算子   例      第1引数 a     第2引数 b     返り値
より大きい   >     a>b    比較可能ベクトル   比較可能ベクトル   論理値ベクトル
より小さい   <     a<b    比較可能ベクトル   比較可能ベクトル   論理値ベクトル
以上      >=    a>=b   比較可能ベクトル   比較可能ベクトル   論理値ベクトル
以下      <=    a<=b   比較可能ベクトル   比較可能ベクトル   論理値ベクトル
等しい     ==    a==b   比較可能ベクトル   比較可能ベクトル   論理値ベクトル
等しくない   !=    a!=b   比較可能ベクトル   比較可能ベクトル   論理値ベクトル
データ演算


        比較演算子
データ演算


                            論理演算子
演算         演算    例          第1引数 x    第2引数 y    返り値
           子
否定         !     !x         論理値ベクトル   -         論理値ベクトル
論理積        &&    x && y     論理値ベクトル   論理値ベクトル   論理値
論理和        ||    x || y     論理値ベクトル   論理値ベクトル   論理値
ベクトル化論理積   &     x&y        論理値ベクトル   論理値ベクトル   論理値ベクトル
ベクトル化論理和   |     x|y        論理値ベクトル   論理値ベクトル   論理値ベクトル
排他的論理輪     xor   xor(x,y)   論理値ベクトル   論理値ベクトル   論理値ベクトル
データ演算


        論理演算子
データ演算


                          初等関数
演算        演算子                例
絶対値       abs                abs(a)
自然指数      exp                exp(a)
平方根       sqrt               sqrt(a)
自然対数      log                log(a)
常用対数      log10              log10(a)
四捨五入      round              round(a,3)
三角関数      cos, sin, tan      cos(a), sin(a), tan(a)
逆三角関数 acos, asin, atan       acos(a), asin(a), atan(a)
データ演算


        初等関数
データ演算


        初等関数
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
基本統計量 算出


            基本統計量の算出関数
           基本統計量               関数
      合計              sum
      算術平均            mean
      最大値             max
      最小値             min
      範囲 (最大値 -最小値)   range
      中央値             median
      分散              var
      標準偏差            sd
      分位数             quantile
      統計要約            summary
基本統計量 算出


           基本統計量 算出の実行例
Apply関数

            Apply関数を用い
     データセットの行や列ごとの統計量を算出できる


          apply(X, MARGIN, FUN, ...)
          X:データ
          MARGIN: 行ごとの場合1、列ごとの場合2
          FUN: 統計関数や算出式
データ

         iris(アヤメ)データ
      よい性質を持ち よく使用される




            Iris Sanguinea

       花葉               花びら   種
Apply関数


          データの列ごとの統計量算出
Apply関数


          データの列ごとの統計量算出
Apply関数


          データの列ごとの統計量算出
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
統計データの視覚化


                   グラフ描画関数

             グラフ             よく使われる関数
      棒グラフ            barplot
      円グラフ            pie
      ヒストグラム          hist
      箱ひげ図            boxplot
      折れ線グラフ          matplot
      散布図             plot
      対散布図            pairs
統計データの視覚化

            棒グラフ                                     円グラフ
barplot(c(20,100,30,10,20,45,70,30))          pie(c(25,20,15,15,10,5))




          ヒストグラム                                    箱ひげ図
hist(c(5,20,5,10,10,15,30,60,10,15))   boxplot(count~spray,data=InsectSprays)
統計データの視覚化
                               折れ線グラフ
             matplot(c(1,40,15,8,16,32,64,30,10,0),type="l")




            散布図                                    対散布図
     plot(iris[,1],iris[,3])                     pairs(iris[1:4])
AGENDA

1. Rとは
2. データ構造
3. データ入出力
4. データ演算
5. 基本統計量算出
6. 統計データの視覚化
7. 統計解析・データマイニングの種類
統計解析・データマイニングの種類

      因子・分類・回帰・判別・時系列などの
      各種統計解析・データマイニング手法

                       多次元尺度法 クラスター分析
       アソシエーション分析
                        サポートベクターマシン
     対応分析
                           自己組織化マップ

  主成分分析   因子分析     ニューラルネットワーク
     カーネル法         樹木モデル   集団学習

       非線形回帰分析                時系列分析

          線形回帰分析     非線形判別        生存分析
                      線形判別
統計解析・データマイニングの種類

      因子・分類・回帰・判別・時系列などの
      各種統計解析・データマイニング手法

                       多次元尺度法 クラスター分析
       アソシエーション分析
                        サポートベクターマシン
     対応分析
                           自己組織化マップ

  主成分分析   因子分析     ニューラルネットワーク
     カーネル法         樹木モデル   集団学習

       非線形回帰分析                時系列分析

          線形回帰分析     非線形判別        生存分析
                      線形判別
統計解析・データマイニングの種類


          例:Rによる時系列分析
ソースコード




実行結果
推薦文献
推薦文献リンク



          Rによるデータサイエンス
          ~データ解析の基礎から最新手法まで ~




          Rグラフィックス
          ~Rで思いどおりのグラフを作図するために~




          Rによる統計解析
Fin.
講義後の
参加者の声
 (抜粋)
講義後の参加者の声(抜粋)

・基礎から聞け、内容が分かりやすかったです。
 Rが便利なことを理解できました。
 今後、具体的な用途に関して知りたいです。
 (Web会議システムエンジニア Tさん)


・丁寧な説明で分かりやすかったです。
 データの取り方、実践的な内容を知りたくなりました。
 (3次元グラフィックス エンジニア Mさん)


・変数定義など初歩的な部分から理解でき分かりやすい講義でした。
 今後、高度な分析に関する講義を聞きたいと思います。
 (コンサルタント Yさん)


・内容が分かりやすかった。
 今度は、具体的な統計分析・データマイニング手法の内容に関し
 知りたくなりました。
 (制御システム・インフラ エンジニア Sさん)

More Related Content

PDF
Rにおける大規模データ解析(第10回TokyoWebMining)
PDF
Tokyor60 r data_science_part1
PPTX
データサイエンティスト必見!M-1グランプリ
PDF
Rユーザのためのspark入門
PDF
Oracle Cloud Developers Meetup@東京
PDF
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
PDF
Rあんなときこんなとき(tokyo r#12)
PPTX
R超入門機械学習をはじめよう
Rにおける大規模データ解析(第10回TokyoWebMining)
Tokyor60 r data_science_part1
データサイエンティスト必見!M-1グランプリ
Rユーザのためのspark入門
Oracle Cloud Developers Meetup@東京
統計解析言語Rにおける大規模データ管理のためのboost.interprocessの活用
Rあんなときこんなとき(tokyo r#12)
R超入門機械学習をはじめよう

What's hot (20)

PDF
Intoroduction of Pandas with Python
PDF
mmapパッケージを使ってお手軽オブジェクト管理
PPTX
今さら聞けないHadoop セントラルソフト株式会社(20120119)
PDF
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
PDF
広告配信現場で使うSpark機械学習
ODP
Hadoop for programmer
PPTX
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
PDF
10分で分かるr言語入門ver2.10 14 1101
PDF
Why dont you_create_new_spark_jl
PDF
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
PDF
R入門(dplyrでデータ加工)-TokyoR42
PPTX
Feature Selection with R / in JP
PDF
はじめての「R」
PPTX
[機械学習]文章のクラス分類
PDF
10分で分かるr言語入門ver2.9 14 0920
PDF
2016年6月版データマエショリスト入門
PDF
R による文書分類入門
PDF
データ解析技術入門(R編)
PDF
Rで触れる日本経済~RでVAR編~
PDF
Yamadai.R チュートリアルセッション
Intoroduction of Pandas with Python
mmapパッケージを使ってお手軽オブジェクト管理
今さら聞けないHadoop セントラルソフト株式会社(20120119)
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#5資料
広告配信現場で使うSpark機械学習
Hadoop for programmer
「ビジネス活用事例で学ぶ データサイエンス入門」輪読会#7資料
10分で分かるr言語入門ver2.10 14 1101
Why dont you_create_new_spark_jl
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
R入門(dplyrでデータ加工)-TokyoR42
Feature Selection with R / in JP
はじめての「R」
[機械学習]文章のクラス分類
10分で分かるr言語入門ver2.9 14 0920
2016年6月版データマエショリスト入門
R による文書分類入門
データ解析技術入門(R編)
Rで触れる日本経済~RでVAR編~
Yamadai.R チュートリアルセッション
Ad

Similar to [データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門 (20)

PPT
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
PDF
第1回R勉強会@東京
PDF
初心者講習会資料(Osaka.r#6)
PDF
初心者講習会資料(Osaka.R#5)
PDF
Tokyor23 doradora09
PDF
初心者講習会資料(Osaka.R#7)
PPT
K010 appstat201201
PDF
第8回 大規模データを用いたデータフレーム操作実習(2)
PPTX
統計環境R_はじめの一歩2016
PDF
10min r study_tokyor25
PDF
10min r study_tokyor25
PDF
LET2011: Rによる教育データ分析入門
ODP
第2回R勉強会1
PDF
Nagoya.R #12 入門者講習
PDF
Hiroshimar4_Rintro
PDF
Nagoya.R #8 入門者講習資料
PDF
テーマ別勉強会(R言語)#1.pdf
PDF
Rで学ぶデータマイニングI 第8章〜第13章
PDF
StatGenSummerSchool2023_Rsoftware.pdf
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
第1回R勉強会@東京
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.R#5)
Tokyor23 doradora09
初心者講習会資料(Osaka.R#7)
K010 appstat201201
第8回 大規模データを用いたデータフレーム操作実習(2)
統計環境R_はじめの一歩2016
10min r study_tokyor25
10min r study_tokyor25
LET2011: Rによる教育データ分析入門
第2回R勉強会1
Nagoya.R #12 入門者講習
Hiroshimar4_Rintro
Nagoya.R #8 入門者講習資料
テーマ別勉強会(R言語)#1.pdf
Rで学ぶデータマイニングI 第8章〜第13章
StatGenSummerSchool2023_Rsoftware.pdf
Ad

More from Koichi Hamada (20)

PDF
Anime Generation with AI
PDF
Generative Adversarial Networks @ ICML 2019
PDF
AIによるアニメ生成の挑戦
PDF
Generative Adversarial Networks (GANs) and Disentangled Representations @ N...
PDF
Generative Adversarial Networks (GAN) @ NIPS2017
PDF
DeNAのAI活用したサービス開発
PDF
対話返答生成における個性の追加反映
PDF
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
PDF
NIPS 2016 Overview and Deep Learning Topics
PDF
DeNAの機械学習・深層学習活用した 体験提供の挑戦
PDF
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
PDF
DeNAの大規模データマイニング活用したサービス開発
PDF
『MobageのAnalytics活用したサービス開発』 - データマイニングCROSS2014 #CROSS2014
PDF
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
PDF
複雑ネットワーク上の伝搬法則の数理
PDF
データマイニングCROSS 2012 Opening Talk - データマイニングの実サービス・ビジネス適用と展望
PDF
データマイニングCROSS 第2部-機械学習・大規模分散処理
PDF
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
PDF
"Mahout Recommendation" - #TokyoWebmining 14th
PDF
Mahout JP - #TokyoWebmining 11th #MahoutJP
Anime Generation with AI
Generative Adversarial Networks @ ICML 2019
AIによるアニメ生成の挑戦
Generative Adversarial Networks (GANs) and Disentangled Representations @ N...
Generative Adversarial Networks (GAN) @ NIPS2017
DeNAのAI活用したサービス開発
対話返答生成における個性の追加反映
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
NIPS 2016 Overview and Deep Learning Topics
DeNAの機械学習・深層学習活用した 体験提供の挑戦
Laplacian Pyramid of Generative Adversarial Networks (LAPGAN) - NIPS2015読み会 #...
DeNAの大規模データマイニング活用したサービス開発
『MobageのAnalytics活用したサービス開発』 - データマイニングCROSS2014 #CROSS2014
『Mobageの大規模データマイニング活用と 意思決定』- #IBIS 2012 -ビジネスと機械学習の接点-
複雑ネットワーク上の伝搬法則の数理
データマイニングCROSS 2012 Opening Talk - データマイニングの実サービス・ビジネス適用と展望
データマイニングCROSS 第2部-機械学習・大規模分散処理
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
"Mahout Recommendation" - #TokyoWebmining 14th
Mahout JP - #TokyoWebmining 11th #MahoutJP

Recently uploaded (8)

PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
Vibe Codingを触って感じた現実について.pptx .
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Vibe Codingを触って感じた現実について.pptx .

[データマイニング+WEB勉強会][R勉強会] はじめてでもわかる 統計解析・データマイニング R言語入門

  • 1. はじめてでもわかる 統計解析・データマイニング R言語入門 hamadakoichi 濱田 晃一 統計解析・データマイニング + WEB 勉強会 第1回 2010/02/13
  • 2. 自己紹介 ・ID: hamadakoichi (Hatena/Twitter/YouTube/Skype) 濱田晃一 ・専門:理論物理学(量子統計場の理論). 博士(2004.3) Ph.D.Thesis : http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf ・業務:業務プロセスに関する統計解析・実行制御など ・趣味:Hip Hop Dance/ House Dance を13年 Youtube: http://www.youtube.com/hamadakoichi ・Blog: http://d.hatena.ne.jp/hamadakoichi ・Twitter: http://twitter.com/hamadakoichi
  • 3. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 4. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 5. Rとは オープンソースの 統計解析・データマイニング環境 ・Open Source ・Free Software ・統計解析の言語・開発実行環境 ・Ross Ihaka and Robert Gentleman (1996) ・S言語クローン. 高速 ・各種Interface : SAS, SPSS, S-PLUS, RDBMS… ・Object型言語
  • 7. Rとは R Console や Eclipse上で実行できます StatET Eclipse plug-in R Console Eclipse R-Script 実行 R Graphic Window
  • 8. Rとは 各種環境設定の方法 ・R のインストール・環境設定 http://d.hatena.ne.jp/hamadakoichi/20100103/1262511121 ・R を Eclipseで使う方法 http://d.hatena.ne.jp/hamadakoichi/20100110/1263127663 ・Java R Interface (JRI) を用い 統計解析環境 R を Java から使用する http://d.hatena.ne.jp/hamadakoichi/20100111/1263227076
  • 9. 本資料内のRソースコード 本資料内で挙げてある Rソースコードは 以下のエントリに記載しています hamadakoichi blog : http://d.hatena.ne.jp/hamadakoichi 内容 リンク データ構造 R言語プログラミング: データ型・操作 データ入出力 R言語プログラミング: データ入出力 データ演算 R言語プログラミング: 基本演算子・初等関数 R言語プログラミング: データ結合 基本統計量 算出 R言語プログラミング: 基本統計量の算出
  • 10. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 11. データ構造 Rのデータ型 型 概要 integer 整数 numerical 実数 complex 複素数 character 文字 logical 論理値 vector ベクトル matrix 行列(同一型要素) data frame 行列(任意型要素) array 配列 list リスト
  • 12. データ構造 Vector 1次元のデータセット
  • 13. データ構造 Matrix 同一型要素の行列
  • 14. データ構造 Matrix 同一型要素の行列
  • 15. データ構造 Data Frame 任意型要素の行列
  • 16. データ構造 Array 配列
  • 17. データ構造 List リスト
  • 18. データ構造 データ型の確認
  • 19. データ構造 データ型の確認
  • 20. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 21. データの入出力 種類 方法 関数 説明 入力 エディタ入力 edit エディタで編集。保存には代入が必要 fix エディタで編集 ファイル読込 read.table 小・中規模データの読込みに適している (テキスト) read.csv 小・中規模データの読込みに適している (CSV) scan 大規模データの読込みに適している 他 foreign packageでSAS, SPASS, Stata,S-PLUSファ イル形式もサポート 出力 ファイル出力 write 通常の出力 write.table Data Frameを出力(テキスト)。テキストは” ”で囲 まれ、数値データはそのまま出力 write.csv Data Frameを出力(CSV) sink コンソールに返される内容を出力
  • 22. データの入出力 種類 方法 関数 説明 入力 エディタ入力 edit エディタで編集。保存には代入が必要 fix エディタで編集 ファイル読込 read.table 小・中規模データの読込みに適している (テキスト) read.csv 小・中規模データの読込みに適している (CSV) scan 大規模データの読込みに適している 他 foreign packageでSAS, SPASS, Stata,S-PLUSファ イル形式もサポート 出力 ファイル出力 write 通常の出力 write.table Data Frameを出力(テキスト)。テキストは” ”で囲 まれ、数値データはそのまま出力 write.csv Data Frameを出力(CSV) sink コンソールに返される内容を出力
  • 23. エディタによる編集 edit 表計算風のエディタで編集できる。保存には代入が必要 引数 price は変更されない 代入先の price2 が変更される
  • 24. エディタによる編集 fix 表計算風のエディタで編集できる 引数 price が変更される
  • 25. データの入出力 種類 方法 関数 説明 入力 エディタ入力 edit エディタで編集。保存には代入が必要 fix エディタで編集 ファイル読込 read.table 小・中規模データの読込みに適している (テキスト) read.csv 小・中規模データの読込みに適している (CSV) scan 大規模データの読込みに適している 他 foreign packageでSAS, SPASS, Stata,S-PLUSファ イル形式もサポート 出力 ファイル出力 write 通常の出力 write.table Data Frameを出力(テキスト)。テキストは” ”で囲 まれ、数値データはそのまま出力 write.csv Data Frameを出力(CSV) sink コンソールに返される内容を出力
  • 26. ファイル読込み read.table 小・中規模データの読込みに適している(テキストファイル)
  • 27. ファイル読込み read.csv 小・中規模データの読込みに適している(CSVファイル)
  • 28. ファイル読込み scan 大規模データの読込みに適している
  • 29. データの入出力 種類 方法 関数 説明 入力 エディタ入力 edit エディタで編集。保存には代入が必要 fix エディタで編集 ファイル読込 read.table 小・中規模データの読込みに適している (テキスト) read.csv 小・中規模データの読込みに適している (CSV) scan 大規模データの読込みに適している 他 foreign packageでSAS, SPASS, Stata,S-PLUSファ イル形式もサポート 出力 ファイル出力 write 通常の出力 write.table Data Frameを出力(テキスト)。テキストは” ”で囲 まれ、数値データはそのまま出力 write.csv Data Frameを出力(CSV) sink コンソールに返される内容を出力
  • 30. ファイル読込み write 通常の出力
  • 31. ファイル読込み sink コンソールに返される内容を出力
  • 32. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 33. データ演算 算術演算子 演算 演算子 記述例 加算 + a+b 減算 - a-b 乗算 * a*b 除算 / a/b べき算 ^ a^b 整数除算 %/% a%/%b 剰余 %% a%%b
  • 34. データ演算 比較演算子 演算 演算子 例 第1引数 a 第2引数 b 返り値 より大きい > a>b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル より小さい < a<b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル 以上 >= a>=b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル 以下 <= a<=b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル 等しい == a==b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル 等しくない != a!=b 比較可能ベクトル 比較可能ベクトル 論理値ベクトル
  • 35. データ演算 比較演算子
  • 36. データ演算 論理演算子 演算 演算 例 第1引数 x 第2引数 y 返り値 子 否定 ! !x 論理値ベクトル - 論理値ベクトル 論理積 && x && y 論理値ベクトル 論理値ベクトル 論理値 論理和 || x || y 論理値ベクトル 論理値ベクトル 論理値 ベクトル化論理積 & x&y 論理値ベクトル 論理値ベクトル 論理値ベクトル ベクトル化論理和 | x|y 論理値ベクトル 論理値ベクトル 論理値ベクトル 排他的論理輪 xor xor(x,y) 論理値ベクトル 論理値ベクトル 論理値ベクトル
  • 37. データ演算 論理演算子
  • 38. データ演算 初等関数 演算 演算子 例 絶対値 abs abs(a) 自然指数 exp exp(a) 平方根 sqrt sqrt(a) 自然対数 log log(a) 常用対数 log10 log10(a) 四捨五入 round round(a,3) 三角関数 cos, sin, tan cos(a), sin(a), tan(a) 逆三角関数 acos, asin, atan acos(a), asin(a), atan(a)
  • 39. データ演算 初等関数
  • 40. データ演算 初等関数
  • 41. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 42. 基本統計量 算出 基本統計量の算出関数 基本統計量 関数 合計 sum 算術平均 mean 最大値 max 最小値 min 範囲 (最大値 -最小値) range 中央値 median 分散 var 標準偏差 sd 分位数 quantile 統計要約 summary
  • 43. 基本統計量 算出 基本統計量 算出の実行例
  • 44. Apply関数 Apply関数を用い データセットの行や列ごとの統計量を算出できる apply(X, MARGIN, FUN, ...) X:データ MARGIN: 行ごとの場合1、列ごとの場合2 FUN: 統計関数や算出式
  • 45. データ iris(アヤメ)データ よい性質を持ち よく使用される Iris Sanguinea 花葉 花びら 種
  • 46. Apply関数 データの列ごとの統計量算出
  • 47. Apply関数 データの列ごとの統計量算出
  • 48. Apply関数 データの列ごとの統計量算出
  • 49. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 50. 統計データの視覚化 グラフ描画関数 グラフ よく使われる関数 棒グラフ barplot 円グラフ pie ヒストグラム hist 箱ひげ図 boxplot 折れ線グラフ matplot 散布図 plot 対散布図 pairs
  • 51. 統計データの視覚化 棒グラフ 円グラフ barplot(c(20,100,30,10,20,45,70,30)) pie(c(25,20,15,15,10,5)) ヒストグラム 箱ひげ図 hist(c(5,20,5,10,10,15,30,60,10,15)) boxplot(count~spray,data=InsectSprays)
  • 52. 統計データの視覚化 折れ線グラフ matplot(c(1,40,15,8,16,32,64,30,10,0),type="l") 散布図 対散布図 plot(iris[,1],iris[,3]) pairs(iris[1:4])
  • 53. AGENDA 1. Rとは 2. データ構造 3. データ入出力 4. データ演算 5. 基本統計量算出 6. 統計データの視覚化 7. 統計解析・データマイニングの種類
  • 54. 統計解析・データマイニングの種類 因子・分類・回帰・判別・時系列などの 各種統計解析・データマイニング手法 多次元尺度法 クラスター分析 アソシエーション分析 サポートベクターマシン 対応分析 自己組織化マップ 主成分分析 因子分析 ニューラルネットワーク カーネル法 樹木モデル 集団学習 非線形回帰分析 時系列分析 線形回帰分析 非線形判別 生存分析 線形判別
  • 55. 統計解析・データマイニングの種類 因子・分類・回帰・判別・時系列などの 各種統計解析・データマイニング手法 多次元尺度法 クラスター分析 アソシエーション分析 サポートベクターマシン 対応分析 自己組織化マップ 主成分分析 因子分析 ニューラルネットワーク カーネル法 樹木モデル 集団学習 非線形回帰分析 時系列分析 線形回帰分析 非線形判別 生存分析 線形判別
  • 56. 統計解析・データマイニングの種類 例:Rによる時系列分析 ソースコード 実行結果
  • 58. 推薦文献リンク Rによるデータサイエンス ~データ解析の基礎から最新手法まで ~ Rグラフィックス ~Rで思いどおりのグラフを作図するために~ Rによる統計解析
  • 59. Fin.
  • 61. 講義後の参加者の声(抜粋) ・基礎から聞け、内容が分かりやすかったです。 Rが便利なことを理解できました。 今後、具体的な用途に関して知りたいです。 (Web会議システムエンジニア Tさん) ・丁寧な説明で分かりやすかったです。 データの取り方、実践的な内容を知りたくなりました。 (3次元グラフィックス エンジニア Mさん) ・変数定義など初歩的な部分から理解でき分かりやすい講義でした。 今後、高度な分析に関する講義を聞きたいと思います。 (コンサルタント Yさん) ・内容が分かりやすかった。 今度は、具体的な統計分析・データマイニング手法の内容に関し 知りたくなりました。 (制御システム・インフラ エンジニア Sさん)