If you are not redirected automatically, follow this link/a>.
If you are not redirected automatically, follow this link/a>.
追記(2017年8月) こちらの記事へのアクセスが未だに多いようですが、書かれてから既に4年が経過しており業界事情もだいぶ様変わりしております。このブログの「データサイエンティスト」カテゴリの他の新しい記事も是非ご覧ください。 以前の記事の続き再び。前回に引き続きまさにお題の通りで「未経験者はどうすればデータサイエンティストになれるか」ということなんですが、 そんな方法論あったら誰も苦労しねーよ。 ってのはウソ。笑 とは言え、僕自身「自分はデータサイエンティスト」と嘯くぐらいのことはできますが*1、かと言って本当にデータサイエンティストって言えるの?と真顔で迫られたら色々もにょることもあるわけで*2。ある意味僕も未経験者からデータサイエンティストと称される職種に転じた人間なので。 もっとも、僕は一方でアカデミック業界にいた頃はデータマイニングを駆使するquantitative resear
実験はギャンブルのようなもので、 どんな結果が出るかはわからないが、 実験計画を立てる。 「2群に差がない!」という帰無仮説を立てる。 群間のサンプルの選択は公平にしなければならないが、 勝率が高くなるような実験計画をデザインも必要である。 生物実験では、物理科学実験とは異なり、 得られるデータは必然的にばらつきを伴う。 測定者による誤差 ---実験技術の向上に伴い、 データの信頼度は上がる! 測定装置、あるいは測定方法による誤差 測定されるものの性質による個体差
4月3日、オープンソースの統計解析ツール「R」開発チームは最新版となる「R 3.0.0」(開発コード「Masked Marvel」)のリリースを発表した。2^31-1以上の要素を持つベクトル(Long Vector)のサポートなどが加わっている。 Rは統計や解析処理、グラフ化のための言語および実行環境。WindowsやMac OS X、Linuxなどで利用できる。GNU Projectの1つで、動的型付け、オブジェクト指向などの特徴を持ち、データの操作、計算、グラフィック表示などの機能も統合されている。拡張性が高く、関連パッケージが豊富に用意されている点も特徴で、パッケージはCRAN(Comprehensive R Archive Network)から入手できる。ライセンスはGPL。 バージョン3.0.0は、2004年に公開されたR 2.0.0以来のメジャーバージョンとなる。大きな変更点と
サーバーのリソースを見るにはグラフ化は重要ですが、推移ではなくリアルタイムな状況、例えば秒単位のスパイキーな負荷を見るには、サーバー上でvmstatやiostatなどの*statファミリーを叩く必要があります。 さて、vmstatはメモリの状況やブロック数単位のI/O状況は見られますが、バイト単位のI/O状況やネットワークの送信、受信バイト数を見ることはできません。 # vmstat 1 procs -----------memory---------- ---swap--- -----io----- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 3 1 0 4724956 355452 726532 0 0 54 484 3 3 1 0 99 0 0 2 0 0 47
RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki です核関数を用いた平滑化 Nadaraya-Watson による核関数を用いた回帰平滑化を行う。 ksmooth(x, y, kernel = c("box", "normal"), bandwidth = 0.5, range.x = range(x), n.points = max(100, length(x)), x.points) ↑ 散布図平滑化 LOWESS 平滑化による計算を実行する。 lowess89 は平滑結果の座標である x と y を成分に持つリストを 返す。平滑結果は lines() 関数で元の散布図プロットに描き加えることができる。 lowess(x, y = NULL, f = 2/3, iter=3, delta = 0.01 * diff(range(xy$x[o
蓄積された大量のデータを分析し、隠れた事象や法則を発見していく技法、データマイニング。会員数2100万を超えるモバゲータウンを運営するDeNAは、サービス向上や開発に高度なデータマイニングを使うことで、ソーシャルゲームの世界展開を目指すという。 ソーシャルゲームのトップシェアを握るディー・エヌ・エー(DeNA)。主力である「モバゲータウン」(以下、モバゲー)は今日、ユーザーアカウント数2100万人超、1日のアクション数(ページビュー数)は実に20億超に達する巨大な仮想コミュニティ空間に成長した。DeNAは今、日本最大級の規模に成長したモバゲーを舞台として、ある新たな技術的挑戦を始めている。 「われわれがチャレンジしているその技術とは、データマイニングです」 こう語るのは、ソーシャルメディア事業本部ソーシャルゲーム統括部のグループリーダーを務める山田憲晋氏。モバゲーのソーシャルゲームを開発す
Jun 26, 2010Download as KEY, PDF31 likes16,655 views This document introduces ggplot2, an R package for creating graphs and plots. It discusses the core components of ggplot2 including ggplot() for initializing plots, geom for geometries like points and lines, stat for statistical transformations, and opts for setting plot options. It provides examples using the mtcars dataset to demonstrate how t
一元配置の分散分析(3つ以上の平均値の差の検定) 1つの要因の効果を確認しようとする実験計画において、その効果の違いを2群の差でみる場合と、3つ以上の条件群(水準)で見る場合があります。後者の場合、その差はt検定ではなく一元配置の分散分析を使う必要があります。 《なぜt検定は使えないのか?》 t検定は、2つのサンプル群から帰無仮説が成立する母集団確率分布を推定し、そこから観測されたズレの生じる確率を計算して差のあるなしを検定するものです。t検定を使って対ごとに差を検定すると、それぞれの場合に母集団が異なることになります。ある1つの要因が、複数の条件群に影響を及ばしているかどうかを確かめる検定としては適当ナはありません。 《分散分析の原理》 分散分析は、名前の通り「分散(バラツキ)」にもとづく検定です。間隔尺度データは、母平均(真の平均)を中心に左右対称の規則的な誤差分散をします(正規分布
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く