5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

統計学なんでもスレッド7

1 :132人目の素数さん:2007/10/24(水) 08:52:19
理論的な話題から実務上の疑問点まで。
学校の宿題は自分で考えましょう。

前スレ:
統計学なんでもスレッド6
http://science6.2ch.net/test/read.cgi/math/1169836298/
統計学なんでもスレッド5
http://science5.2ch.net/test/read.cgi/math/1145362721/
統計学なんでもスレッド4
http://science4.2ch.net/test/read.cgi/math/1123896809/
統計学なんでもスレッド3
http://science3.2ch.net/test/read.cgi/math/1097491056/
統計学なんでもスレッド2
http://science3.2ch.net/test/read.cgi/math/1068288283/
統計学なんでもスレッド
http://science.2ch.net/test/read.cgi/math/1012782106/
関連スレ:
統計学なんて数学じゃないだろ
http://science6.2ch.net/test/read.cgi/math/1173876727/
= 統計解析フリーソフト R 【第2章】 =
http://science6.2ch.net/test/read.cgi/math/1152449095/
=統計解析= SASプログラミング
http://science6.2ch.net/test/read.cgi/math/1184762259/

2 :にょにょ ◆yxpks8XH5Y :2007/10/24(水) 11:52:44

 今だ!2ゲットォオ
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ


3 :132人目の素数さん:2007/10/26(金) 16:29:07
統計学って、どんなもん?
過去スレは見れないし、他のスレは無いし。

アンケートとか世論調査とか信頼できるの??

4 :132人目の素数さん:2007/11/03(土) 21:41:30
>>1
他板版関連スレ
◆統計学について語るスレ
http://science6.2ch.net/test/read.cgi/sim/1012828891/
心理統計スレッド3
http://academy6.2ch.net/test/read.cgi/psycho/1160242677/
統計ソフト統合スレッド−SPSS・SAS以外
http://academy6.2ch.net/test/read.cgi/psycho/1012801769/
統計解析ソフト
http://ebi.2ch.net/rikei/kako/980/980470707.html

5 :132人目の素数さん:2007/11/05(月) 22:59:13
つり針が10本ついている仕掛け(さびき)で魚をつりました。
使ったさびきは3種類(赤、白、黒)
それぞれで釣った回数は、赤10回、白3回、黒5回
釣れた魚は
赤が(5、3、4、8、1、0、2、1、5、7匹
白が(3、2、6)匹
黒が(7、5、4、7、8)匹

赤・白・黒の「さびき」で魚の釣れる割合に有意差があるかを知りたい。

【手順】期待値を求める。期待値と実測値の差を二乗して期待値で割ったものの総和を求める=これがカイ二乗検定

ということらしいのですが、そもそも期待値の出し方がわかりません。

どなたかアドバイス頂けないでしょうか?

6 :132人目の素数さん:2007/11/06(火) 00:12:06
>>5
まず帰無仮説をたてろ。
帰無仮説が支持される場合は、どのサビキに何匹の
魚が釣れると予想されるか考えろ。

7 :5:2007/11/06(火) 07:26:10
>>6
帰無仮説というと、この場合「さびき」の種類で魚の釣れる割合に「差がない」ということですよね。
赤・白・黒のどれでも同じ割合でつれるはず と。

そうすると期待値は、10本針で10回、3回、5回で述べ180針つかい、つれた数が総計78匹
釣れる割合は43.3%

この割合に比べて、赤・白・黒がどうかとみていくのでしょうか?

やはり期待値というのがまだ理解できておりません・・・


8 :132人目の素数さん:2007/11/06(火) 08:53:10
>>7
%ではなくて、各サビキ1回で釣れる魚の数を考えて
みると良い。
帰無仮説が採択される時に予測される魚の数が期待値。

各サビキで1回に釣れる魚の数(算術平均)
-------------------------
    赤  白  黒
-------------------------
実測値 3.60 3.66 6.20
期待値 ?  ?  ?
-------------------------


9 :5:2007/11/06(火) 09:16:53
赤・白・黒で差がないとすると
延べ18回つって78匹=1回で4.33匹つれるはず。

しかしこれでは、全部同じになってしまいます。
う〜ん・・すいません。どうも平均と期待値がごっちゃになってますね。

10 :132人目の素数さん:2007/11/06(火) 12:50:32
>>9
カイ自乗適合度検定だったら、こんな風に考える。
腹を空かせて食いつき、"必ず"針に掛かってしまう78匹の魚が居る。
いま海の中には、餌の付いた赤・白・黒、色とりどりの針が
10:3:5の比で存在する。

1匹目:さあ、どの色に掛かろうかな?
2匹目:さあ、どの色に掛かろうかな?
・・・
78匹目:さあ、どの色に掛かろうかな?

帰無仮説の下で考えた、赤・白・黒の針に各々掛かるであろう魚の数が、期待度数。
観測度数は>>5から計算してちょ。

11 :5:2007/11/06(火) 15:07:43
>>10
赤にかかるのは、18分の10の確率、すなわち78匹いれば43匹が赤にかかるはず。
同様に白なら13匹、黒なら22匹かかるはず。
これが期待値でしょうか?

期待度数、観測度数と期待値、観測値というのはまた別物なのでしょうか?
理解ができなくて申し訳ないです。

12 :132人目の素数さん:2007/11/06(火) 15:42:00
やっとスレが伸びてると思ったら釣りか。

13 :5:2007/11/06(火) 23:01:59
釣りではないのですが、>>11の最後から2行目は反射的にかいてしまったので忘れてください。

例)サイコロを振ったときにでる目の期待値というのなら、
1x(1/6)+2x(1/6)・・・6x(1/6)=3.5というのは理解できるのですが

この場合、延べ180針を使い、赤に100針中36尾、白に30針中11尾、黒に50針中31尾、合計78針で(102針はつれなかった)釣れた。
もし赤白黒で差がないのであれば、赤なら全体180針の内100針を占めており、その割合はすなわち釣れた78尾中の割合になるはず
釣れる期待値:赤(100/180)*78=43、白(30/180)*78、黒(50/180)*78
釣れない期待値も同様に求めて、(期待値-実測値)^2/期待値の総和=カイ二乗値(9.828・・・)

こういう考えでしょうか?

どこが間違っているのか、なんかすっきりしません。
アドバイスお願いいたします。




14 :10:2007/11/08(木) 02:53:12
>>13
なら分割表かな?

        赤   白   黒   計
釣れた    36  11  31  78
釣れない  64  19  19 102
計      100  30  50 180

結果(釣れた、釣れない)が、サビキの色(赤、白、黒)と独立かどうかを検定。
上の数値が観測度数。期待度数の計算は教科書とか見てね。

てかホントの話だよね?練習問題とかでなく、、、

15 :132人目の素数さん:2007/11/08(木) 05:29:28
AR()とかARIMA()とかを勉強しているのですが、いまいち分かりにくいです。
SPSSではなく、Rをつかって勉強しているのですが、
「SPSSによる線型混合モデルとその手順 石村 貞夫¥ 3,360」
って分かりやすいですか?
どなたかよろしくお願いします。


16 :132人目の素数さん:2007/11/09(金) 19:13:22
robust statisticsについて
最良の本は?
英語でもよし
ちゃんとわかりやすいのね
専門家じゃないので

17 :16:2007/11/09(金) 20:42:27
てかrobust statistics 
って新しい分野なのかな?

18 :132人目の素数さん:2007/11/10(土) 13:32:36
>>16
一つの分野になってたとは知らなかった。
Wiki に参考文献含めて解説でてるけど、それじゃダメ?

http://en.wikipedia.org/wiki/Robust_statistics

19 :16:2007/11/10(土) 22:35:05
俺は本読むの遅いんで
なるべく良書を最初から読みたい
洋書の良書って
よくわからんのだよね
しかもマイナーそうだし
だれか情報を

20 :132人目の素数さん:2007/11/10(土) 22:35:50
フエラーを詠めばいい

21 :16:2007/11/10(土) 22:46:55
>>18
Good books on robust statistics include those by Huber (1981), Hampel et al (1986)
and Rousseeuw and Leroy (1987). A modern treatment is given by Maronna et al (2006).
Huber's book is quite theoretical, whereas the book by Rousseew and Leroy is very
practical (although the sections discussing software are rather out of date, the bulk
of the book is still very relevant). Hampel et al (1987) and Maronna et al (2006) fall
somewhere in the middle ground. All four of these are recommended reading,
though Maronna et al is the most up to date.

practicalってやつがいいかな???
あんま理論的(ルべーグとか)なのはよくわからんしな

22 :132人目の素数さん:2007/11/15(木) 09:06:41
尤度比って何ですか?

23 :132人目の素数さん:2007/11/15(木) 09:07:11
あげ

24 :132人目の素数さん:2007/11/15(木) 13:57:30
>>22
二つの仮説H_1, H_2 があって、
その密度関数をf_1, f_2 とするとき、
f_1(x)/f_2(x) のこと。
観測値xに対してこの値が大きければ
H_1 の方が正しいモデルである可能性が高い。


25 :132人目の素数さん:2007/11/15(木) 19:35:55
簡易な本に掲載されているやり方ではなく統計のプロがやる手順を知りたいのです。
目的は『予測すること』。目的変数は1個、説明変数は複数個です。
自分で調べてわかっている範囲を手順を記載します。間違っている、もしくは足りない箇所があれば教えてください。
【関係確認→変数変換】まず目的変数と説明変数の散布図を確認し、関係を把握する。
線形ならOK、非線形(単調増加)なら変数変換する、非線形(二次式以上)なら?
つぎに、分布の正規性をヒストグラムで確認し、違うならBox-Cox変換する。
これでデータ準備完了?
【手法の選択】
@もし変数変換しても改善しないならノンパラメトリック分析を選択する。
A変数変換で改善したならパラメトリック分析を実施。この場合(線形?)重回帰分析?を選択。
(OLS回帰とGLS回帰の選択方法がどんなときにどちらを選択するか教えてください)
次に多重共線性を調べ変数除去する。(逐次法、増減法)
準備が整ったので解析を実施。

不備な点をご指摘お願いします。


26 :132人目の素数さん:2007/11/15(木) 19:39:04
実装関連の信頼性解析について調べ始めているところです。
早速ですが,メディアンランク法の
F(t)=(Σri-0.3)/(n+0.4)
の0.3,0.4とは何でしょうか。

27 :132人目の素数さん:2007/11/16(金) 16:46:45
そもそも回帰分析の一般的方法が
1レスで収まるくらいなら苦労しないよ。
まあ、何点かコメント。

散布図を確認するのはいい心掛けだけど、そこでは、
まず異常値があるかどうかをチェックすべきだろうな。
あった場合にその扱いをどうするかは場合による。

それから、サンプルは本当に独立性を満たしているか?
満たしていなければ、いろんな方法でモデルを工夫
しなければいけない。

回帰分析では最終的な誤差の分布が問題なのであって、
元の変数の分布はモデルの正当性とは関係がない。
なので、最初に変数変換をすればOKというわけではなく
実際に回帰してみて、モデルの診断を行うという試行錯誤を
せざるをえない。

その他、いろいろな問題が生じうるが、
当然ながら全部は書ききれない。

28 :132人目の素数さん:2007/11/17(土) 06:42:41
>>25
>不備な点・・・
回帰分析の回帰診断ステップが、ごっそり脱落していますが。残差の分布や
寄与率の大小を点検するステップが。
>自分で調べてわかっている範囲を手順を・・・
学校では講義がなく、何かの事情で独学を始めたということですか?
統計分野の知識素養があれば独学も楽しからずやでしょうが、大変ですね。

29 :25:2007/11/17(土) 09:43:12
>>27
>それから、サンプルは本当に独立性を満たしているか?
これは項目間の独立性(多重共線性問題)のことでしょうか?

>>28
>学校では講義がなく、何かの事情で独学を始めたということですか?
実務で使う必要性がでてきたのです。もともと数学や統計の勉強は好きなので楽しんでやってますよ。
「回帰診断」で検索かけたらいろいろな情報がでてきましたのでまた調べてみます。
私にとっては回答頂いた文章の中で知らない単語がでてくるだけで、調べるヒントになるのです。

ありがとうございます。


30 :27:2007/11/17(土) 13:07:59
いやいや、例えばある病気について100の症例を調べるにしても、
もし同じ人が2回その病気にかかって2回カウントされていたら、
その2つの症例は独立とはいえないでしょ。そういう時は、パラメータ
の信頼区間が独立なサンプルの場合に比べて大きくなったりする。

別の例をあげると、時系列や空間データの場合には隣り合うサンプルが
相関していることが多い。

蛇足だけど、統計って教科書読んでるだけだとなかなか感覚が
掴めない。適当なデータを放り込んで分析してみるといろいろ
分かってくるよ。

31 :132人目の素数さん:2007/11/17(土) 17:48:54
>>30
>空間データの場合には隣り合うサンプルが
> 相関していることが多い。
今分析対称のデータはこれに当てはまります。
1つの板の中に場所を表す番地1〜40があり、その各番地の複数データがサンプルです。
これの対策は何かあるのでしょうか?

32 :132人目の素数さん:2007/11/18(日) 16:52:14
マクネマーとカイの二乗検定ってエクセルでできるんですか?

33 :132人目の素数さん:2007/11/18(日) 16:53:45
四択の選択肢の質問で
個人属性ごとに有意差つける
場合どのような検定を行えばいいのですか?

34 :132人目の素数さん:2007/11/19(月) 00:14:58
age

35 :132人目の素数さん:2007/11/19(月) 04:15:09
>>32
カイ二乗検定は、chitest()で出来る。
McNemar検定そのものは、エクセルにはないが、
chidistを使えば統計量は簡単な関数で書けるし、
p値は、chiinvを使えば出せる。
まずはエクセルのヘルプを見るべし。

36 :132人目の素数さん:2007/11/19(月) 04:40:19
>>33
4つの選択肢が順位尺度か否かによる。

順位尺度でないなら、単なるchi square test(サンプル数が
少なければFisher's exact test)でOK。この場合、選択肢
と個人属性が独立であるかだけを検定することになる。

順位尺度なら、通常はどの個人属性がより大きい値をとって
いるかに興味があるはず。この場合は、属性をペアにして、
値の大小を比べるテストをした方が良い。例えば、A,B,C
の3つの属性があるなら、AとB、AとC、BとCを各々比べる。
私が知っているのは
Wilcoxon ranksum testにおいて同順位のサンプルによる影響を
補正したWilcoxon exact test。他にも方法があるかも知れない。
もしこれが難しすぎるなら、4つの選択肢を適当なところで
区切って二値の変数にしてしまえば、通常のカイ二乗検定で
大小を検定できる。

37 :132人目の素数さん:2007/11/19(月) 04:48:01
>>31
同じ地点の複数サンプルだけを補正したいなら、
repeated measure ANOVA (mixed effect modelの一種)
を使えば、同一地点からのサンプルの相関を補正できる。

地理的な位置から来る相関を考慮するモデルは、
spatial statistics (空間統計学)と呼ばれる分野の人が
やってるらしいが、私は詳しくは知らない。


38 :132人目の素数さん:2007/11/19(月) 18:21:26
同一の母集団から、4つの方法でサンプルを採取した場合に方法ごとに取れるサンプルに有意な差があるかを検定する場合、何検定を使えばよいのでしょうか?
【具体例】
大小様々な水風船が無限に入ってるプールで針を大・中・小・極小と4種類つかって風船を釣ってみた。
このとき釣れる水風船の大きさや数と針の間に関係があるかどうか。そして針ごとに有意な差があるかどうかを検定したい。
関係の有無はカイ二乗検定でいいかなとおもうのですが、針ごとに有意な差があるかどうかは何をつかうべきでしょうか?



39 :132人目の素数さん:2007/11/19(月) 21:11:28
>>30
>適当なデータを放り込んで分析してみると・・・
重回帰分析演習上達に適当なデータを開示しているWebページを、何例か
紹介願えませんか。

40 :132人目の素数さん:2007/11/20(火) 08:34:38
>>39
とりあえず有名どころ。
http://kdd.ics.uci.edu/

41 :132人目の素数さん:2007/11/20(火) 16:28:03
どなたか教えてください。
お願いしします。

母集団分布における確率空間についての質問です。

身長の統計調査を例にとる. 国民全体( N 人) をU とおき, その上の確率Q を
Q[u] =1/N , u ∈ U
とする. ここで確率空間(U,Q) が得られたので,
Y (u) = u 個人の身長, u ∈ U
として(U,Q) 上の確率変数を定義する. このY (u) の分布が母集団分布である.
つぎに, U からu1, u2, ・ ・ ・ , un のn 人を無作為に選び, 標本調査を行う. その標本を
w ≡ (u1, u2, ・ ・ ・ , un)
として, 次のように新しい確率空間(Ω,F,P) を与える:
Ω ≡ {w = (u1, ・ ・ ・ , un) : u1 ∈ U, ・ ・ ・ , un ∈ U}

P[w] =(1/N)^n

最後の(1/N)がn乗になる理由が分かりません。

どなたか詳しく、分かり易く教えていただけないでしょうか。
お願いします。

42 :132人目の素数さん:2007/11/20(火) 16:31:45
>>38
カイ二乗検定をした後で有意差を検定するってことは、
ペア毎に差を比べるってことかな?

その場合、風船の大きさが針ごとに正規分布してるかどうかが問題になるね。
サンプルがかなり大きければあまり気にしなくても良いけど。
正規分布を仮定するなら2標本のt検定だし、
そうでないなら変数変換をしてt検定するか、
変数変換せずにWilcoxon ranksum test をやる。

全ての変数をまとめて検定するっていうのなら、
正規分布ならANOVA、一般の場合はKruskal-Wallis testとかかな。
その場合、全体的に差が有意かどうかしか分からない。





43 :132人目の素数さん:2007/11/20(火) 16:36:05
>>41
問題文には書いてないけど「重複を許して」「順番も区別して」
n人を選ぶって意味だからでしょ。

44 :38:2007/11/20(火) 17:04:32
>>42氏どうも
つれた風船の大きさと針の関係をU検定する場合
2つのグループ間での検定となりますよね?
大と中、大と小、大と極小、中と小、中と極小、小と極小(この6個の組み合わせ)
これについてそれぞれU検定をかけて、例えば大>中、中>小、大>小(それぞれp<0.05)となったとしてこの場合、大>中>小(p<0.05)という判断でいいのでしょうか?


45 :41:2007/11/20(火) 18:43:41
>>43

回答ありがとうございます。
何故、重複を許しても大丈夫なのでしょうか?
母集団の重複を許すと、この場合、国民ですので、同じ人を選ぶことになってしまいます。

そこがわからなくて(^^;

46 :132人目の素数さん:2007/11/21(水) 00:41:26
1「そう思う」2「どちらかと言えばそう思う」3「わからない」
4「どちらかといえばそう思わない」5「そう思わない」
という選択肢で質問した場合、
「わからない」を除外したもので、1と2で「そう思うと回答したもの」
と4と5で「そう思わないと回答したもの」と考えてカイの二乗検定を
行ってもいいのでしょうか?

47 :132人目の素数さん:2007/11/21(水) 03:03:46
標準正規確率変数XについてP(|X|=∞)は、ほとんど確実に0ですよね?

48 :132人目の素数さん:2007/11/21(水) 04:09:50
>>45
私も同じ人を選ぶのはおかしいと思うが、
そういう設定なのだから仕方ない。
もしかしたら、母集団に対して標本が極端に少なく、
重複する可能性が極めて低いので気にしていないのかも。
>>46
問題ない。
>>47
正規分布のsupportは(-∞,∞)だから、P(|X|=∞)=0だろ。

49 :132人目の素数さん:2007/11/21(水) 04:16:12
>>44
大>中>小が全て有意だと言うのは分かるけど、
まとめてp<0.05って書くのはちょっと気になるなあ。
全ての不等号は水準5%で有意、とかきちんと書いた方がいいんじゃ。

ちなみに>>42も含めこのスレ>>30以降の回答が今のところ全部自分。。

50 :132人目の素数さん:2007/11/21(水) 09:38:03
>>48
ありがとうございます!
(P(|X|=∞)を質問した人間です。)
いやいや、正規分布を誤解してましたm(__)m

51 :132人目の素数さん:2007/11/21(水) 15:11:01
つか、そもそも任意の実数 a について、P(X=a) = 0 だろ。
あと ∞ という数は無いから、lim[a→∞] P(|X|=a) = 0 な。

52 :132人目の素数さん:2007/11/21(水) 15:12:05
>>>46
>問題ない。

まとめるならなぜわけて回答させたんだよ??ってつっこみうるのは問題

53 :132人目の素数さん:2007/11/21(水) 20:03:18
>>51
そもそも、大数の強法則を考えれば、即座でしたね…。
チェビシェフの不等式→ボレル・カンテリの補題という王道パターンからでも示せる事に気が付きましたm(__)m(間違っていなければ。)
てことは、期待値が有限の確率変数は確率1で有限値しか取らないってことになりますか?

54 :132人目の素数さん:2007/11/21(水) 21:50:46
>>52
解析する段階でメンドクサクなったからです。
本など見るとまとめた方がやりやすいと書いてありましたし。

55 :132人目の素数さん:2007/11/22(木) 01:32:16
>>51は、何か根本的な勘違いをしている気がする。
測度論的な統計学を勉強する前にもうちょっと
基本的な数学のトレーニングをした方がいいんじゃない?

>期待値が有限の確率変数は確率1で
>有限値しか取らないってことになりますか?

これは正しい。

56 :132人目の素数さん:2007/11/22(木) 01:37:03
>>52
きちんと考えればmultiple testingの問題なんだろうけど、
厳密な立証を求められる医薬系以外でそこまで問題にされることは
少ないのでは。

事後的なサーベイ程度なら、むしろ、区分をしすぎることによる
カイ二乗検定の近似誤差の方が問題だろ。
そんな場合には、Fisher's exact test を使う。

57 :132人目の素数さん:2007/11/22(木) 09:48:41
>>55
>>53です。どうもありがとうございますm(__)m
私は理系の人間では無いのですが、知っていなければ恥ずかしいような内容なだけに、疑問が解消されて良かったです。勘違いをして二年ほど過ごしていたようです…。

58 :132人目の素数さん:2007/11/22(木) 12:17:59
これアンカーミス?↓
55 :132人目の素数さん:2007/11/22(木) 01:32:16
>>51は、何か根本的な勘違いをしている気がする。

56>むしろ、区分をしすぎることによるカイ二乗検定の近似誤差の方が問題だろ。
だから何で区分して質問しておいて後でまとめちゃうんだよ、って

59 :132人目の素数さん:2007/11/22(木) 13:04:29
>>58
54でも答えてますけど、統計の本には2×5では大変なので
まとめて「そう思う」「分らない」「そう思わない」と
2×3にした方がいいと書いてあったのですが・・・。

60 :132人目の素数さん:2007/11/22(木) 13:11:23
>>58
目的は有意差をみることだからまとめることには別に問題はない。
ただまとめ方自体が恣意的だと、正しい検定にならない。


61 :132人目の素数さん:2007/11/22(木) 15:10:30
いろいろ分類していった結果
25人と5人とか30人と10人とかになってしまいました(一応有意差あり)
こんな小さなサンプルで有意差出しても大丈夫なんでしょうか?

62 :132人目の素数さん:2007/11/22(木) 17:06:35
>59 書名は?
>60 まとめることの是非ではなく、1〜5で答えさせたことの是非

63 :132人目の素数さん:2007/11/22(木) 17:11:37
http://sociology.jugem.jp/?eid=182
http://www.okayama-u.ac.jp/user/hasep/articles/1994/9407Hasegawa/9407Hasegawa.html
2.2.8.数量データを無理やりカテゴリー分けする
 独立変数や従属変数が連続変量であるにもかかわらず,それらを“上,中,下”群のように分けて分析することをいう.
 たとえば,調査の段階で具体的な年齢を質問しているにもかかわらず,分析の段階では“30歳以上”群と“30歳未満”群
に分けて各群の得点の差を検定したり頻度のχ2検定をしたうえで,“○○については年齢による差が認められた”というよ
うに結論を下している発表を聞いたことがある.これとは別に,大学生に不安検査を行ない,不安得点に応じて“高不安群”
,“中不安群”,“低不安群”に分けて分析をしている発表を聞いたことがある.これらの例は少なくとも3つの問題点を含
んでいる.1つは2.2.7にも述べたように,事後的に作為的なカテゴリー分けが行なわれる可能性があること,第2に,連続
変量がもつ種々の貴重な情報をわざわざ捨てていることである.

64 :132人目の素数さん:2007/11/22(木) 18:26:06
>>62
>60
学部生の論文なので勘弁して下さい。


65 :132人目の素数さん:2007/11/22(木) 20:13:01
pが0.06とか0.05・・・
になる時って有意差はないが
大きな差があったとか言ってもいいのですか?

66 :132人目の素数さん:2007/11/23(金) 15:10:29
age

67 :132人目の素数さん:2007/11/23(金) 16:18:35
>>63
まあ、統計っていうのは正しい手法が自明なものではないので、
具体的なモデルを提示しない批判はあまり意味がない。
二つの順序変量の場合は、上の方で述べたように
Wilcoxon exact testあたりを使うのが
情報のロスは少ないかも知れないとは思う。

ちなみにリンクの一つ目の書は「順序変量を誤って連続変量と
みなした人」を想定して批判をするという意味のないことを
やっていると思う。書評を読んだだけなので断定的なことは
言えないが。


68 :132人目の素数さん:2007/11/25(日) 17:43:10
仮説検定をやっているんですけど、t値とp値が有意水準を片方だけ満たして
片方だけみたさないことってありますか?初心者ですいません

69 :132人目の素数さん:2007/11/26(月) 05:23:15
>>68
ないです。そもそもt値からp値を計算しているので。

70 :132人目の素数さん:2007/11/26(月) 16:25:50
Rで学ぶデータマイニングII
ttp://www.amazon.co.jp/dp/4861671981/
を買おうかどうしようか迷ってるんだけど、
使った人はいるだろうか。

卒論の時系列解析の参考にしようかなと思ってる。
SとRは1年間大学で学んだし、web の R-tips はよく見るから
上記のIは買ってない。

71 :132人目の素数さん:2007/11/26(月) 16:41:53
Rスレで聞いた方がいいんじゃない?

72 :132人目の素数さん:2007/11/26(月) 16:49:22
うん…。書き込んで数学板検索してるうちにそう思った…。
マルチになるけど、Rスレにも書き込もうと思う。
もちろん、このスレも1週間はROMるから、
返事もらえてたらすごく嬉しい。ありがとう >>71

73 :132人目の素数さん:2007/11/28(水) 16:09:52
test

ttp://www.uploda.net/cgi/uploader2/index.php?file_id=0000045121.jpg

74 :132人目の素数さん:2007/11/29(木) 08:44:08
つり橋効果の実験で、つり橋を渡っている時にたのめば65%、
渡ってからすこし後だと37%の男性が〜というデータがありますが、
その内訳が23人中7人で37%、20人中13人で65%となっており、
サンプル数が少なすぎる気もするのですが統計学的にはどうなのでしょうか。

75 :132人目の素数さん:2007/11/29(木) 09:14:56
何を頼むの?

76 :132人目の素数さん:2007/11/29(木) 09:16:15
>>70
あの本に入ってるコードでGARCHはできるけど、使いたいモデルによるかも?
何がしたい??


77 :132人目の素数さん:2007/11/29(木) 09:34:18
>>75
連絡先をおしえてくれとかそんなことです。

78 :132人目の素数さん:2007/11/29(木) 10:45:08
!がよくわかんね

79 :132人目の素数さん:2007/11/29(木) 11:39:25
>>77
携帯で頼む訳ね
展望台からとか

80 :132人目の素数さん:2007/11/29(木) 12:10:17
wikipにリンクあった
http://www.fpce.uc.pt/nucleos/niips/novoplano/ps1/documentos/dutton&aron1974.pdf


81 :132人目の素数さん:2007/11/29(木) 17:34:00
>>74
Fisher's exact test で、
p-value を計算してみたら、、、
おっと学校の宿題には答えない約束だったw

82 :132人目の素数さん:2007/12/02(日) 00:12:08
C言語かC++で仮説検定とか推定の計算をしたいのですが、
標準ライブラリにはχ2乗分布の累積密度関数などが入っていません。
統計処理用ライブラリやソースを公開しているサイトや書籍はありませんか?

83 :132人目の素数さん:2007/12/02(日) 15:17:29
相関係数を計算する上での前提条件に正規性は必要ですか?
また他の前提条件はあればご教授をお願いします。

84 :132人目の素数さん:2007/12/02(日) 17:15:40
>>82
http://www.alglib.net/specialfunctions/distributions/chisquare.php
本は Numerical Recipes in C(++) とか。

>>83
相関係数の定義に必要なのは分散・共分散だけ。

85 :132人目の素数さん:2007/12/03(月) 03:05:00
>>84
ありがとうございます。
前提条件はなしですか。
以下自分なりに調べてみたところ、注意すべき点としては、
直線性、外れ値を調べたほうがよいとありました。
直線性、外れ値を調べる方法で数値で判定する方法
(プログラムして自動で判定したい)があれば教えていただけないでしょうか?

86 :132人目の素数さん:2007/12/04(火) 02:29:09
>>84
ありがとうございます。
amazonで注文してみます。

87 :132人目の素数さん:2007/12/04(火) 23:43:51
比率(変化率)の統計を求めるのは、統計学的に
許されるのでしょうか? 

つまり、
値A1,A2・・・An
値B1,B2・・・Bn

があった時、Ai,Bi間の変化率[%] Ci = 100*(Bi-Ai)/Ai が
A,Bと同じくn個あったとき、このCの標準偏差や分散を求める
ということです。

88 :132人目の素数さん:2007/12/05(水) 00:17:08
>>87
よく使うよ。
株式や企業の収益率の変化とかが代表例かな。

89 :132人目の素数さん:2007/12/05(水) 20:39:33
>>88
さんきゅう

90 :132人目の素数さん:2007/12/05(水) 21:16:08
>>88
企業価値相関、算出しとる?

91 :132人目の素数さん:2007/12/05(水) 23:08:01
>>90
ごめん。やったことない。


92 :132人目の素数さん:2007/12/06(木) 18:17:12
統計を勉強し始めたばかりなのですが、よく出てくる「ordination」という単語の日本語訳がよくわかりません。
いろいろ調べて意味はなんとなくわかってきたのですが、日本語にする時にどうすればいいのか分かりません。
初歩的な質問で申し訳ありませんが、どなたか教えていただけないでしょうか?


93 :132人目の素数さん:2007/12/06(木) 19:59:29
多変量解析

94 :132人目の素数さん:2007/12/06(木) 21:34:09
>>92
ordinalを行うという名詞だな。順序づけ。
でも一般には単にオーディネーション。

95 :132人目の素数さん:2007/12/07(金) 11:37:03
>>92.93

ありがとうございます!
辞書で調べてもキリストとか出てきてさっぱりだったんですが、もとは「ordinal」だったんですね!

例えば
「ordination diagram」  順序付けした図
「ordination axis」   順序付けした軸
「canonical ordination」 標準的な順序付け

ってなるんでしょうか?



96 :132人目の素数さん:2007/12/07(金) 13:31:01
携帯電話に関するのアンケートに協力してください。
2,3分で終わりますんで、、、

http://www.efeel.to/survey/cellularxphone/

卒論で多変量解析をするため
回答数が必要なのでよろしくお願いします。

97 :132人目の素敵さん:2007/12/10(月) 23:29:02
信頼係数と信頼区間の幅の関係ってどう説明したらいいんですかね?
あと交互作用効果ってどんな効果ですか?

98 :132人目の素数さん:2007/12/11(火) 00:32:31
正方形の同じ一点にaとbがあります。ここを始点とし、コインが表ならa裏ならb
を隣の点に右回りで動かします。
この場合、n回目に二つとも同じ点にある確率を求めよ。

99 :132人目の素数さん:2007/12/11(火) 06:06:28
統計学を勉強し始めなのですが、検定(?)という習ってない分野に入り、

「感染者230人のうち110人はその伝染病で2年後には死んでしまう。
2年後に死んでいる可能性は半々である(α=0、5)という仮説を検定しなさい。」

という問題でさっそくつまづいてます。どう解き始めるのですか?
簡単過ぎだと思われるのかわからないんですが、決して釣りではないです。
どなたか教えてください。お願いします。

 

100 :132人目の素数さん:2007/12/11(火) 13:49:51
>>99
「2年後に死んでいる可能性は半々である」という帰無仮説の下で
230人のうち何人死ぬかどうかの分布を求める(例えば、最も可能性
が高いのは115人)。サンプルサイズが割りと大きいから正規分布で
近似すると良い。そして、死者が110人以下になる確率がどのくらい
あるのかを計算し、それが一定基準以下だったら帰無仮説を棄却
すればよい。

101 :132人目の素数さん:2007/12/11(火) 21:30:28
ビジネス統計学という授業の問題です…教えてください…



1.以下の9個の2変数データ(x,y)を用いて問に答えよ。
 
(−4,16)(−3,9)(−2,4)(−1,1)(0,0)(1,1)(2,4)(3,9)(4,16)

(1)xとyそれぞれの平均値と分散を求めよ。

(2)散布図を描け。

(3)これらのデータを用いて相関係数を計算したところ、その値は0であった。この相関係
数と(2)で描いた散布図を参考にxとyの関係について分かることを述べよ。



2.平均20、分散9の正規分布における以下の範囲には全体の何%が含まれるか。
(1)20〜23 (2)22.4〜24.8 (3)17〜21.2


102 :132人目の素数さん:2007/12/11(火) 21:31:53
竹中平蔵【びんぼうゆすりみたいな状態】になる

インタビューで竹中の担当の読売新聞記者が全裸で穴にバイブを入れたまま殺された?自殺した?ことなど
を、全部竹中にぶつけると【びんぼうゆすりみたいな状態】になった。

9.15 リチャード・コシミズ東京講演会 全編 (3時間24分)
【びんぼうゆすりみたいな状態】になった話は16分から
http://www.asyura2.com/

もと総理が過去に3人を殺した話もでてくる


103 :132人目の素数さん:2007/12/11(火) 21:34:37
>>101
自分で解いてから質問しろかす

104 :132人目の素数さん:2007/12/11(火) 22:17:56
100さんわかりやすい説明ありがとうございます。


105 :132人目の素数さん:2007/12/12(水) 10:51:43
いや、100は片側検定だが・・・

106 :132人目の素数さん:2007/12/12(水) 13:03:20
>>105
そうだけど、この場合に限ればどっちみち対称だから閾値だけの問題。

107 :132人目の素数さん:2007/12/12(水) 17:16:11
そこまでわかるなら99を書くはずがない

108 :132人目の素数さん:2007/12/12(水) 20:27:37
数学系の学生で、今外れ値について勉強しています。外れ値を見つける方法として、グラブスの方法、トンプソンの方法、増山の方法をよく見つけたのですが他によく使われている方法はありますか?
あと、トンプソン、増山の方法の中身(その式でなぜ外れ値が検証できるか)を説明しているサイトや文献あれば教えてもらえますか?よろしくお願いします。

109 :132人目の素数さん:2007/12/13(木) 05:17:36
>>98
斬か式で解く問題だね。大学入試に出る。東大京大が好きそうな問題だな。
n回目に同じになるためにはn-1回目は隣合っている&遅れてる方が動く必要がある。
n回目に同じ位置にいる確率をA(n)、一つはなれている確率B(n)、二つはなれている確率C(n)とすると、
A(n)=0×A(n-1)+(1/2)^2×B(n-1)+0×C(n-1)
B(n)=1/2×A(n-1)+0×B(n-1)+1/2×C(n-1)
C(n)=0×A(n-1)+1/2×B(n-1)+0×C(n-1)
この3式からA(n)についての斬か式を作る。
A(n)=(1/2)^3×A(n-2)+(1/2)^3×C(n-2)
まずこれを解く、
A(n)=1/8×A(n-2)+1/8×C(n-2)
比例定数1/8の斬か式より
A(n)=〜………@
同様にC(n)についても解く。
C(n)=〜………@
@AよりA(n)=〜

110 :132人目の素数さん:2007/12/13(木) 05:19:53
>>101
あまりに基礎すぎる。
自分でやったほうがいい。

111 :132人目の素数さん:2007/12/13(木) 07:57:25
>>101は単発質問スレ立てし
その直後に、ここに書き込みとな(マルチ)

誰か教えてください…
http://science6.2ch.net/test/read.cgi/math/1197375253/

もう数学板に来なくていい
ってか氏ね

112 :132人目の素数さん:2007/12/14(金) 00:05:58
時系列解析のゼミに入ってるんですが、もしかしてこの分野ってマイナー気味ですか?

113 :132人目の素数さん:2007/12/14(金) 01:29:38
>>109
ありがとうございました

114 :132人目の素数さん:2007/12/14(金) 01:59:49
俺だったら2項分布を mod 4 で集計しようとするけどね

115 :132人目の素数さん:2007/12/14(金) 18:24:54
合ってますでしょうか。

ある模擬試験に 5000 人が受験したところ,
その成績は,平均値 65 点,標準偏差 10 点の正規分布に従った。
(1) ある生徒が,75 点以上 85 点以下である確率を求めよ。
(2) この試験において,上位 5 %に入るためには,何点以上あればよいか。
(3) この試験において,順位が 100 番以内に入るためには,何点以上あればよいか。

問題文はつまりN(65,10^2)であり、
標準正規分布をz、この問題の正規分布をuと置く。
(1)
P(75<_x<_85)
zに変換して
P(1<=z<_2)
=P(0<=z<=2)-P(0<=z<=1) 正規分布表より
=0.477-0.341=0.136

答え 13.6%


116 :115:2007/12/14(金) 18:25:29
(2)
P(z<=u)=0.05となるuを探せばよいので、
P(0<=z<=u)=0.5-0.05=0.45
正規分布表からu=1.64
uからzへの変換式から
(x-65)/10=1.64
これを解いて
72.9点

答え 72.9点以上あればよい

(3)
100/5000=0.02
P(z<=u)=0.02
となるuを探す。
P(0<=z<=u)=0.5-0.02=0.48

分布表より0.48は2.05。これを変換式に代入し、
(x-65)/10=2.05
x=85.5

答え 85.5点以上あればよい

117 :132人目の素数さん:2007/12/14(金) 19:09:55
片側しか見ていないから×

118 :132人目の素数さん:2007/12/14(金) 22:07:24
あるデータを収集し、その分析をしなくてはいけません。
SPSSを使用する予定ですが、どの分析方法がいいのかがわからないので教えてください。

ランダムにN=40のサンプルを2群に分けました。
属性が等質であることは確認しました。
介入群と対照群の2群に対して、
介入直前・直後・10分後・15分後・・・・30分後までリッカート尺度を測定しました。欠損値はありません。
介入群と対照群でそれぞれの時間で測定されたリッカート尺度に差があるのかどうかを調べたいと思っています。

教えてちゃんですみません。
よろしくおねがいします。

119 :132人目の素数さん:2007/12/15(土) 02:22:52
>>117
意味分からん。>>115-116であってると思うけど。

120 :132人目の素数さん:2007/12/15(土) 02:31:27
>>118
各時点で比較したいだけなら、単なる二標本の検定でしょ?
普通にWilcoxon exact rank sum テストとかをやればよいのでは。

やり方がよく分かんなかったら
無理矢理順序尺度を二値の変数にして、
カイ二乗検定とかでも大丈夫かも。

121 :118:2007/12/15(土) 12:53:38
>>120
ありがとうございます。
私の書き方が不足していたのですが、
最終的に「介入することで○○分後の尺度に変化が見られる」という結果を導き出したいと思っています。

となると、
1.2群それぞれの時間経過に伴う尺度の変化についてRepeated Measures ANOVAをして
2.それで前後の値が変化したといえるのかどうかについて検討し
2.さらにその各時点ごとにWilcoxon exact rank sum testをしてそれが2群で違うといえるのかを見る
・・・・・・ということでよろしいのでしょうか?

本当に本当に初歩的な質問でごめんなさい。
決して釣りではありませんので、よろしくお願いいたします。

122 :132人目の素数さん:2007/12/15(土) 15:56:29
>>121
うーん、きれいな定式化は難しそうな問題だなあ。
分析方法は結構主観によるところが大きいと思う。

自分だったら、ひとまず全部の情報を一つのモデルに盛り込むのは
難しいと考えて二時点間だけの比較をする。
(例:直前と直後、直前と5分後、直前と10分後...と試して、
最終的に、どの時点間で差が有意になるのか見ればよい。)

でもって、順序尺度の2時点間の差を連続な変量とみなせるのか
単なる順序尺度の差とみて「改善、不変、悪化」くらいに分ける
べきなのかを考えて、適切なモデルを選択する。

あとは、単なる2標本の検定。

頑張ればもうちょっと凝ったモデルも可能なのかも知れないけど。


123 :132人目の素数さん:2007/12/16(日) 07:51:09
国友 ゲンダイ統計学 日経文庫
が書店においてない。

大学の図書館にも置いてないのにはびっくりした。

124 :118:2007/12/16(日) 13:22:38
>>122
レスが送れてすみませんでした。
なるほど、そうですよね。
とても貴重なアドバイスをありがとうございます。
頑張ってみます。すごく感謝しています。

125 :132人目の素数さん:2007/12/19(水) 19:31:18
サンプルが1つずつしかない表(4行×2列、1行目、1列目はラベル)のサンプル間の有意差の求め方ってありますか?
ソフトはエクセル統計を使ってます

126 :132人目の素数さん:2007/12/19(水) 19:44:25
A大学は卒業生の就職率について、文科系、理科系ともにB大学よりも高いと宣伝している。
このことはA大学全体でB大学よりも就職率が高いことを意味するか。

問題文からして、意味しなさそうなのですが理由がわかりません。ヒントでいいので教えて
頂きたいです。お願いします。

127 :132人目の素数さん:2007/12/20(木) 00:58:44
文系、理系各々の就職率から、大学全体(文+理)の就職率を求める式を導く。

128 :132人目の素数さん:2007/12/20(木) 01:05:35
A 文系 1/1 =100%
理系 29/99 =28%

B 文系 9000/9900<100%
理系 20/100 =20%

全体では
A 30%
B 90.2%

反例

129 :132人目の素数さん:2007/12/20(木) 02:21:44
>>125
データは、3行一列ってこと?
単に、「3つのグループの発生割合が同一」という帰無仮説を
検定したいだけなら、カイ二乗検定をすればよいのでは。
例えば、(15,10,5) がデータなら、(10,10,10)を期待値として
カイ二乗統計量を計算。

130 :132人目の素数さん:2007/12/20(木) 08:15:32
>>127,128
ありがとうございます。
Bは就職率の高いほうに人数が偏っているってことですね。

131 :132人目の素数さん:2007/12/20(木) 09:51:14
>>130
反例は一例だから、一応、一般化して解いた方がよい。
たぶん違う大学同士の異なる学科の人数の関係が問題になってくると。

132 :132人目の素数さん:2007/12/20(木) 11:15:05
>>129
ありがとうございます。
データは3行1列です
カイ二乗検定は正規分布していなくても使えるんですか?

133 :132人目の素数さん:2007/12/20(木) 13:30:19
>>132
「正規分布してる」って何のこと言ってるんだよ。
主語くらいちゃんと書いてくれ。
>>125の「サンプルが1つずつしかない表」
というのも意味が良く分からないし。


134 :132人目の素数さん:2007/12/20(木) 14:46:40
CANOCOでCCAをしたいんですが、日本語で説明しているいいサイトないですかね?

135 :132人目の素数さん:2007/12/22(土) 00:05:27
対応のない2元配置の分散分析を行おうと思っていたデータを
各群それぞれ Shapiro-Wilk 検定にかけてみたら全てアウトでした.
それでノンパラメトリックな方法でやろうと思うのですが,
この場合どんな方法が適当でしょうか?


136 :132人目の素数さん:2007/12/22(土) 00:51:46
>>135
Friedman検定でないの?

137 :132人目の素数さん:2007/12/23(日) 15:21:23
正規確率プロット図をEXCELで描きたいのです。
基準化したデータをx軸まではわかります。
y軸に順位に応じた期待する値を入れるとあるのですが、『順位』という言葉に引っ掛かっています。
どのように図を描けばよいのでしょうか?

138 :132人目の素数さん:2007/12/23(日) 19:52:09
現時点で世界的標準と呼べる確率・統計の本ってどれ?

139 :132人目の素数さん:2007/12/23(日) 20:17:26
fumio hayashi

Econometrics


140 :132人目の素数さん:2007/12/24(月) 04:12:54
計量経済信者うぜぇ

141 :132人目の素数さん:2007/12/24(月) 04:21:02
日本人の書いた世界的な本なら、Ikeda・Watanabeか?

142 :132人目の素数さん:2007/12/24(月) 05:44:56
重回帰分析を実施する前に、
◆正規性検定(歪度、尖度)で調べる→不可なら変数変換
◆直線性(散布図)→不可なら変数変換
と上記2つを満たすために変数変換する手順、方法をご教授お願いします。


143 :132人目の素数さん:2007/12/25(火) 07:40:12
>>142
実際のところどうなんだろ?
まず重回帰分析をやって決定係数をだした後に、マルチコ、外れ値、正規性や直線性を決定係数で判断しながら変数変換するのかな。
家にあった5冊の書籍を確認したが手順がわからないね。


144 :132人目の素数さん:2007/12/25(火) 16:10:05
統計ソフトの英文マニュアルを読んでいます。

CON-file

の「CON」は何の略字でしょうか?

145 :132人目の素数さん:2007/12/25(火) 22:10:24
キツネ

146 :132人目の素数さん:2007/12/26(水) 02:17:00
池田渡辺ってだれよ?

147 :132人目の素数さん:2007/12/26(水) 02:45:54
スタンダードは
ホーエルでは?

148 :132人目の素数さん:2007/12/26(水) 02:46:29
Fumio Hayashiこそ世界の林です

豊田先生の著書なんかもいいかもしれんね。

149 :132人目の素数さん:2007/12/26(水) 04:07:57
だから、林は計量経済学であって、確率・統計じゃないだろ。
計量経済学って結局確率・統計の深い所まで書いてないだろ?

渡辺信三を知らないのか?


150 :132人目の素数さん:2007/12/27(木) 07:31:25
重回帰分析の手順って確立されていないということですか?

151 :132人目の素数さん:2007/12/27(木) 16:52:25
今数理統計学を大学で履修してるんですけど、
全く理解しないで暗記だけでテスト受けてる感じです。。。
知識詰め込むだけの数学はつまらなくてしょうがないです。
皆さんはどうやって数理統計を勉強してますか?
なにかおすすめの参考書などありますか?
大体有名な分布やそれらの積率母関数の求め方はちゃんと頭に入ってるんで、
これを生かしたいんです。

152 :132人目の素数さん:2007/12/27(木) 17:43:36
 ★★小泉純一郎と安倍晋三は朝鮮人★★
コピペして各板に貼り付けよう 知人にも話そう
小泉純一郎 
・戦前大臣を務めた祖父小泉又次郎は純粋な日本人とされる。だが、純一郎の帰化朝鮮人である父が鮫島姓を買い取り
 又次郎の娘をたぶらかして婿として小泉家に入る そこで小泉家は帰化朝鮮人である純一郎の父に乗っ取られた
 参照http://ja.wikipedia.org/wiki/%E5%B0 上下くっけて
%8F%E6%B3%89%E7%B4%94%E4%B9%9F
・父親の純也は、鹿児島東加世田の朝鮮部落の出身者といわれる 日大卒業名簿には、純也の日本名はなく、
 見知らぬ朝鮮名が書かれているという  
 純也は朝鮮人の帰国事業、地上の楽園計画の初代会長であった
・結婚後、子供をもうけ即離婚した宮本佳代子は在日企業エスエス製薬創業者の孫
・小泉の元秘書官の名前は飯島勲←注目 帰化朝鮮人
・派閥のドン森喜朗も生粋の朝鮮人 ←森も帰化人がよく使う通名
・小泉は、横須賀のヤクザ、稲川会と関係が深い
安倍晋三
・岸家 毛利元就が陶晴賢と厳島沖で戦い大勝を収めた際、寝返って毛利方についた船の
 調達人が「ガン」と称する帰化人であったという 毛利はその功績によって「ガン」を
 田布施周辺の代官に召したてた このガンを岸家の先祖とする説がある
・祖父岸信介が文鮮明と共に 反共団体 国際勝共連合(統一教会)を設立
・官房長官時代統一教会「合同結婚式」に祝電を送り、話題に
・安倍のスポンサーは、下関の朝鮮人パチンコ業者である
・グリコ森永事件時、明らかになった帰化朝鮮人企業森永のご令嬢と結婚
・そのわが国のファーストレディーは電通(会長成田豊、半島生まれの帰化人)勤務という分かりやすい
 経歴の持ち主の朝鮮の血筋
・韓国、中国の留学生に日本の企業に入ってもらうために住居費分、学費免除分、生活費など月計20万〜30万円相当の支給
 日本人のワーキングプア層を全く省みない また帰化系在日系朝鮮人が日本の企業で技術を盗み、半島の現代などの企業に
 伝授していることが深刻な問題になっている 


153 :132人目の素数さん:2007/12/27(木) 18:06:11
>>151
統計数理はあとで役立つ。
基礎トレだから手抜きせずマジにもならずやっとくのが吉。

154 :132人目の素数さん:2007/12/28(金) 01:01:26
すみません重回帰分析を行っているのですが
定数項を含む場合と含まない場合で相当結果が違ってきます。
特に寄与率は定数項を含む方が小さく、含まない方が大きくなります。
また、説明変数のt値なども両者で相当な違いが見られます。
定数項を含む場合の寄与率の導出等については文献があるのですが
定数項を含まない場合についてがどうしてもよくわかりません。
なぜこのような事になるのか・・・
また、どちらの結果を使うのがよいのか・・・(定数項を分析の際入れるか)
どなたかご教授頂けないでしょうか?

155 :132人目の素数さん:2007/12/28(金) 01:10:34
>>154
目的因子と説明因子の関係が原点を通るか通らないかで判断する。



156 :132人目の素数さん:2007/12/28(金) 03:03:19
>>138
graduate の入門レベルの本だと、統計学やる人向けはこんな感じ。
測度論:Billingsley, "Probability and Measure"
推定:Lehmann and Casella, "Theory of Point Estimation"
検定:Lehmann and Romano, "Testing Statistical Hypotheses"
Lehmannの2冊は古いし測度論的な記述が完全に一般化されてない箇所も
あるけど、総合的にはこれを超える本はないような気がする。
Bayesとかは詳しく知らん。
回帰分析や分散分析は、なかなかいい本がない。
(昔に書かれた数学的に細かい本ならあるが。)

確率論に関しては、
Durrett "Probability: Theory and Example"
Kai Lai Chung "A Course in Probability Theory"
Kallenberg "Foundations of Modern Probability"
あたりか?
Durrettは簡潔な教科書スタイルの本だがギャップも多く難しい
という評判、Kai Lai Chungは評判はいいがやや記法が古い。
Kallenbergは辞書のような本。

補足、追加、反対意見などある人ヨロ。

157 :132人目の素数さん:2007/12/28(金) 11:06:27
>>155
ありがとうございます
つまり仮定しているモデル式に定数項が含まれないなら
定数項を含まないモデルで解析という事でしょうか?

158 :132人目の素数さん:2007/12/28(金) 13:19:11
>>157
まぁそういうこと。
xが0の時yは0なら定数項はなし(原点を通るから比例関係)

159 :132人目の素数さん:2007/12/28(金) 18:53:06
勝手にモデルを決めたら、結果を認めて貰えない。
一般に線形回帰モデルは定数項付きなので、
何かの理由で定数項無しの特殊なモデルを使いたい場合は、
まず定数項が統計的に有意じゃないことを示す必要がある。

160 :132人目の素数さん:2007/12/29(土) 07:36:36
どうか、お願いします。
バリマックス回転したいんですが、エクセルしかなく、
さっきR言語をインストールしたんですがさっぱりわかりません。
R言語のサイトで
ttp://aoki2.si.gunma-u.ac.jp/R/src/all.R
が紹介されていて、この関数を入れるとバリマックス回転ができるそうなんですが
ここの関数を使おうとしてもなぜか正常に表示されず、使用することができません。
どうか、何か、妙案を出していただけませんか?
お願いします。

161 :132人目の素数さん:2007/12/29(土) 12:38:08
>>160
Rのスレで質問したほうがすぐに答えてくれると思う

162 :160:2007/12/30(日) 09:04:36
了解です。

163 :132人目の素数さん:2007/12/30(日) 21:27:39
信頼区間の信頼率と被覆確率について教えてください。

信頼率というのは、
例えば信頼率95%の場合には、複数の信頼区間を計算したうちでは
「真値を含む信頼区間」が95%ある、ということで間違いないでしょうか?

また、被覆確率というのは、
ある文献では信頼率と同じことと説明されていて、
他所では「作られた信頼区間の中に母数の推定量が入る確率」である、
と説明されていました。
これはどちらが正しいのでしょうか?

164 :132人目の素数さん:2007/12/30(日) 23:22:22
「信頼率」は「信頼係数」のことかな?
だと本来は同じ。
しかし二項分布とかポアソン分布などの離散型確率変数の場合、
正確な信頼区間は作れない。
よって名目上の信頼係数と実際の被覆確率とが違うのは普通。

165 :132人目の素数さん:2007/12/31(月) 00:37:27
正規分布の問題で
高1男の身長X、女の身長Yがそれぞれ別な正規分布Nに従い分布する。
このとき、無作為に男と女を1人ずつ選ぶとき、女の方の身長が高い確率を求めなさい。
(実際の問題には平均、分散の具体的数字が入ってます)
というのがあって、解き方がわからないんですけど
どなたかアドバイスお願いします。

166 :132人目の素数さん:2007/12/31(月) 00:52:21
ヒント:差 Y-X の分布

167 :132人目の素数さん:2007/12/31(月) 01:14:52
>>166
アドバイスありがとうございます。
Y-Xの分布を出してみましたが、これをどう使えばいいかわからないです・・。
行き詰まったのでまた明日考えることにします。

168 :132人目の素数さん:2007/12/31(月) 10:30:51
>>165
Xとなる確率はわかる。
YがX以上となる確率もわかる。
最後にXで積分すると全体の確率がでる。


169 :132人目の素数さん:2007/12/31(月) 19:36:35
>>168
で、正規分布の密度関数の二重積分まで行って、
お手上げになる。
それが解けるようなヤシは、そもそも質問しないから。

170 :132人目の素数さん:2007/12/31(月) 19:43:09
>>167
Ganbarin sai yoh !

171 :132人目の素数さん:2007/12/31(月) 20:13:07
べき分布について詳しく書いてあるようなページはないですかね?
もしくは本でも良いんですが

172 :132人目の素数さん:2008/01/01(火) 16:38:29
>>169
> で、正規分布の密度関数の二重積分まで行って、
> お手上げになる。
つまり、その二重積分のやり方を教えればいいということか。

173 :132人目の素数さん:2008/01/01(火) 18:24:41
統計学を独学するのにいいテキストを探しています
候補としては東大出版の基礎統計学I 統計学入門か
統計学のための数学入門30講を考えているのですが
評判というか使い勝手はどうなのか教えていただけないでしょうか?
上のテキスト以上にいいテキストがあれば紹介していただけるとありがたいです
よろしくお願いします

174 :132人目の素数さん:2008/01/01(火) 18:49:02
後者は統計を学ぶためのあくまで「数学」の本だよ
数学がわかるなら必要なし

175 :132人目の素数さん:2008/01/01(火) 22:52:51
>>173
候補としてあがっているテキストが全くオススメでないことだけ教えておく。


176 ::2008/01/01(火) 23:09:35
〉173
学部はどこなの?
数学はどのていどわかるの?
いままで読んだ統計学の本は?
統計学を学ぶ目的は?

いつも思うのだが、単に統計学の入門書を教えてくれと書かれても答えようがないよ。


177 :132人目の素数さん:2008/01/01(火) 23:31:40
173です 説明不足だったことを反省しています
>>176
経済学部なので数学は半端に知っているという程度です(問題演習はそこそこできるが、証明はできません)
統計の本は読んだことがありません
授業も受けたのですが、まじめに受けていなかったので基礎から復習したいと思っています
最近統計がおもしろそうだと思ったので、理論的に筋の通った本を紹介していただこうと思って数学板で質問しました

>>175
上に挙げたテキストはアマゾンで評価の高そうなものをセレクトしたつもりでした

>>174
統計をやるにあたって、数学も理論的に押さえておくべきだろうと思い、上記のテキストを選びました

178 :132人目の素数さん:2008/01/01(火) 23:35:47
173ではないのですが、もし以下のような場合であればどのような書籍がお勧めでしょうか。

専門分野 教育学
数学理解 高校のころ2Bやって以来数年間触ってないので、ところどころ忘れている(3Cは未履修)。
既読書籍 「社会の見方、測り方―計量社会学への招待」
       「違いを見ぬく統計学―実験計画と分散分析入門」豊田秀樹
       あとは、講義等で講師が自前で作成した教材等。
学ぶ目的 数学的な基礎付けが弱いまま手法として丸飲みしてきているため、数学的にきちんとした理解がしたい。統計の利用方法は社会統計よりになると思います。

お手数しますが、何かお勧め頂けると有難いです。
宜しくお願いします。

179 :132人目の素数さん:2008/01/01(火) 23:49:10
>>177
統計学を勉強する目的は何ですか?
研究、資格試験などありますが。

180 :132人目の素数さん:2008/01/02(水) 00:34:18
私は最近統計の勉強を始めた者です。
テキストは東大出版会の統計学入門を使ってます。
この本に書いてることで疑問があるのですが、
『母平均を推定する問題では、母分散が既知なら正規分布、
母分散が未知ならt分布を使う。
母分散を推定する問題ではカイ二乗分布を使う。』
という理解でよいでしょうか?
この理解ではダメな問題があったので、理解が正しいか教えてください。

181 ::2008/01/02(水) 01:23:11
〉177
困りましたね。
本来、統計学は独学の困難な学問ですからね。
文系なら、岩田を2年ぐらいかけてじっくりやりなさいといいたいところです。本当に統計学がやりたければ、統計数理研の学生になりなさい。
面白そうというだけで、のんびり勉強していたのでは、数学と同じで何もえられません。
だれか先生につかないと。

182 :132人目の素数さん:2008/01/02(水) 01:43:14
>>180
正規分布ならOK.
推定の一般論について読めばそれの理解がよくないことがわかる。

183 :132人目の素数さん:2008/01/02(水) 02:58:44
>>177
東大の統計学入門は、初心者向けの商品カタログみたいな感じだから
独学には向かないと思うよ。そのレベルなら
 蓑谷 千凰彦「統計学入門」東京図書
がいいかも。もっと数学的でも良ければ、
 竹村 彰通「現代数理統計学」創文社
とか。

184 :132人目の素数さん:2008/01/02(水) 06:43:36
統計学を使って実証分析がしたいのか、純粋に統計学の理論を勉強したいのかで岩田氏の本以降の道が少し変わってくると思います。


185 :132人目の素数さん:2008/01/02(水) 07:56:36
>>177

統計をやるのなら、確率論をやった方がよい。こちらの方が遥かに応用範囲が広い。
統計は確率論の1つの応用分野である。で、確率論をやるのなら線型代数、微積分
及び集合と位相を最初にやる。お勧めはそれぞれ次の通り。1)線型代数:岩波基礎
数学講座の線型空間、2)微積分:岩波基礎数学講座の解析入門1〜4、3)集合と
位相:岩波の現代数学概説1、2。その中でとりわけ重要なのは微積分、集合と位相
である。高校数学は余りやる必要はない。次に複素解析と測度論をやる。複素解析は、
「岩波基礎数学講座の複素解析」の解析接続あたりまで、測度論は上の「現代数学概
説2」をやればよい。それから確率論をやる。お勧めは「岩波基礎数学講座の確率論」。
これとほぼ並行して、次のことをやる。

1:線型代数の穴埋め。
これは岩波基礎数学講座の「ジョルダン標準形と単因子論」、「2次形式」で十分。
2:少々の抽象代数。現代数学概説1の群、環、体あたりを読んでみよう。
3:複素解析の穴埋め。上に挙げた本を(Riemannの写像定理あたりまで)、暇なとき
或いは必要になったときに読んでいけばよい。
4:関数解析。お勧めは「岩波基礎数学講座の関数解析」。
5:Fourier解析。お勧めは「岩波基礎数学講座のFourier解析、解析入門5」。
6:微分方程式。お勧めは岩波講座の現代数学への入門の
「力学と微分方程式」、「熱・波動と微分方程式」    あたり。
7:岩波講座応用数学。色々読んでみるとよい。役に立つ筈。

ついでに言えば、腕力も鍛えておいた方がよい。

186 :132人目の素数さん:2008/01/02(水) 12:17:30
>>182 教えてもらってありがとうございます。

とりあえず今の理解でおおまかには大丈夫なら、
まず先に全体を終わらせるよう先に進めます。

187 :132人目の素数さん:2008/01/02(水) 13:29:57
>>186
大丈夫なのは正規分布の母平均の推定の場合に限ります。

東大出版会の統計学入門を使っているのなら違うのを読んだ方がいいかもです。
漏れも183の言うとおりだと思います。東大出版会でも著者が4人くらいの
統計入門は良いかも。あと183がすすめてる「現代数理統計学」は漏れもオススメ。


188 :132人目の素数さん:2008/01/02(水) 14:10:47
東大出版会の「統計学入門」については、初学者として始めた俺も同じ意見。
噛めば分かるのだが、すっと理解できるようには書いてない。
内容が難しいというより、説明に難がある気がする。もうちょっと行間を埋めた本の方が良さそう。

189 :132人目の素数さん:2008/01/02(水) 14:50:15
系列範疇法について質問があります。
各カテゴリーの相対頻度と等しい面積を持つように
正規分布を分割したいのですが、
具体的にどうすればどうすればよいのでしょうか。

190 :132人目の素数さん:2008/01/02(水) 19:32:13
>>180って他のスレで酷い質問しててワロタんだがw

191 :132人目の素数さん:2008/01/03(木) 03:15:42
移動平均の最適パラメータってどうやって求めるんですか?

192 :132人目の素数さん:2008/01/03(木) 06:24:38
変数XがA-B群間のt検定では有意差が出ないのに
判別分析(ステップワイズ法)ではA-B群の判別に寄与する変数として投入される

ぜんぜん違う分析だからそういうこともあるんだろうとは思いつつ,なんだかしっくりこない

193 :132人目の素数さん:2008/01/03(木) 18:32:56
コーシー分布の平均値って事実上ゼロでしょ?

194 :132人目の素数さん:2008/01/03(木) 21:37:43
>>193
「事実上」ってなんだ

195 :132人目の素数さん:2008/01/03(木) 21:50:06
>>192
散布図を描くとするでしょ
右上がり45度の直線を挟んで明らかに二つの群に分かれる、と。
横軸だけでは充分に判別できないし、縦軸だけでも充分に判別できないが、二つ合わさればできる。
こういうのでどうでしょうか

196 :132人目の素数さん:2008/01/03(木) 22:52:06
>>193
左右対称な分布なら 平均 = 中央値 と定義すればそう。

197 :132人目の素数さん:2008/01/03(木) 23:01:51
>>193
平均と中央値をごちゃごちゃにしてはだめです。
平均と中央値は中心という概念では同じですが、定義は全く違います。

198 :132人目の素数さん:2008/01/04(金) 13:15:44
コーシー分布にしたがってランダムに数を生成させて、その数の平均を取ればゼロになるんじゃない?

199 :132人目の素数さん:2008/01/04(金) 14:47:30
>>195
あー,なるほど,そう言われるとよく分かる.

200 :132人目の素数さん:2008/01/04(金) 17:16:13
>>198
コーシー分布にしたがってランダムに数を生成させる方法を述べよ
仮にそのような標本が取得できたとして母平均を推定する方法を述べよ

201 :132人目の素数さん:2008/01/04(金) 18:42:25
>>198 >>200
コーシー乱数は、区間(0, 1)の一様乱数の arctan 変換で作れるよ。

あと位置と尺度を一般化したコーシー分布、例えば
http://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%BC%E3%82%B7%E3%83%BC%E5%88%86%E5%B8%83
の母数は、「母平均」や「母標準偏差」ではない。
母平均も母分散も存在しないからね。

また標本平均も同じコーシー分布にしたがうから、位置母数の推定には不適。
というか、そもそも推定している対象が存在しない。
コーシーの位置母数は、「母中央値」と考えて、標本中央値で推定するのが吉。

つまり、裾長分布の兆候を持つデータの位置母数推定で、
標本平均を使うのは危険。経験的には、外れ値を除外したり、
両端を一定率で除外した調整平均が使われている。
一方、正規分布など特定の分布では少し効率が悪いが、
「標本中央値なら常に安全」という教訓になるのがコーシー。

202 :132人目の素数さん:2008/01/04(金) 18:49:11
コーシー分布にしたがってランダムに数を生成させる方法はある。
まず、(-∞, +∞)の一様分布の確率変数p(x)を用意する(ただし、厳密な意味ではこれが一番難しい)。
あとは、コーシー分布y=f(x)の逆関数x=φ(y)を用意して、
q(y)=Σp(φ(y))・dφ(y)/dy
で定義されるq(y)で数を生成すればOK。ただし、x=φ(y)は二価関数なので、単調増加の領域と
単調減少の領域に分けてΣを計算すれば良い。

203 :132人目の素数さん:2008/01/04(金) 18:55:38
>>202
それ合ってんの?

204 :202:2008/01/04(金) 18:57:21
>>203
知らんw

205 :132人目の素数さん:2008/01/04(金) 19:00:33
(-∞, +∞)で一様に生成される確率変数なら、ほぼ確実に-∞と+∞の二値しか取らないのではないだろうか?

206 :132人目の素数さん:2008/01/04(金) 19:00:37
>>204
何だ知ったかか

207 :132人目の素数さん:2008/01/04(金) 19:07:15
何で無駄に(-∞, +∞)で考えてんだよ
もっと効率よくしろ

208 :202:2008/01/04(金) 19:09:23
>>206
小針の確率・統計入門のP49§3確率変数の変換に書いてある

209 :132人目の素数さん:2008/01/04(金) 19:12:22
標準正規の比や一様分布のtanで生成するだけだろ

210 :201:2008/01/04(金) 19:20:40
訂正
×arctan 変換で作れるよ。
○ tan 変換で作れるよ。

スマソ。逆が2回出てくる関係なので、書く時に確かめずに勘違いした;



211 :132人目の素数さん:2008/01/04(金) 20:33:57
理論的に生成可能かどうかは問題ではない
問題は生成した数からどうやって>>198の言う平均を計算するかだ
そもそもこの計算自体が既に不可能だろうという話

212 :132人目の素数さん:2008/01/04(金) 20:48:33
実測値の算術平均なら何の問題もなく計算できます

213 :132人目の素数さん:2008/01/04(金) 21:27:51
>>212
>>198の検証をたのむ

214 :132人目の素数さん:2008/01/04(金) 23:59:26
だーかーらー
コーシー分布乱数の標本平均は、同じコーシー分布乱数なんだよ。
どれだけ大標本でもだ。つまり平均取っても無意味。

>>198は「標本平均は必ず確率収束する」と思ってる厨房w

215 :132人目の素数さん:2008/01/05(土) 07:16:26
「事実上の平均」に面白い定義を与えられるかどうかだな。

乱数を[-d,d]にtruncateした上で平均を取って極限をとり、
最後にd→∞にしてみるとか?

216 :132人目の素数さん:2008/01/05(土) 10:53:42
クイズ問題のサイトを作ろうと思っているのですが、
1万のクイズを、複数の人に自由に解かせるとして、
(クイズを解く数は個人差ありで、いつどれだけ解いてもいいし、
一度、解くのをやめ、後でまた解いても良い。)
どのような公式で、ランキングをつけたら良いのでしょうか。
例えば、単純確率だと10問中5問正解した人と、
100問中50問正解した人は、同じランクになりますが、
果たして、これは、同じランクで良いのでしょうか。
そうすると、1問中1問正解した人は、いつも1位となってしまいます。
何か、良い公式がないでしょうか。

よろしくお願いします。

217 :132人目の素数さん:2008/01/05(土) 13:20:23
単純に
正解数−不正解数
じゃダメ?

218 :132人目の素数さん:2008/01/05(土) 15:16:41
>>216
検定の考え方を使えば多少は重み付けも出来るが
明確に順序をつけるのは無理だろう

ゲームとして割りきるなら
 正答率*正答率*回答数
くらいで良いんじゃないかと思う。
理論的根拠は無い。

219 :132人目の素数さん:2008/01/05(土) 18:26:36
>>216
乱暴だけど、 n 問中 x 問正解する確率が、1問正解する確率 p の
事象を n 回独立に繰り返した時の二項分布になるとする。
この二項分布の平均は μ = np、標準偏差は σ = √(np(1-p))。
仮に1問正解する確率を p=1/2 とすると、μ = n / 2、σ= (√n )/ 2。

正解数 x を標準化した値 z = (x - μ)/σ を使って比較すれば、
マハラノビス距離空間上のランキングが得られる。

p の推定値は、参加者全員の 正解数合計 / 解いた問題数合計
が良いけど、それだと毎回ランキングが変化する。
問題作成者が p=1/2 とか 1/4 とか適当に決めても良いかも。。。

220 :132人目の素数さん:2008/01/05(土) 20:20:15
>>215
コーシーの主値

221 :219:2008/01/06(日) 18:34:11
>>216
数値例が無かったので補足。

選択式の回答方式だと思うので、すべて「4択」だとしよう。
そうすると、「でたらめに答えて」当たる確率は p=1/4。
この時 μ = n/4、σ = (√n√3 )/ 4。
z = (x - μ)/σ は、よりわかりやすく「偏差値 D = 10z + 50」に変換。

n      x       z      D(偏差値)
1      1      1.22     62  … 1問中 1問
10      5      0.65     56  … 10問中 5問
100     50     2.04     70  … 100問中 50問
1000    500     6.45     115 … 1000問中 500問

・正規分布近似を使っていることになるので、精度条件として
 だいたい np≧5 (p≦1/2) または n(1-p)≧5 (p>1/2) が必要。
 よって p=1/4 なら n≧20、つまり20問以上答えた者のみランキングに入れる。
・偏差値 D が使用する有効精度内で同じ場合には、問題数 n
 の大きい方を上位とする。

※1次元で「マハラノビス距離空間」は大袈裟なので、「偏差値」が良い。

222 :132人目の素数さん:2008/01/06(日) 19:18:40
くだらん。
正解数−不正解数の方がよっぽど役にたつ。

223 :132人目の素数さん:2008/01/06(日) 19:47:21
>>222
Aは、100問全問正解(正解率100%)で 100 − 0 = 100。
Bは、200問中151問正解(正解率75.5%)で 151 − 49 = 102。
B > A でいいのか?

224 :132人目の素数さん:2008/01/06(日) 19:53:31
いい。
100問正解の時点で、Aは残りの49問を正解する確証がどこにもないから、
ランキングとしては151問正解のBよりも低くランキングされるのが妥当。

225 :132人目の素数さん:2008/01/06(日) 19:54:36
上位一割くらいしか表示しないなら>>218がシンプルでいい
>>219みたいになると仮定の妥当性とかいろいろ面倒だからな

226 :132人目の素数さん:2008/01/06(日) 19:55:45
ただし、問題文ごとに独立性がないのなら話は別。
過去の正答率が未来の正答率を支配するような問題文の構成になっているのなら
単純な正答率によるランキングが妥当。

227 :132人目の素数さん:2008/01/06(日) 20:05:22
224=226です。

228 :132人目の素数さん:2008/01/06(日) 20:07:18
俺が野球チームの監督なら、200打席151安打のバッターと、
100打席全安打のバッターなら後者を使うけどな

229 :132人目の素数さん:2008/01/06(日) 20:14:35
何が正しい計量と判断できるかは、問題文(群)の構成に強く依存する。
問題文の独立性が保障される様な理想的な構成なら、正解数−不正解数が正しい計量となる。
が、何も考えずに羅列したいい加減な問題文の構成なら、単純な正解数/回答数が妥当な計量になるだろう。

230 :132人目の素数さん:2008/01/06(日) 20:27:48
>>226, >>229 が言ってるのは、「独立性」ではなく「異質性」だな。
つまり統計的な考え方が全く通用しない異質な問題が、毎回出題されるような場合。
量子力学の問題の次は文学の問題とか、、、
しかし回答者が人工無脳なら、「偶然」という同質性は排除できないぞ

231 :132人目の素数さん:2008/01/06(日) 20:31:06
クイズという問題をどうとらえるかだが、
あらかじめ確定した操作をランダムな順序で対象に実行して
その対象の性質を評価する過程と考えれば情報量的な扱いが妥当か。
と思ったが各問題の回答が持つ情報量は回答者依存だしなあ。

232 :132人目の素数さん:2008/01/06(日) 20:33:04
こういう話題が出てきてwktkしてきた
>>180-215のような低レベルな話より断然興味深い

233 :132人目の素数さん:2008/01/06(日) 20:54:08
出題側が、回答者のどういう能力を測定したいかをまず決める必要があろう。
ネイマン・ピアソンの考え方に従うか
ベイズの考え方に従うか
両方とも客観的で信頼の置ける考え方なので、出題側の教養とセンスによって
どういう統計量で判断するかが決まる。

234 :219=221:2008/01/07(月) 00:52:43
>>225
「でたらめ」に答えて正解する確率 p が限りなく小さいスタイルの
回答方式なら、>>218 でも良いよ。なぜなら

 z = (x - μ)/σ、ただし μ=np, σ=√(np(1-p))

において、分母の回答者に関する共通部 √(p(1-p)) を取り除くと、

 y = x/√n - np

で回答者同士を比較しているのと同じ。この値は p → 0 の時

 y → x/√n = (√n) (x/n) = (√回答数)・正答率

なので、自乗すれば >>218 の指標になる。

※知能や知識は、完全不確実状態(混沌)からどれだけ確実状態(秩序)
に近づいたかで計るのが、情報量的な考え方。
ただし、誤知能や誤知識という方向への脳内秩序もアリなので、
「でたらめ」よりも低い正答率が出やすく作られたクイズの方が面白い。

235 :234:2008/01/07(月) 00:59:44
× y = x/√n - np
○ y = x/√n - (√n)p

236 :132人目の素数さん:2008/01/07(月) 18:36:12
>>234
それが>>225でいう「上位一割」と「仮定の妥当性」の意味なんだけどな。
そもそもpは不確定なのだからそれに依存して決まる順位も絶対的ではなく、
結局のところ意味があるのはpに依存しない部分だけというわけだ。

お前さんは優秀なようだが教科書の理論だけでは統計の世界は生き残れんよ

237 :132人目の素数さん:2008/01/07(月) 21:24:23
すみません、お教えください。4群の共分散分析をやっていて、
回帰直線の傾きが有意に違う、という結果を得ています。
で、1つのグループAを除いて3群で検定すると傾きに有意差は見られません。
グループAの傾きが他の3群と異なるかどうか、を知りたいのですが、
ボンフェローニ等の補正をし、グループ毎に対比較をすれば良いのでしょうか?


238 :234:2008/01/07(月) 21:36:34
>>236
まあまあ抑えてw、たかがクイズのランキングの話。
で、(初等教科書的な)二項分布モデルが気に入らないようだけど、
こう考えればどうかな?

クイズの回答はすべて選択式で、選択肢の数は常にM個とする。
また出題時に、選択肢の順序は乱数でかき混ぜる。

別室に居る見えない回答者にクイズを出題して、その答えのみから
回答者がサイコロのような乱数器(完全無知脳)を使っているか、自分自身
(幾分の知能を保有)でマジに答えているかを判定する。
もちろんすべてLANで繋がったPCを使ってだ。プロトコルはHTTP-TCP-IP、
記述言語は HTML+Javascript で十分だろう。OSは何でも良いw

この場合の統計的検定は、p=1/M の二項分布モデルそのものになる。
したがって、「知能」を「無知脳では無い統計的度合い」によって計るなら、
>>219, >>234-235 の尺度を使うことなる。

つまり、p もモデルもすべて出題時に確定していて、どこも不確定ではない。
不確定なのは、知能の持つどんな側面を見れば良いか、出題する内容の方。

239 :238=234:2008/01/07(月) 21:47:00
× 使うことなる。 ○ 使うことになる。

240 :132人目の素数さん:2008/01/07(月) 22:11:03
>>237
ボンフェローニでAと他の群がすべて棄却され、
他の群同士は棄却されないならそれでいいんじゃない?
(ボンフェローニだと補正がきつすぎてAと他の群で
棄却されないものが出てくるのなら問題だが。)


241 :237:2008/01/07(月) 23:39:27
>>240
ありがとうございます。方法としては間違ってないと知り、安心しました。
仰る通り、補正がきつくすべてを棄却することができません。もう少し弱そうな補正を探した所、
ttp://www.human.tsukuba.ac.jp/~percept/index.php?ANOVA%B7%AF%2F%C2%BF%BD%C5%C8%E6%B3%D3%A4%CE%CA%FD%CB%A1
を見つけました。群馬大の青木先生の掲示板では、シダックの方法?というのが出ていたのですが、
解説されている本、永田靖・吉田道弘著「統計的多重比較法の基礎」が品薄ですぐに手に入りません。
もちろん後日文献にて確認するつもりではありますが、シダックの不等式を確認させて下さい。
1−(1−α)^(1/k)がシダックの不等式なんでしょうか?

242 :132人目の素数さん:2008/01/08(火) 01:41:49
連続型確率関数Xの確率密度関数が
f(x)=1 (0≦x≦1)
の場合で
X=e^-Y/2
とするときのYの確率密度関数の求め方ってどうすればいいですか?

243 :132人目の素数さん:2008/01/08(火) 01:45:01
変数変換の公式を調べてそれを使うだけだろ
別に何も変わったところがない

244 :132人目の素数さん:2008/01/08(火) 01:49:00
>>242まで辿り着いてここでつまってしまったんです

245 :132人目の素数さん:2008/01/08(火) 01:50:00
>>243で書いてある通り、調べればすぐわかることだから自分で解決してみな

246 :242:2008/01/08(火) 02:06:12
何か勘違いしてたみたいで簡単にできました
お騒がせしてすいませんでした

247 :132人目の素数さん:2008/01/08(火) 02:06:18
また試験のシーズンか、、、

248 :132人目の素数さん:2008/01/08(火) 02:17:51
試験に囚われてはならない。
自分のペースで学習することが大切だ。

試験で良い点を取ったからと言って
本当の実力が付いているとは限らない。

249 :132人目の素数さん:2008/01/08(火) 23:35:10
>>241
シダックは使える条件があるからいいのかな?
大体4群だとボンフェローニで0.0125で
シダックで0.012741だからあまり大差ないね。
そのページのHolmの方法なんかいいんじゃない?
Shafferの方法は表がいるしね。


250 :132人目の素数さん:2008/01/08(火) 23:45:15
    2007年11月のウェブサイト利用統計
--------------------------------------------------
        順位  延べ利用時間 利用者数
             (万時間)   (万人)
--------------------------------------------------
某Yahoo!    1位→1位  12549
某楽天市場   3位→2位  2164
某ミクシィ   2位→3位  1669
某YouTube   4位→4位  1495      動画投稿
某ニコニコ動画  ?→5位  1249    386 動画投稿
某FC2     9位→6位   960      ブログ制作支援
某Google    7位→7位   794  >2000
2ちゃんねる  5位→8位   751      掲示板
某goo     8位→9位   645   1800
某msn     6位→10位  628
---------------------------------------------------

251 :237, 241:2008/01/09(水) 18:38:41
>>249
レスありがとうございます。あのサイトを良く読むと、例題がちょうど4群のうち1群が外れる、
という状態だったので、それを参考にすすめる事にしました。
ただ、シダックの不等式、式そのものを見つけられず・・・不安なのです。
その「シダックを使える条件」というのはページに書いてあった、反復測定データに使えない、
という事でしょうか?
(後出しで申し訳ないですが、検定しようとしているデータはそれぞれ独立サンプルです)

252 :132人目の素数さん:2008/01/09(水) 22:49:14
>>251
シダックの不等式は書かれてないが、それに基づく有意水準の調整は
>>241で合ってるよ。>>249もそれで計算しただけだしね。
ただデータが完全に独立でも共分散分析での傾きの検定では共通分散を
使うだろうから検定は独立にはならないよ。それでもシダックの不等式は満たしそうだけど
確信はないなあ。
>>249で差が小さかったし、シダックを使うというのならHolland-Copenhaverの方法まで
進めないと効果はないかもね。

253 :132人目の素数さん:2008/01/10(木) 00:24:36
鼻の炎症はビエン、では耳の炎症は?

254 :132人目の素数さん:2008/01/10(木) 01:10:26
 ━━━━━┓                          ____
           ┃                        /      \
           ┃┏┳┛┃┃┃       ,,..--――--/         \
 ━━━━━┛  ┃    ┏┛       |  ヾ==___ ヽ         \
   ┏┻━                   ヾ    :::::::::::::====\        |
   ┃┣┓┣┓   ━━┓╋    ┣    `ー--/       ミ(⌒)     /
 ┏┛  ╋  ━┓   ┏┛┃━┏╋   _  ヽ, )       ミノ ~レ-r -‐、/
     ━┻━  ┛   ┗━  ━┗┛  /  ヽ. <_       ノ__  i i i〉 〉
     ━                 /ヽ   }<´      / ヽ、 /_/_/レ′
┏━━╋                ,.-、/  ,.>-‐'" { _.......:::::::: ヽ、)ト´ ´ ヽ:;ヽ:;:-:;:-、.
┃ ━ ┃    ┃┃      ,,..‐'ヾ_j  ,..<     `ー、::::::::  /;: ̄:;i     ヽ、;:_;:;:;:;:;;:
┃┏┓╋    ┃      ,.-'"、 ヽ、 |::::/ /      /;:;:ヽ  ノ;:;:;:;:;:;:i      \ ヽ
┛┗┛┗┃┃┃      i./ヽ ヽ |ノ  !´      /;:;:;:;:;|  (;;/j;:;:;:;:;ヽ_   ノ  |
 ┛┗━┛   ┗━┛   (__/ヽjノ /      /;:;:;:;:;:;|、  (;:;ノ;:;:;:;:;:;:/\    |
  ┳━┳         /ヽ    / ┏━━┓ |;:;:;:;:;;/ ヽー'/;:;ノ;:;:;:;:/  |\   |
┏╋━╋┓    ┏┛    |   |         ┃ );:);/     ||(;:;:;:;/|  ヽ、\ |
┗╋━╋┛  ┏┛   ╋  ┃ ┃ ┃       ┃ ;:;::;:ヽ     |: ヽ;:;:ヾ    ヽ__ノ
  ┻━┻┃┃┗┓   ┃     ┃ ┃   ┏━┛
 ┛┗━┛     ┗┓ ┏╋   ┗      ┃
                   ┗┛       ┏┓
                        ┗┛

255 :251:2008/01/10(木) 01:31:44
>>252
>共分散分析での傾きの検定では共通分散を使うだろうから検定は独立にはならない
なるほど、納得です。Holm か Shaffer の方法でやる事にしました。ありがとうございました。

256 :32と35:2008/01/10(木) 02:04:32
コックス比例ハザードモデルについてお教えください。

予後推定因子を解析する際の事ですが
単変量解析をする際に、交互作用のある因子は除こうと思うのですが
SPSS でその因子の抽出の仕方を教えてください。

イベントが50例ある場合は、単変量解析の因子は5から10程度に絞り込む
必要があると思います。

もしくは交互作用のある因子を除く以外に絞り込む事は可能ですか?

257 :132人目の素数さん:2008/01/11(金) 19:59:43
「絶対計算」という本を図書館で借りて読んだ。

要点は、絶対計算したほうが良い、という感じで
なかなかいい本だった。

258 :統計:2008/01/11(金) 21:11:39
文系の大学生なんですが統計学で卒論書こうと思っています。なにかおもしろいテーマあったら教えてください。
アンケートを使ってどんな(容姿・性格)の人が好感をもたれるのかをやりたなぁと考えています。

259 :132人目の素数さん:2008/01/11(金) 21:11:59
Xが正規分布N(μ、σ二乗)に従う時、標準化するとσ分のX−μはN(0、1二乗)に従う。
N(0、1二乗)についてP(1.5<=σ分のX−μ)=0.07、
P(0.5<=σ分のX−μ)=0.31である。
あるクラスの生徒の成績Xが正規分布N(μ、σ二乗)に従う時、
μ+1.5σ<=Xの生徒は5段階評価の5、
μ+0.5σ<=X<=μ+1.5σの生徒は4、
μ−0.5σ<=X<=μ+0.5σの生徒は3をつけるとする。
この時5をもらうのは全体の()%、
4をもらうのは全体の()%、
3をもらうのは全体の()%である。

分かりにくくてすみません。とりあえず5をもらうのが7%というのまでわかりました。どなたかお願いします。

260 :132人目の素数さん:2008/01/11(金) 22:04:40
5が7%だとわかったのに何で4と3がわからないんだ?
5で計算したのと同じようにやればいいだろ。

261 :132人目の素数さん:2008/01/11(金) 22:44:57
4が24%で3が38%ですかね?
間違ってたらご指摘ください…。

262 :132人目の素数さん:2008/01/12(土) 13:14:22
すいません、無相関の検定って何でしょうか?
初心者丸出しの質問ですみません。

263 :132人目の素数さん:2008/01/12(土) 14:21:27
>>257
山形浩生が訳してるやつ?
結構おもろいよね

264 :132人目の素数さん:2008/01/12(土) 15:20:48
>>262
単回帰の傾きゼロ検定

265 :132人目の素数さん:2008/01/12(土) 15:22:57
>>258

統計数理研究所のHPで教員の業績を調べると、適当なテーマが見つかるよ。
副所長が『女子学生の飲み物調査』で論文を書いているとか。










266 :132人目の素数さん:2008/01/12(土) 21:26:58
すいません、質問させてください。

繰り返しのない二元配置(または乱塊方、反復測定一元配置分散分析)
で分析できるデータを、多重比較したいのです。

そもそもそういうやり方がないので、ボンフェローニの補正を行いたいのですが、
この場合、対応のあるt検定を繰り返して有意水準を補正すればよいのですか。
それとも、対応のないt検定を繰り返せばよいのでしょうか。

ご意見くださいますでしょうか。

267 :132人目の素数さん:2008/01/15(火) 21:21:41
>>262
普通に相関係数の検定でいいのでは。

268 :132人目の素数さん:2008/01/15(火) 21:29:11
変数変換について質問します。
0近傍で変化がなく、X軸のマイナス側はマイナスの値、X軸のプラス側はプラスの値の方に増加する(TANを平たくしたような関数)
ような変数変換がしたいのですが、
ロジスティック関数を90度回転したような変換を扱うにはどうしたらよいでしょうか?

269 :132人目の素数さん:2008/01/15(火) 23:12:43
tanを平たくした関数やロジスティック関数を90度回転させた関数で変換すればよい

270 :132人目の素数さん:2008/01/17(木) 08:18:16
目的はある値を予測することです。
外れ値の多いデータの場合、回帰分析は回帰直線が外れ値に影響されます。
外れ値の多いデータの場合、回帰分析は不適でしょうか?
1.不適なら分析手法は何を使うべきでしょうか?
2.また回帰分析で可能な場合外れ値分析や除去して回帰分析した予測をすると
予測の時に目的変数が未知の外れ値がきたときに予測精度が悪くなります。
どのように対処したらよいでしょうか?

271 :132人目の素数さん:2008/01/17(木) 20:44:18
>>270
>外れ値の多いデータの場合、回帰分析は不適でしょうか?
外れ値の多いデータというのは、通常の1次線形回帰分析での寄与率が
何%程度なのかな?80%未満なら、その回帰式を予測式に使うのは避ける
べきではないかな。
>1.不適なら分析手法は何を使うべきでしょうか?
偏回帰線図を見て、非線形傾向なら高次回帰分析にかけてみるとよいのでは。
応答曲面法をメニューに有する数万円のソフトもあるからね。

272 :132人目の素数さん:2008/01/17(木) 23:09:06
2は考え違い。
外れ値に対する予測精度を高めるということは
誤差に追従させるというのと同じ。

273 :132人目の素数さん:2008/01/18(金) 00:02:15
>>270
ロバスト回帰を使えば?

274 :132人目の素数さん:2008/01/18(金) 13:20:34
>>271
40項目あり、単回帰での寄与率は大きい方から45、30、20、18、、10、9、〜です。
偏回帰線図とは散布図のことでしょうか?調べてもわかりませんでした。

275 :132人目の素数さん:2008/01/18(金) 19:04:42
>>274
>40項目あり、単回帰での寄与率は・・・
40項目とは収集データの組み数のことでしょうが、重回帰でなく単回帰というと
説明変数が1種類だけなのですか?
>偏回帰線図とは・・・
ThinkSTAT等の重回帰分析ソフトで偏回帰プロットと呼ばれている散布図の
ことです。Excelの回帰分析だと観測値グラフが似ています。

276 :132人目の素数さん:2008/01/18(金) 22:44:10
ttp://www.vipper.net/vip437256.zip.html
誰かこの回答の仕方があっているか教えてくれませんか?
教科書とか持ってないんで調べようがないので。。。

277 :132人目の素数さん:2008/01/19(土) 07:56:09
>>275
40項目は説明変数の数です。やはり多数の説明変数の場合、重回帰分析をしなくてはならないですか?
EXCELでは項目規制があり40項目も解析できないので。
参考に単回帰分析で傾向をつかもうとしました。

278 :132人目の素数さん:2008/01/19(土) 10:24:12
見た目の説明変数の数はあまり問題ではない。
本質的なのは独立な説明変数の数。
主成分分析の言葉で言えば寄与率の比が問題。

>>274がどのような計算によるものか分からないが
この値を上記の寄与率と同じと考えれば
単回帰では大した精度は出ないことが分かる。

279 :132人目の素数さん:2008/01/19(土) 11:00:38
>>278
ありがとうございます。勉強になります。
上記の寄与率は一般的な寄与率=決定係数(Rの2乗)を計算しています。
EXCELのRSQ関数を使用しました。

これら40項目を足して、Y=a1X1+a2X2+〜+a40X40としました。
本来、重回帰分析で算出しなければならない回帰係数ですが、単回帰分析(a1〜a40)で計算して上記式で予測値Yを算出しました。

ここで、目的変数を予測値がどれだけ説明できているかを寄与率計算すると0.627でした。

これを重回帰分析で回帰係数を算出するとさらに精度向上できそうですか?

280 :132人目の素数さん:2008/01/19(土) 11:27:11
>>279の補足です。
Yの予測値を40項目を足したため、目的変数の値そのものを予測できていませんが、順序さえ一致していれば定数で割れば目的変数を予測できると考えました。
これの問題は疑似相関を排除できないことですが。。。
他に不具合等ありますか?

281 :132人目の素数さん:2008/01/19(土) 11:34:41
>>272
> 誤差に追従させるというのと同じ。
外れ値なのですが、誤差ではなく正しい値なのです。
たとえば、とある寸法がある値以上だと電流が流れるが、ある値以下だと電流が0になる。


282 :132人目の素数さん:2008/01/19(土) 13:43:45
サンプル数と偏差値で質問です。

信頼できる偏差値を求めるための最小のサンプル数とは、どの位の数
でしょうか?
私の母校の中学校では、1学年約380人で学年内の偏差値を算出していま
したが、これ位(380個)あれば信頼できる偏差値が得られるのでしょうか?

283 :132人目の素数さん:2008/01/19(土) 15:42:14
>>282
信頼もクソも母集団全体の標本をとってるじゃないか。

284 :282:2008/01/19(土) 21:13:18
>>283
ということは、母集団全体を標本とすれば、例えば1学年8人位の
山の分校であっても、そこでのテストの偏差値は信頼できるもの
ということでしょうか?


285 :132人目の素数さん:2008/01/19(土) 22:11:36
>>284
その意味で言うなら8人程度では全く信頼できないし
1億人のサンプルをとっても信頼できる保証は無い

286 :132人目の素数さん:2008/01/19(土) 22:50:48
>>279
単回帰の結果を重ね合わせて良い理論的根拠は何も無いよ
無数の乱数を説明変数として加えて同じことをするのは無意味だと思うだろう?
逆に重回帰で同じことをやればいくらでも標本に対する説明能力は上がる
その代償として未知の標本に対する説明能力は下がるけどね

非常に運が良くない限り今の手法で予測するより
単回帰をして一番良い説明変数を一つ選ぶ方がましだと思う
どうしても計算が面倒ならアートな手法もいくらか思いつくけど
自分でやるなら素直に重回帰か主成分分析を使うね

287 :282:2008/01/19(土) 23:25:13
>>285
結局は数というよりも、得られた数値をグラフにプロットしたとき、
それらが正規分布に乗るかどうかということですか?

一応の目安としては、適当に校区内から生徒を集めた公立中学で
あれば、1クラス40人程度の母集団以上なら、まあ信頼できる値が
得られると見てOK?

288 :132人目の素数さん:2008/01/19(土) 23:52:56
>>287
>それらが正規分布に乗るかどうかということですか?
そういうことです

>1クラス40人程度の母集団以上なら、まあ信頼できる値が
>得られると見てOK?
だからこういう質問には答えようがありません

289 :132人目の素数さん:2008/01/20(日) 01:46:40
>>286
重回帰分析がよいのはわかっているのですが、
単回帰の結果を重ね合わせてダメだという理論的根拠がわからなかったので。

290 :132人目の素数さん:2008/01/20(日) 03:44:51
統計学の教科書を見てふと思ったのですが、得られる数値(分散とか偏差値)
には有効数字の処理は必要ないのですか?
例えば、卵の重さが小数点を含めて3桁だったときには、この平均や標準偏差
は2桁にすべきなのでしょうか?


291 :132人目の素数さん:2008/01/20(日) 08:50:46
あまり気にしたことは無いが単純に有効数字で切るような習慣は無いな
一般に統計量は信頼区間を伴うものだから有効数字とは比較にならないくらい
精度の悪い値だという認識が根底にあるせいだと思う
そういう意味じゃむしろ有効数字が10桁でも3桁程度しか書かないことの方が多いかも

292 :132人目の素数さん:2008/01/20(日) 20:33:55
精度が悪いか。それも一面的な見方だな。
有効数字が2桁しかないとき、データ数が多いなら逆に平均は
安定するので3桁取ることも多い。
結局データ数との兼ね合いで変化するってことじゃない?

293 :132人目の素数さん:2008/01/21(月) 18:26:02
すみません質問です。
データ列同士の相関図を取ったとき、各列の相関を距離とみなして空間を定義できると思うのですが、
こういう空間は一般に何と呼びますか?また、統計学でのどんな概念と対応しますか?
後で詳しく調べたいのでヒントをください。

294 :132人目の素数さん:2008/01/21(月) 18:29:08
あにそれ
相関行列のこといてるのぁ

295 :132人目の素数さん:2008/01/21(月) 18:42:00
おおっ!?相関行列ってやつがそれですか!
すると行列操作が空間操作を意味していて、回転とか次元圧縮とかは行列演算で全部済ませると…。
いまいち用語の繋がりが分からなかったので…感謝です。

296 :132人目の素数さん:2008/01/21(月) 18:49:47
さっそく相関行列でぐぐったら悩んでいた事に対応する用語、多重共線性を発見できました。
ありがとう。

297 :132人目の素数さん:2008/01/21(月) 19:41:22
人口の減少と運転率減少の関係性を調べたいのですが、どのような統計手法を取ればいいのでしょうか?

現在あるデータです↓
・1995年と2005年の人口数
・1995年と2005年の運転者数
・1995年と2005年の運転率(=運転者数・人口数)


298 :132人目の素数さん:2008/01/21(月) 19:56:56
標本が二点だけじゃ線引いて傾き調べて終わりだな

299 :132人目の素数さん:2008/01/21(月) 21:11:47
線というより面じゃ

って、どのみち何も得られんね、データが2つじゃ

300 :132人目の素数さん:2008/01/21(月) 21:31:28
>>298
例えば、
1995年の人口が1200人
2005年の人口が800人
1995年の運転者数が120人
2005人の運転者数が40人

としたら、運転者の変化量/人口の変化量=(40-120)/(800-1200)=0.2という感じでよろしいのでしょうか?
傾きを出した場合、対応関係の有無はどのように調べれば良いのですか?
何度もすみません・・・。

301 :132人目の素数さん:2008/01/21(月) 21:54:32
いや、だからさ
そこから先どうしようもないから終わりなわけよ
いちおう0.2という係数が出たんだから0でもマイナスでも
無さそうだなあという程度のことしか言えない
せめて10点くらいはデータ取らないと形にならないよ

302 :132人目の素数さん:2008/01/21(月) 22:19:14
次の問題がわかりません

適合度検定を構成する検定統計量が、漸近的にカイ2乗分布に従うことを証明せよ

いろいろ調べんたんですけど。適合度検定とカイ2乗分布が漸近的に同じというのは書いてあるのですが
その証明方法がわかりません。


303 :132人目の素数さん:2008/01/21(月) 22:38:34
稲垣の数理統計学に書いてあるんじゃね?

304 :132人目の素数さん:2008/01/21(月) 23:01:35
有意差検定の結果をアルファベットで表示する方法がわかりません・・・
誰か教えて下さい(泣)

305 :132人目の素数さん:2008/01/21(月) 23:15:09
Pleasure of probabilityって本どこか変えますかね?探しているけどなかなか見つからなくています

306 :132人目の素数さん:2008/01/21(月) 23:19:43
訂正:どこかで買えますかね

307 :132人目の素数さん:2008/01/22(火) 08:56:49
多重共線性が前提となる変数を元にモデルを作りたいのですが、増減法のように捨てられるほどの数の変数がありません。
基準化バリマックス法というのを使うと変数の多重共線性を押さえ込めるようなのですが、この理解で合っていますか?


308 :132人目の素数さん:2008/01/22(火) 12:41:57
http://www.google.co.jp/search?hl=ja&q=Pleasures+of+probability&lr=
pleasureSSSSSSSSSSS

309 :132人目の素数さん:2008/01/22(火) 17:56:24
>>304
5%とか1%とか固定水準と比較してたのは、コンピュータ前の時代。
今はP値を書くのが普通だし、そうでないと受け入れられなくなって来てる。

310 :132人目の素数さん:2008/01/22(火) 18:28:01
>>304
>結果をアルファベットで表示する方法が・・・
結果なら、rejectedかpassedだろ?

311 :132人目の素数さん:2008/01/22(火) 20:13:20
acceptedではなくて?

312 :132人目の素数さん:2008/01/22(火) 21:33:09
魚の餌Aを一定期間魚に与えて体重を測定したところ、次のようになった(単位はg)。
  58,55,54,47,59,51,61,55
餌Bは体重を増やすように餌Aを改良したもので、この餌を与えて上と同じ期間後に体重を測定したところ、次のようになった(単位はg)。
  64,57,59,63,56,63,56,60,63,61
餌Bの効果はあるのかどうかを検定せよ。ただし、餌以外の魚の条件は一定とし、またこの魚の体重は正規分布に従っているとみなす。

↑のような問題が学校で出題されました。
まったくわかりません。。。
お手数だとは思いますが、どなたか解答を教えてください。
よろしくお願いします。

313 :132人目の素数さん:2008/01/22(火) 21:35:08
なんで統計ってこんなに面倒なんだ・・・。
理解のためになるべく自前で計算しようと思っていましたが
固有値やら連立方程式やらが出てきた時点で諦めました。
さすがに数値計算ライブラリを自作する時間も気力も無いな!
素直にR言語に逝ってきます・・・。

314 :313:2008/01/22(火) 21:35:53
紛らわしくてすまんが俺は>>312ではないとだけ言っておく。

315 :132人目の素数さん :2008/01/22(火) 21:35:56
魚の餌Aを一定期間魚に与えて体重を測定したところ、次のようになった(単位はg)。
  58,55,54,47,59,51,61,55
餌Bは体重を増やすように餌Aを改良したもので、この餌を与えて上と同じ期間後に体重を測定したところ、次のようになった(単位はg)。
  64,57,59,63,56,63,56,60,63,61
餌Bの効果はあるのかどうかを検定せよ。ただし、餌以外の魚の条件は一定とし、またこの魚の体重は正規分布に従っているとみなす。

↑のような問題が学校で出題されました。
まったくわかりません。。。
お手数だとは思いますが、どなたか解答を教えてください。
よろしくお願いします。

316 :132人目の素数さん:2008/01/22(火) 21:36:33
>>312
平均値の差の検定。

317 :132人目の素数さん:2008/01/23(水) 00:49:05
統計学の問題なんですが、

一様分布(5,10)において、
P(X<6)=
P(7<X<9)=
を求めよ。

期待値E(X)=7.5 P(X)=1/5までは分かるんですが、
それ以降さっぱりです。
どなたかよろしくお願いします。

318 :132人目の素数さん:2008/01/23(水) 01:04:14
>>317
P(X)=1/5 ????

319 :132人目の素数さん:2008/01/23(水) 01:47:56
統計学を独学したいのですが、どういった本を買えば良いのでしょうか?
ネットで参考書を探してみたところ、
・はじめての統計学 鳥居泰彦
・スバラシク実力がつくと評判の確率統計キャンパス・ゼミ マセマ
・やさしく学べる統計学 石村 園子
・統計技法 宮川 雅巳
が良いとあったのですが、どうなんでしょうか?

320 :132人目の素数さん:2008/01/23(水) 01:51:22
>>317
一様分布でググレカス

321 :132人目の素数さん:2008/01/23(水) 11:55:09
質問です。例えば、女性の年齢とテレビの視聴時間が関係あるか調べたいんですが
          2時間以下  2〜3時間   3時間以上
20歳以下     40      30         28

21〜25歳    44      22         16
 
26歳以上    110      62         98

帰無仮説:年齢と視聴時間は関係なし
対立仮説:年齢と視聴時間は関係あり

このようなデータがある場合、カイ二乗検定で以上のような仮説を立てて関係の有無を調べても良いのでしょうか?

あと、例えば棄却されなかった場合は関係ありとなりますが、この関係性はどこまで信用出来るのでしょうか?


322 :132人目の素数さん:2008/01/23(水) 20:44:41
有意水準(危険率)とは帰無仮説H0が真であった場合に、帰無仮説H0を棄却してしまう確率である。
有意水準(危険率)というこの確率は(ア)を無限回行った場合の、(イ)/(ウ)、すなわち(ウ)に対する(イ)の比率の極限値として理解される。
この比率の極限値が「有意水準(危険率)」という確率なのである。

(ア)(イ)(ウ)に入る言葉は
ア→標本抽出
イ→H0が真であるのにH0を棄却してしまうこと
ウ→H0が真であること
であってますか?


323 :132人目の素数さん:2008/01/23(水) 20:54:40
>>319
その中ではマセマかな…。ただマセマの本は統計というより数学の本。証明は数学的だが問題は平易。鳥居さんや石村さんの本は立ち読みしただけだが、本当にビギナー向けで、中学レベルの数学力でも読めるらしい。個人的には東京大学出版会の統計学入門が無難だと思うよ。

324 :132人目の素数さん:2008/01/23(水) 21:00:13
>>322
いいんじゃない。 第一種の誤り、条件付確率だね。

325 :132人目の素数さん:2008/01/23(水) 21:10:29
俺も統計学の本はいろいろ漁ったなぁ…
でも結局は稲垣宣生まで行ってようやく理解できたよ

326 :132人目の素数さん:2008/01/23(水) 21:35:57
数学テストの度数分布表より
(1)平均 (2)モード (3)中央値 (4)90点以上の確立
を出したいのですがやり方を教えてください><

10点以上20点未満の人数が8人。20〜30点が9人。30〜40点が32人。40〜50点が63人。50〜60点が132人。60〜70点が75人。70〜80点が30人。80〜90点が9人。90〜100点が7人。合計365人。

327 :132人目の素数さん:2008/01/23(水) 21:42:44
レポートシーズン到来って感じだなw


328 :132人目の素数さん:2008/01/23(水) 21:46:14
>>327
すいませんw
ほんと数学ダメで・・・

329 :132人目の素数さん:2008/01/23(水) 21:47:29
東海大学の土井誠先生の統計学の本を読んだら?

330 :132人目の素数さん:2008/01/23(水) 22:05:35
>>326
平均は,得点の総和÷人数なんですが,この場合は代表値を使うしかないですね。
10以上20未満→この8人は15点とします。
同様に20〜30→この9人は25点とします。
以下同様にして,(8×15+9×25+……)÷365=平均値

これでいんじゃね?

331 :132番目の素数:2008/01/24(木) 00:20:20
回帰分析と回帰直線の勉強中ですがわかりません^^;教えていただけたら幸いです。パソに打ち込まずに直接求めたいです。計算式も欲しいです。
あるフィルム用の原材料の引っ張り強さ(y)と厚み(x)との関係を調べた結果18のデータを得た。
(x/y)=1(0.10/94) 2(0.13/100) 3(0.15/90) 4(0.18/83) 5(0.20/88) 6(0.22/92) 7(0.23/73) 8(0.25/80) 9(0.28/80) 10(0.30/85) 11(0.31/70) 12(0.33/75)
13(0.34/62) 14(0.36/76) 15(0.38/66) 16(0.42/77) 17(0.43/60) 18(0.46/66)

(1)回帰分析を行ないなさい
(2)回帰が有意となれば、xに対するyの回帰直線を推定しなさい。

この問題がどうしてもわかりません。よろしくお願いいたします。

332 :132人目の素数さん:2008/01/24(木) 00:31:28
1.座標にそれらの点をプロットする
2.いい具合にそれらの点の間を通る直線をエイやっと引く

回帰分析の出来上がり

333 :132人目の素数さん:2008/01/24(木) 00:39:44
X1,…,Xnが独立に(α、β)の一様分布に従うとする。
1)αが既知でβが未知数の時ベータに関する十分統計量を求めよ
2)α、βが未知数の時の(α、β)に関する十分統計量を求めよ
って問題なんですがどうやるのか教えてください。

334 :331:2008/01/24(木) 00:54:50
プロットを使わずに計算で得られると聞いたのですが・・・。
よろしくお願いします。

335 :132人目の素数さん:2008/01/24(木) 01:29:36
>>334
ExcelのLINEST関数のヘルプに計算式が書いてあるよ。

336 :132人目の素数さん:2008/01/24(木) 02:34:22
>>315
魚の重さが同じと仮説をたてて、棄却する

337 :334:2008/01/24(木) 08:09:57
どうしても数字が出てきません^^;誰か書いていただけないでしょうか?

338 :132人目の素数さん:2008/01/24(木) 08:34:14
>>337
アイスクリーム 統計学 でググれ。
それでわかんなきゃ諦めろ。

339 :132人目の素数さん:2008/01/24(木) 09:13:04
>>323
マンガでわかる統計学

はじめての統計学

統計学入門(東京大学出版会)

340 :132人目の素数さん:2008/01/24(木) 09:48:50
>>321
原則論で答えると
「かくかくの仮説でカイ二乗検定を使えるとして検定したらかくかくの結果を得た」
と言うことに尽きると思う
良いかどうかどこまで信用できるかはその結果を用いて事業展開する(その他利用する)側の意思決定にゆだねられる

良いかどうかを本当に判断するには
 なぜ年齢だけを取り上げるのか
 年齢が重要だという認識があったとしてなぜ20-25歳だけがこの表で特別なのか
 視聴時間でなぜ2時間台だけが特別なのか
つまりデータを集めて集計するところから
(もっと言うと前提となる予備的調査や背景の先行研究から)問わないとなるまい

各論の例として
「学生の間は視聴時間はいろいろだが仕事を始めると視聴時間は減り
その後結婚して仕事を辞めた人と仕事を続けた人で視聴時間が二極化」
という主張のために用意されたデータならば各年齢層で学生:仕事:主婦の
比率をとってそれを基準にした検定を行わないといけないだろう

341 :132人目の素数さん:2008/01/24(木) 10:51:25
>333お願いします。

342 :132人目の素数さん:2008/01/24(木) 13:24:55
>>341
分解定理版がwikipediaにある。
けどわかりにくいから、素直に最大値を与えた時の
条件付き分布を導く。2)はそれを最小値と同時やる。
以上ができなければ基礎不足なので、あきらめれ

343 :132人目の素数さん:2008/01/24(木) 13:34:47
東海大学数学科 土井 誠先生(統計学)

http://www.sm.u-tokai.ac.jp/~msdoi/index.html

344 :132人目の素数さん:2008/01/24(木) 15:04:21
この時期になって質問のレベルがガクッと下がったな

345 :ダメ院生:2008/01/24(木) 15:44:41
統計がからっきしで苦労しています。ご教授よろしくお願いします。

回帰分析の結果において、R^2値の解釈に関する質問です。
R^2値は回帰直線の説明力を表すという認識だったのですが、解せない点があります。

@説明変数を1つ(単回帰)にすると標準化係数βと直線のR値が等しくなる意味がわかりません。
 βは直線の傾きであり、説明力とは全く別の話ではないのでしょうか?

ASPSSで回帰分析をすると分散分析によって有意確率も同時に出してくれますが、
 そこから読み取れるものはR^2値と同じでしょうか?
 説明力がないことと、有意でないことはどう違うのでしょうか?

346 :132人目の素数さん:2008/01/24(木) 16:02:05
Read 研究者(土井誠)

read.jst.go.jp/public/cs_ksh_012EventAction.do?action4=event&lang_act4=J&judge_act4=2&code_ac...

347 :132人目の素数さん:2008/01/24(木) 16:13:48
>345

http://www.junkudo.co.jp/view2.jsp?VIEW=author&ARGS=%93y%88%E4%81%40%90%BD

を参考にして勉強しなさい。

348 :132人目の素数さん:2008/01/25(金) 06:14:45
マンガでわかる統計学って入門書としてはどうよ?

349 :132人目の素数さん:2008/01/25(金) 08:33:27
最近本スレで著者乙宣伝が出ているようだったがここも浸食か

>>348 漫画にページをとられるぶん説明が減っている
ただし細かい計算ばかりの本よりはよいという意見もどこかにあった

基本の説明に重点おいた本がベストだろうけど
2chにはそこまで見極める読者が少ないのかそういう視点の評は見つからない

一方基本中心の本については高校の教科書もけっこう書いてある
(というかみな勉強してこないので大学で学び直さないといけない)
のでそれとの比較が必要

350 :132人目の素数さん:2008/01/25(金) 12:46:03
>>349
絵ではずいぶん楽しませてもらった。
個人的に高橋信とトレンドプロのものはいい。
ただ、肝心の統計の中身はいかほど理解できたか心許ないw

351 :132人目の素数さん:2008/01/25(金) 14:09:12
マンガでわかるシリーズは
学び終えてもう分かっている人が
ニヤニヤ・ゲラゲラしながら読む"漫画"

これから学ぶ人にとっては
かえって本質が理解できずに読み終えてしまう・・・

無難に高校の教科書が良い


また『もえたん』にも同様なことが言える
もう既にその英単語の意味を理解している人が
萌え萌えしながら読む本

まだその英単語を覚えていない人には
無駄なイメージだけが先行し意味を理解せずに終わる

352 :132人目の素数さん:2008/01/25(金) 20:24:41
>>351
激しく同意

353 :132人目の素数さん:2008/01/25(金) 23:36:36
>>345
βと決定係数R^2とは違うと思うよ。決定係数というのは単回帰の場合、
相関係数の2乗と同じ。つまり説明変数xとyの相関関係。換言すると
yをxでどの程度説明できるか、というもの。
重回帰(多変数)の場合、母集団分布(の平均)を線型モデルで近似した回帰直線
におけるyの推定値を^yとすると、yと^yとの相関関係を示すもの。
^yは多変数x_1,x_2,.......,x_n の関数で示されるから、
結局単回帰の場合と同じ、yと多変数xの相関関係と同じだね。
βってのはその前の段階で母集団分布を線型モデルで近似的に考えた場合の
線形式の推定値。単回帰で最小二乗法使った場合は、
β=S_xy/(S_x)^2
重回帰の場合はちょっと計算が面倒になる。

354 :132人目の素数さん:2008/01/25(金) 23:43:56
>>345
ちなみに説明変数が存在しない場合は、
β=0,R^2=0だから等しくなるっちゃ等しくなる。


355 :132人目の素数さん:2008/01/26(土) 03:21:21
らき☆Sta (tistics)

…みたいな

356 :統計ド素人:2008/01/26(土) 04:58:52
諸理由ありまして,統計学を学んでますが,手詰まりになっています.
ヒトの光に対する反応速度を調べたい.さらに,光の色によって反応速度に差が出るのか調べたいとします.
光を認識後に,スイッチを押してもらい.光の提示時間とスイッチを押されたときの時間の差を反応時間としました.
そこで,被験者は5人で,提示色は3色とし,各二個づつのデータを取得しました.
データは総計で30個,各人につき6個取ったことになります.

漠として,データの取り方に問題があるように感じますが,そこに内在する問題や,解決方法がわかりません.
どなたか,ご教授お願いします.

357 :132人目の素数さん:2008/01/26(土) 16:06:26
.   ,-、   __          _                    _
   /  ',  / |    __  /   ̄ 7            r''´   `ヽ、
.  / ∧ V /i .|  ,,,_ |┌─゙  ̄ |┌┘._   __   /7  │       `ヽ
 / /  '__/ | |(.@.).| ニコ   | .|  /O|  | 、\/ /  _ !-‐'''''''‐-、  /
 `'''       |__| `''''´ |└‐┐ └ ゙ //~i ! |_| ヽ__/  .////__/ ,、 ヽ/。>
         _      ̄ ̄       ~ r三ヽ,、_ ;l/i/ニ_´// ノ|i ゾi
       / _`7     _          ヾニシO〈 |!| | 灯'´ 伐i/ /i |
        l r´  `  ,,,_  |.,-, ) r、 r┐r‐┐゙r''ニ.iヽr゙‐、゙、_ ー- ~゙/ノ'゙ヽ.l
        '、 ゙''‐-ヘ ( 6 ) | ,~<  | ,ヽ|│.| ニ, .| ゙´<`゙ーf|、 V>‐r'i>‐-r'ノ
       `''ー‐'' `''''´ .|_l\ゝ|_l ヽ_| |_三 l_l\ゝ/ll ゙i'::>イ::;lー‐'-r゙、___
                              //!|. f゙〈i゙ i゙|7    \、 ̄
                              ` ゙  ゙Y┬<ヾ)゙i   ヾ
                                  _!ニi T゙ │
                                (__| ゙ー''

358 :132人目の素数さん:2008/01/26(土) 17:23:43
最初に統計学を日本語訳した奴は誰だ
わかりずらすぎる
英語苦手な俺でさえ洋書のほうが理解しやすい

359 :132人目の素数さん:2008/01/26(土) 18:14:51
>>356
まず一人一色について精度の高い計測値が必要。
バラツキによりけりだけど、最低でも一人一色に付き10回の計測は
必要だと思う。
数回の計測から信頼区間を作ってみれば、必要計測回数が求められるよ。

360 :132人目の素数さん:2008/01/26(土) 23:40:33
>>356
心理学科?統計理論の問題というよりは、あなたのその専門分野によるような
気もするんだけど。。。
一般論で言えばサンプル数が少なすぎるんじゃないかな。


361 :132人目の素数さん:2008/01/27(日) 01:24:13
>>349
結局、統計の基礎を学ぶにはどうすればいいんだろうな…
しっかり学びたいけど、学校に行くお金と時間がないから、
通信制のある大学(慶應、法政、日大など)で統計学のクラスだけ取って
退学しようかなと考えてる。

362 :132人目の素数さん:2008/01/27(日) 08:02:10
わざわざ通信制なんかせんでも、本買って読めばいいんでね?
本を二冊ほど読み比べて問題集やれば、そんじょそこらの大学生に負けない程度には統計の基礎は身に付くと思うけど。
確率・統計の素養が高校レベルにも無いのならちょっと手間がかかるかもしれんが、それは通信制でやっても同じだし。

363 :132人目の素数さん:2008/01/27(日) 08:57:57
>>361
基礎・基本的なことは
やはり>>351氏や別スレでもよく言われているように
高校の教科書がよくできていると思う
NHK高校数学講座とか利用するとかね

もう少し突っ込んだ理論を学びたいのなら
放送大学の数学関連の講座とか?

364 :132人目の素数さん:2008/01/27(日) 09:01:31
>>361
>>349 >>351 も少し触れているが本気ならばまず高校の教科書の復習だろう
特に数Bや数Cは高校のカリキュラム(単位数)の計算上
教科書のいくつかの章は授業では省略するので
教科書に書いてあっても統計を全く習わずに卒業する可能性は高い

やる気があるならば自分で確率や統計の章を読み直せば新鮮だろう
改めて本を買う金すらいらない
進んだ勉強はそれから考えればもっと良い判断ができる

365 :364:2008/01/27(日) 09:02:55
>>363 とかぶってしまったが要するにそういうことだ

366 :132人目の素数さん:2008/01/27(日) 12:07:13
メディアンとモードの違いがよくわからないんで教えてください。

367 :132人目の素数さん:2008/01/27(日) 12:21:57
>>366
教科書やテキストをもう一度読み直そう
それはどの教科書でも書いてあるくらいに基本的なことだよ

368 :132人目の素数さん:2008/01/27(日) 13:14:40
メディアンは度数分布の総度数を半分にするような値であることはわかるんですが、モードについての記述があまり書いてないので違いがはっきりわからないです…。

369 :132人目の素数さん:2008/01/27(日) 13:32:52
>>368
寧ろなぜ似た物に見えるのかが分からないよ……
モードを日本語で何と言う?
漢字の意味を調べて、もう一度定義に当たるといいんじゃない?

370 :132人目の素数さん:2008/01/27(日) 18:21:17
経済学で使う統計学スレッド
http://academy6.2ch.net/test/read.cgi/economics/1094012265/194

194 名前:名無しさん@お腹いっぱい。[] 投稿日:2008/01/27(日) 12:08:55 ID:2WQiMIst
メディアンとモードの違いについてわからないんで教えてもらえないでしょうか。



371 :132人目の素数さん:2008/01/27(日) 18:43:39
αを十分小さい正の数とする。ある装置で精製して作られる製品中の有効成分の濃度は
分散がσ^2である正規分布に従うとする。従来その平均はμ0であった。新しい精製装置
の導入を検討することになり、新しい装置で精製した製品のn個の標本を抜き取り検査した
所その有効成分の濃度がx1・・・xnであった。従来の精製装置に比べて、新しい精製装置は
高価であり、それで精製した製品中の有効成分の濃度の平均が大きくなっていれば
導入したい。ただし、新しい装置で精製した製品中の有効成分も分散がσであり、μ0はσ
に比べて大きいものとする。

問:帰無仮説H0と対立仮説H1をどうとるかを示し、第二種の誤り確率βをα(有意水準)の式で表せ。

この問題で,新しい装置は従来の装置より悪くなることはないと考えて、H0:μ=μ0,H1:μ>μ0
とおいてβを計算したところ、β=Pr{Σ[i=1,n](xi)/n<μ0+z(α)σ/√(n)|H1}
(z(α):標準正規分布の上側α点)となりました。βがPr{}の形になっているあたり他に
もっといい表し方がありそうな気がします。他にβをαで表す方法があったらご教授ください。
よろしくお願いします。

http://science6.2ch.net/test/read.cgi/math/1200494361/で質問したら、こちらに誘導されました。
よろしくお願いします。

372 :132人目の素数さん:2008/01/27(日) 18:45:16
真ん中の値

一番よく出てくる値
だろ

373 :132人目の素数さん:2008/01/27(日) 20:26:05
馬鹿にされそうだが,教えてほしい。

サンプルAとBがあって,それぞれのpHは7.0±0.1と5.0±0.1(平均値,n=3)であった。

こんな時,AのpHはBのものより高いって僕は言っちゃいますけど,
統計学者さんは有意差検定しなきゃだめだって思うものなの?
そのとき測定回数を母集団として扱うの?

374 :132人目の素数さん:2008/01/27(日) 20:43:28
>>371
現実の問題というより勉強用の練習問題ですね
何の練習なのかによるかもしれませんが

新しい装置のほうの平均をμ1とでもおくと
x1… xn は N(μ1,σ^2) からとってきた標本になるという題意に見えるので
Σ[i=1,n](xi)/n は平均μ1,分散が少し減った正規分布に従うから
>>371 のβの式は z(…) を用いて書けることになります

その形を求められている気がします
たぶん >>371 さんならばこれだけ書けばあとは自力でできるのでは?

375 :132人目の素数さん:2008/01/27(日) 20:56:31
最低でも20個無いと統計的な有意性が満たせないと聞くのですが、
サンプルをいくつ以上取ったら、「これが最頻値だ」のように
ほぼ断言できるようになるのでしょうか?
たとえば256個で足りますか?もっと取ったほうがいいのでしょうか?

376 :132人目の素数さん:2008/01/27(日) 23:12:14
>>371
若干転記ミス?みたいのがある感じだけど、
図を描いて考えると分かりやすい。
H0が正しいときXがN(μ0,σ^2)に従い、H1が正しいとき(Xの平均)がN(μ1,σ^2/n)
に従う(標本分布。ただしμ1は新しい装置における母平均)とすると、
βはH1が正しいと仮定したとき、誤ってH0を棄却しない
確率だから、H0が正しいとき、Xを標準化してZとおき、標準正規分布上の
上側確率αのときのXの値をZ(α)とおくと、
Z(α)がH1が正しいときの(Xの平均)の値に置き換わればいい。
よってH1が正しいとき、標準化してT={(Xの平均)-μ1}/√(σ^2/n)
の(Xの平均)の部分にZ(α)を代入した値をなすときの確率
P[{Z(α)-μ1}/√(σ^2/n)]
あとは標準正規分布表の積分域の問題で
臨機応変に。

377 :132人目の素数さん:2008/01/28(月) 10:08:18
>>375
離散的な場合の話だよな。
トリビアの種でいつも2000って言ってたけど
結果で1位と2位に有意差がある場合とない場合があり
結局分布次第って感じだな。でも流石に2000も取ると
大抵は有意差ありみたいだけど。
何か分布が仮定できているならそれから考えたら。

378 :132人目の素数さん:2008/01/28(月) 17:58:59
>>377
2000ですか…二乗すると4000000…なかなかゼツミョーな数字…。
回答感謝します。

379 :132人目の素数さん:2008/01/28(月) 18:11:56
つか、最頻値をそんなに正確に知りたいのって、どんな場合?
ある特定の値が最頻だろうが2番目だろうが3番目だろうが、
確率分布が大凡わかれば十分だと思うんだけど、、、

380 :132人目の素数さん:2008/01/28(月) 20:28:28
二つの分布の最頻値が異なるかどうか検定したいとか。
むしろ実測値など気にしないからこそ値の信頼度にこだわるのが統計家。

381 :132人目の素数さん:2008/01/28(月) 20:45:27
工作員(渋谷マルハン社員とマルハンに依頼されたネット工作会社)が
マル半、ガイア、エスパススレを大量のコピペの連投で荒らしている。(コピペ馬鹿と呼ばれている)
■■■■マルハン総合スレッド 9■■■■
2008/01/06(日)AA荒らし。名前が「正体w」。コピペ馬鹿マルハンを擁護してる。
http://money6.2ch.net/test/read.cgi/pachij/1187021165/745
2008/01/16(水)−18(金) 840は名前を「あほ」にしてる。このあほは830にむけてだと思う。つまりマルハンを擁護してると思う。
844は前からコピペ馬鹿が使ってた定型文の荒らし。
http://money6.2ch.net/test/read.cgi/pachij/1187021165/839-844
2008/01/19(土) 848定型文荒らしと849AA荒らしのID:WkXU/Go/0が同じ。
851は「名前が正体w」。マルハン、コピペ馬鹿を擁護してる。
http://money6.2ch.net/test/read.cgi/pachij/1187021165/848-851
【基地外が大暴れ4】エスパス日拓総合スレ【18発目】
2008/01/15(火) 名前が「正体w」。マルハン、コピペ馬鹿を擁護してる。
http://money6.2ch.net/test/read.cgi/pachij/1188885488/487
2008/01/24(木) 名前が「正体w」。マルハン、コピペ馬鹿を擁護してる。
http://money6.2ch.net/test/read.cgi/pachij/1188885488/523
2008/01/27(日)AA荒らし。マルハン、コピペ馬鹿を擁護してる。
http://money6.2ch.net/test/read.cgi/pachij/1188885488/542-543
○○○マルハンパチンコタワー渋谷パート10○○○
↓これを見れば渋谷マルハン工作員、コピペ馬鹿がAA好きなのがわかる。
http://money6.2ch.net/test/read.cgi/pachij/1201304777/52



382 :132人目の素数さん:2008/01/28(月) 22:39:55
>>379
実は統計を利用してある種の画像処理をしようとしていまして、対象となる画像は
色の分布が「正規分布?なにそれ?」という感じにものすごく偏っているのが
当たり前なのです。かといって処理の重さの観点から全てのピクセルを集計する
わけにもいかず、適当にサンプリングして処理を軽くしつつ、実用的な精度を
保証したいなあと。そういう邪悪なもくろみが背景にあるので今日も世界はおおむね平和ですよ?

383 :132人目の素数さん:2008/01/29(火) 01:00:35
エスパー伊藤は『人の顔を見ただけでその人の誕生月(12種類)を言い当てる』
らしい。。
しかし見るからに怪しいので、そんな能力が本当にあるのか確かめたい。
『統計的仮説検定の手法を用いて』述べてください。

エスパー伊藤って。。仮説立てれる?

384 :132人目の素数さん:2008/01/29(火) 04:29:12
361だけど、お前らレスありがとう。

>>362
統計学の本が多すぎて、どれを買えば良いか分からないんだ。
通信制の大学ならテキストが決まっているから、それをやっていけばマスターできるんじゃないか?と思った。

>>363-364
高校の教科書引っ張り出してちょっとやってみる。

適当な大学のシラバスを見た程度だから良く分からないんだけど、
「統計学」の授業と、「確率・統計」の授業って似て非なる物なの?

385 :132人目の素数さん:2008/01/29(火) 09:35:49
>>384
"お前ら"という高飛車な態度に萎えたわ・・・

386 :132人目の素数さん:2008/01/29(火) 10:07:06
「電車男」のノリなのでは?
高飛車というより親近感みたいな

387 :132人目の素数さん:2008/01/29(火) 15:48:56
>>385
ここは2ちゃんだべ

388 :132人目の素数さん:2008/01/29(火) 22:26:47
あるりんご農園のりんごの重量(X)は、正規分布に従っていてその標準偏差は25g。
今年収穫したりんごのうち50個の標本の重さを量ったところ、平均120gであった。
去年までの平均は125g。
今年のりんごの平均重量は、昨年までの平均重量と比べて同じであると言えるか、
5%の有意水準で検定しなさい。
そのときの帰無仮説、対立仮説、統計量(Z)、臨界値、結論を答えること。

↑この問題教えていただけませんか??

389 :132人目の素数さん:2008/01/29(火) 22:51:58
微妙なとこだがたぶんこの差は有意だと思うよ

390 :132人目の素数さん:2008/01/29(火) 22:57:51
100個だとそうだけどね。50個だからねえ。

391 :132人目の素数さん:2008/01/29(火) 23:11:04
統計量(Z)はどう求めたらいいんですか??

392 :132人目の素数さん:2008/01/29(火) 23:41:32
例えば株価2000円の会社があるとして、
ボラティリティ40%の場合、
株価が1000円を一回でも下回るのは、
5年間の場合、何%ありますか?
計算式と合わせてご教示頂ければ幸いです。
宜しくお願い致します。

393 :132人目の素数さん:2008/01/30(水) 00:04:08
>>392
マルチ

394 :132人目の素数さん:2008/01/30(水) 09:37:45
>>384
通信制もひとつの選択肢だが、入学するのに10万以上はかかるので、それなら本を数冊買って独学でやってみては。
まずは大学で使うような入門書ではなくて、イラストが使われている、解説が詳しい本で統計学の感覚をつかんでみようぜ。
お奨めはイラスト・図解 確率・統計のしくみがわかる本、マセマの確率統計キャンパス・ゼミ。
大体流れがつかめたら朝倉書店の確率と統計、東京大学出版会の統計学入門に移行すればOK。

それでも分からない場合は科目履修生として統計学の授業だけを受けるという手もある。

>>386
こことは違う板で>>385のような反応をしている人を見かけた。
タメ語はOKだけどおまえらはNG。最低限の礼儀は必要だが、過剰に反応するのもどうかと思われる。

395 :132人目の素数さん:2008/01/30(水) 16:26:32
49人のテスト結果を無造作に抽出したものが

100,49,63,38,72,33…

というようにあるのですが、平均点が60点といってよいか有意水準5%で検定したいのですが、
どのような定理を使用すればよいでしょうか?
どなたかわかる方いらっしゃいましたお教えください。



396 :132人目の素数さん:2008/01/30(水) 17:57:10
次の問題が分からないんですが分かる方おられますか?
ひとつでもかまいません。教えてくれるとうれしいです

[問 3] ある大学において、学生の体重の分布が、平均 μ = 60 kg 標準偏差 σ = 10 kg であることがわかっている。
この母集団から無作為に選んだ 100 人の学生の平均体重と、母集団平均 μ との差が、絶対値で 2 kg 以上になる確率を求めよ[1][2]。
[1] 母集団サイズは標本サイズに比べて充分大きいため、非復元抽出を行った場合の確率分布変化は無視できるとする。 
[2] 中心極限定理(テキスト 6 章、定理 2)によって、標本平均の分布は、正規分布で近似できるとする。
a) 約 2.3 % (約 43 回中 1 回)
b) 約 4.6 % (約 22 回中 1 回)
c) 約 9.2 % (約 11 回中 1 回)

________________________________________
[問 4] ある市で、新市庁舎の建設案に賛成する住民の割合の概数を知るために、無作為に選んだ住民 100 人 の意見を調べたところ、賛成は 30 人 であった。この標本割合 30/100 = 0.3 は、母集団割合の推定値としてどの程度正確か。
推定誤差の確率 95 % 変動範囲を求めよ
a) 約 ±0.03
b) 約 ±0.06
c) 約 ±0.09
d) 約 ±0.12
e) 約 ±0.15

________________________________________


397 :132人目の素数さん:2008/01/30(水) 17:58:01
[問 5] 区間推定において、信頼区間が正しい(= 関係として成立している)確率は何と呼ばれるか
a) 適合水準
b) 信頼水準
c) 正解水準
d) 臨界水準

________________________________________
[問 6] 小学生の身長の分布は、過去の経験から標準偏差 σ = 5 cm であることがわかっているとする。標本サイズ n = 25 人 を調べて、標本平均 = 135 cm が得られた。母平均 μ に関する 95 % 信頼区間を求めよ。
a) μ = 135 ± 約1.4
b) μ = 135 ± 約1.6
c) μ = 135 ± 約2.0
d) μ = 135 ± 約2.6

________________________________________
[問 7] ある市で、新市庁舎の建設案に賛成する住民の割合の概数を知るために、無作為に住民を選んで意見を調べようとしている。標本割合を母集団割合の推定値として用いた時に、確率 95 % の変動範囲に入る推定誤差を ±0.05 にするには、
何人の住民の意見を調べれば良いか。母集団割合は「全く不明」であるとして、必要な標本サイズを求めよ
a) 約 50 人
b) 約 100 人
c) 約 200 人
d) 約 400 人



398 :132人目の素数さん:2008/01/30(水) 18:46:00
>>395
定理もヘチマもいらん。
「無造作に一部を抽出」せずに、全テスト結果の平均を計算する。
コンピュータがあるんだからさ。

399 :132人目の素数さん:2008/01/30(水) 18:52:32
>>396-397 教科書嫁

400 :132人目の素数さん:2008/01/30(水) 19:00:31
レポートの季節かねぇ

>>384
>>「統計学」の授業と、「確率・統計」の授業って似て非なる物なの?
授業のシラバス次第だが、基本的には一緒。
確率論をツールとして使わない統計学がありえないので、どちらでも統計に必要な確率の知識は学ぶことになる。
あと、マスターというのがどの程度のことを指しているのかいまいちわからんけど、授業で学べるのは要点だけだぜ。
それ以上を求めるなら、自分でそれなりにしっかり書かれた本をいくつか読み込んでいかなきゃならんと思う。

401 :132人目の素数さん:2008/01/30(水) 21:29:13
>>388
統計さっぱり忘れちゃったんだけどリハビリにやってみた。
合ってるか分からんが参考にしてみて
http://www11.axfc.net/uploader/20/so/He_68343.pdf.html


402 :132人目の素数さん:2008/01/30(水) 21:29:59
あ、パスワードは「131」

403 :132人目の素数さん:2008/01/30(水) 23:02:42
>>384
ファーストブックシリーズの統計学がわかるはお奨め。

404 :132人目の素数さん:2008/01/30(水) 23:38:14
>>396-397
(問3)
(|x)=(xの平均)=(標本平均)とする。
Z={(|x)-60}/√(10^2/100)==(|x)-60
|(|x)-60|=|z|>2 より標準正規分布表から求める確率は約4.6%
∴b)

(問4)
ベルヌーイ分布の推定(成功率の推定)
母集団割合をpとおく。標準正規分布表を使って
-1.96<(0.3-p)/√(0.3×0.7/100)<1.96
∴-0.09<0.3-p<0.09
∴c)
推定誤差の変動範囲って言葉は聞いたことないんだが、日本語から
推測するとこうじゃないかな。誤差自体は回帰分析ではよく使うが、
推定の問題では普通は母平均の信頼区間を求める。

残りの問題はヒントだけ示すから自分で考えよう。丸投げはよくない。
(問6)
小標本なのでt分布を用いる。
(問7)だが標本割合は不明なのか?ちなみに(問4)と同じ0.3を使って
計算したら選択肢にない標本数になった。

405 :132人目の素数さん:2008/01/31(木) 00:32:18
>>404
問6は、標準偏差が既知だから、t分布と関係ないでそ。
問7は、標準誤差最大の母比率pで考えるととかね。

以上は自分で考えてる>>404へのヒントね

406 :405:2008/01/31(木) 00:33:45
×考えるととかね ○考えるとかね

407 :132人目の素数さん :2008/01/31(木) 02:28:11
>>398さん
すみません。
「全国の49人を無造作に」というものが抜けていました。
この場合どうなるのでしょうか?

408 :132人目の素数さん:2008/01/31(木) 03:20:26
>>407
「無造作」って、いったい、どんな手順を使って全国から49人を
選んだんだ?その手順が確率法則で表せないと、検定できないよ。

409 :132人目の素数さん:2008/01/31(木) 03:27:13
ある工場では不良品が一日平均5個発生している。
(1)この工場で1日間に不良品が7個発生する確立
(2)この工場で2日間に8個発生する確率
を求めろといった問題で、ポアソン分布を使うらしいのですが、
これは、確立を小さくするために、一日を24時間とすればいいのでしょうか?それとも24*60分とすればいいのでしょうか?

410 :132人目の素数さん:2008/01/31(木) 03:31:00
>>408
無作為の間違いだろ。揚げ足取りカコワルイ

411 :132人目の素数さん:2008/01/31(木) 03:36:18
>>409
揚げ足取りと言われようとも統計や確率のスレで「確立」だけはやめてほしい



確率

412 :132人目の素数さん:2008/01/31(木) 03:49:45
>>409
一日は一日だよ。
独立な二日の合計なら、二日平均10個のポアソン分布。(再生性)

413 :132人目の素数さん:2008/01/31(木) 16:39:59
>>405
確かに…。t分布関係ないね。よく読んでなかった。スマン。

414 :132人目の素数さん:2008/02/01(金) 03:02:46
統計学で有意確率P−値がありますが、専門書を見ると標準正規分布に近似して
zの値を求めて、P-値を求めてるみたいですが、どうやればそんなことわかるのですか?




415 :132人目の素数さん:2008/02/01(金) 09:20:06
>>414
正規近似可能な統計量ならそうすることもあるが、
何でもかんでも正規近似できるわけではないぞ。
正規近似できるかどうかとその仕方は本をみるしかない。

416 :132人目の素数さん :2008/02/01(金) 15:22:47
>>408さん
無作為の間違いです。
すみません。

>>410さん
間違えてしまった自分が悪いので…。


>>395ですが、「全国から49人を無作為に抽出した」ということでよろしくお願いします。
もし使用する定理がわかる方いましたらお教えください。


417 :132人目の素数さん:2008/02/01(金) 15:25:06
>>416
どうやればいいかはわかるが定理は知らない
というか基本的すぎないか?

418 :132人目の素数さん :2008/02/01(金) 17:45:35
>>417さん
すみません。
数学がとても苦手なもので。。。
やり方でいいので、よかったら教えて頂けませんか?

419 :132人目の素数さん:2008/02/01(金) 18:02:37
>>418
俺が説明しても統計の教科書と同じ説明になるから
自分で統計の教科書を読み込め

これでもわからなかったら勉強しようとする意欲がない証拠と見なす

420 :132人目の素数さん:2008/02/01(金) 21:46:12
>>395
母集団から49人サンプルしたとみなしていいんだな?だったら自由度48のt分布で考える。両側検定でいいだろう。

421 :132人目の素数さん:2008/02/02(土) 02:10:09
見事に教科書どおりになったな。

422 :132人目の素数さん:2008/02/02(土) 16:52:05
要するにお前らゆとりは
教科書通りの回答ぐらいしかできないわけだ

423 :132人目の素数さん:2008/02/02(土) 16:57:10
じゃあ分布の検定からやろうか

424 :132人目の素数さん:2008/02/02(土) 19:07:55
422さんが教科書通りでない回答を示してくれるぞ

425 :132人目の素数さん:2008/02/02(土) 21:35:46
ゆとりは教科書通りの回答も導き出せないからおk

426 :132人目の素数さん:2008/02/03(日) 00:11:00
どこかで統計上起こらないと仮定していい確率というのを
見た気がするんですが忘れてしまいました・・・
どなたか教えて頂けないでしょうか?

427 :132人目の素数さん:2008/02/03(日) 00:20:42
 普通の相関はピアソンの式を見ながら求められたのですが、x,yの値が
ループしている(最大値mが0と等しく、距離を使う場合には短いほうを採用する)ときには
どのようにして相関を求めればよいのでしょうか。
 x,yを事前に加工する方法、別の式を用いる方法、どちらでもよいので御教授ください。

428 :132人目の素数さん:2008/02/03(日) 00:34:01
サンプルする時点でそれらの性質が織り込まれるだけで
サンプル後の統計処理とはなんら関係が無いように思える。
現象を正しく捉えられると思う方法でサンプルしたらいい。

429 :132人目の素数さん:2008/02/03(日) 09:17:48
了解です。サンプルの取り方で対応してみます。

430 :sage:2008/02/03(日) 18:39:55
1kg表示で売っているコメの中身が少ない気がする。このときの対立仮説、帰無仮説はどのようになるか教えてください。

431 :132人目の素数さん:2008/02/03(日) 19:14:57
対立仮説: 1kgで売っているコメの中身は、1kgよりも少ない。
無帰仮説: 1kgで売っているコメの中身は、1kgよりも少ないとはいえない。

じゃないの?

432 :132人目の素数さん:2008/02/03(日) 21:46:33
>>430
帰無仮説;製品の平均値μ=1kg
対立仮説;μ<1kg
右側検定。

433 :132人目の素数さん:2008/02/04(月) 00:05:48
左側でしょ。仮説の作り方合ってるから別に良いけど。

434 :132人目の素数さん:2008/02/04(月) 00:38:35

解決しました。みなさんありがとうございます。

435 :132人目の素数さん:2008/02/04(月) 01:56:05
>>433
そうだった。
ミスだ。悪い。

436 :132人目の素数さん:2008/02/04(月) 04:37:40
誰かいますか?

437 :132人目の素数さん:2008/02/04(月) 04:55:33
自己解決しました。

438 :132人目の素数さん:2008/02/04(月) 08:14:02
10歳 2 
20歳 3
30歳 1
40歳 4
50歳 17
60歳 4
70歳 2
80歳 1

上記は例えですが、こんなデータがあるとします。右の数字は個数とでも考えてください。
各世代で50代だけが有意に多いことを言いたいのですが、どのような統計方法を使ったら良いでしょうか。
お願いします。

439 :132人目の素数さん:2008/02/04(月) 08:18:13
>>438
残りを一つの分布からのサンプルとみなして50歳の数字を検定
(しいていえば分散分析だが)

440 :132人目の素数さん:2008/02/04(月) 08:42:25
>>439
50歳以外 と 50歳 で有意差を見れば良いということでしょうか?

441 :132人目の素数さん:2008/02/04(月) 09:01:26
>>440
原理的に言えば
50歳以外をある一つの分布からの独立なサンプルとみなしてデータから
元の分布を推定し
50歳もその分布に従っていると帰無仮説を立てて
実際のデータ以上の値が得られる確率を計算し
事前に設定した危険率と比べる
ということ

分散分析のところを勉強してみてくれ

442 :132人目の素数さん:2008/02/04(月) 09:15:57
>>441
ありがとうございます。調べてみます。

443 :132人目の素数さん:2008/02/04(月) 09:25:09
良スレ

444 :132人目の素数さん:2008/02/04(月) 09:47:09
>>438
カイ二乗検定じゃないの。


445 :132人目の素数さん:2008/02/04(月) 22:30:36
>>444
個数って言ってるからそうだよね。
ただデータが少ないから多項分布(または2つにまとめて二項分布)
で正確に計算する必要があるとは思うけど。

446 :132人目の素数さん:2008/02/04(月) 22:52:20
>>438
年齢ごとにサンプルが同数じゃない場合は、それも考慮が必要

447 :132人目の素数さん:2008/02/05(火) 02:50:28
てst

448 :132人目の素数さん:2008/02/05(火) 03:29:50
質問です

ある図書館には平均1時間に3人の割合で利用者がやってくる。
このことから、確率変数Xを1時間に利用する人数とするとき、
Xが大きくなるときは非常にまれである。
1時間に5人以上利用者が来る確率を求めよ。

ポアソン分布を使うことはわかるんですが、
問題文からは平均が3という事しかわからないですよね
どうやって解いていけばいいですか?
お願いします


449 :132人目の素数さん:2008/02/05(火) 04:15:47
>>448
Pr{ x ≧ 5 }
= 1 - Pr{ x ≦ 4 }
= 1 - [ Pr(x=0) + … + Pr(x=4) ]


450 :132人目の素数さん:2008/02/05(火) 04:34:59
>>449
ありがとうございます。
λ=3で、解けますね。

451 :132人目の素数さん:2008/02/05(火) 04:41:17
>>448なんですが、
この問題だと答えは小数第何位まで書くべきですか?
ちなみに参照したポアソン分布表は小数第4位まででした。

452 :132人目の素数さん:2008/02/05(火) 13:26:31
>>451
別に何位でもいいでしょ。まあ2位までとかが多いかな…。ポワソン分布は平均さえ分かれば確率が求まるからね。単純に考えて地震などの災害が来る確率なんかも理論上は求まるよね。

453 :初心者:2008/02/05(火) 15:53:31
分散=偏差の二乗
って、何で二乗するんでしょうか。
二乗である理由を教えてください。
また、標準偏差で分散の平方根をとるのは何故でしょうか。
二乗の和の平方根とは、どういう意味を持つのでしょうか。
標準偏差がばらつきの指標になるのは分かるのですが、何故二乗か、何故平方根か、いまいちピンときません。
どなたかお願いします。

454 :132人目の素数さん:2008/02/05(火) 16:16:45
単に差の絶対値を取ると計算が面倒。
2乗すると計算が楽。
平方根をとると変量とオーダーが合う。

455 :132人目の素数さん:2008/02/05(火) 21:47:13
>>453
平面上の2点間の距離は、各座標値の差の【二乗の合計】を求めて、その【平方根】をとる。
(空間内の2点間の距離や、4次元以上のユークリッド空間も同じ)
直角三角形におけるピタゴラスの定理は、各辺の長さの【二乗】の関係になる。

なぜ【二乗】と【平方根】なのか?という問題と同じね

456 :132人目の素数さん:2008/02/05(火) 21:57:07
>>453
絶対値は数学的に扱いづらいから2乗する。いい疑問だと思う。自分も始めたばかりの頃疑問に思った。

457 :132人目の素数さん:2008/02/05(火) 22:38:33
扱いづらいから?

モーメントは偶然の産物?

458 :132人目の素数さん:2008/02/05(火) 22:52:09
分散を重心からの距離と考えるなら2ノルムをとる必然性はないだろうな
同様にモーメントを多項式基底での展開と考えればやはり多項式である必然性はないだろう

459 :132人目の素数さん:2008/02/05(火) 23:05:35
ノルムとしてなら何でも良いけど、平均と分散の直交性は大事だよ。
さらに分散分析まで拡張すると、直交性が成り立たないと使い物にならない。

460 :132人目の素数さん:2008/02/05(火) 23:20:49
詳しくは知らないんだけど、モーメント(積率)って
偶然の産物では勿論なくて、考え方は物理等から入ってきたんじゃ
なかったっけ?中心からの距離をベクトル積で表したとか…?

461 :132人目の素数さん:2008/02/05(火) 23:47:50
>>460
フィッシャーが推定理論を作るまでのピアソンなんかの古い説明には、
力学的な運動のモーメントも使われてたね。
けど実際的な理由としては、>>458が言う、分布を関数空間で表す時の
多項式基底に過ぎなかった。これは積率母関数や特性関数の形で
今でも使われてる。


462 :132人目の素数さん:2008/02/05(火) 23:53:12
でもラプラス変換、フーリエ変換がよくわからんのだよ

463 :132人目の素数さん:2008/02/06(水) 00:01:38
積率母関数って奥が相当深いんだな。
平均や分散を求めたり、証明で使ったりするためのツールとして
考えられたもんだと思ってた。


464 :132人目の素数さん:2008/02/06(水) 01:58:54
質問よろしいでしょうか。
標本数がn=2の場合、意味のある不偏分散が出せませんが、
値のばらつき具合はどのように表せるのでしょうか……。

また、n=2でも、SEMであれば意味のある値を出せると
言っている人がいるのですが、本当でしょうか。
自分にはよく理解できないのですが……。

465 :132人目の素数さん:2008/02/06(水) 02:12:06
単純な質問ですが、お願いします。
E[E(Y|X)]=E(Y)ですが, E[{E(Y|X)}^2] だと
どうなるでしょうか

466 :132人目の素数さん:2008/02/06(水) 03:48:29
>>464
>標本数がn=2の場合、意味のある不偏分散が出せませんが

n=2 でも不偏分散は、母分散の不偏推定値になるよ。
式を展開してみればわかる。

あとSEMっていろんな意味があるけど、この場合は何?

467 :132人目の素数さん:2008/02/06(水) 05:02:55
>>465
何を用いた式に変形したいのかによるけど、、、

g(X) = E[Y|X] とすると E[g(X)] = E[E(Y|X)] = E[Y]
であるから
E[{E(Y|X)}^2] = E[g(X)^2] = V[g(X)] + {E[g(X)]}^2 = V[E(Y|X)] + {E(Y)}^2
とか?

468 :132人目の素数さん:2008/02/06(水) 20:12:34
質問です

    ボ 明 和 ト カ
Aさん 2 3 4 2 4
Bさん 4 2 2 5 2
Cさん 2   2 3 
Dさん   5 3 1 3

パスタのメニューについて好き嫌いの点数を付けるアンケートを取ったとします。
これを元に因子分析を行いたいが、この例でCさんとDさんは
(食べたことがないなどで)評価しなかったメニューがあります。
このようにデータがきれいに揃っていない場合どうすればいいでしょうか。

469 :132人目の素数さん:2008/02/06(水) 20:39:20
食べてもらって評価してもらう

470 :132人目の素数さん:2008/02/06(水) 20:39:45
適当に決めた値を入れる

471 :132人目の素数さん:2008/02/06(水) 21:25:46
1点質問があります。

主成分分析においては、第1主成分を求めることにより
各説明変数を合わせた総合力を計算することが出来ますが、
各説明変数の間の相関係数で負の値が多い場合、
総合力を求めることに意味がないことが知られています(「Excelで学ぶ多変量解析」オーム社2001)。

その理由がよくわからないのですが、これについてご存知の方、または
解説しているサイト・本をご存知の方がいらっしゃれば、アドバイスをいただけると幸いです。

472 :132人目の素数さん:2008/02/06(水) 21:52:12
>>471
数学力 X と国語力 Y の間には、負の相関があるとする。
(この板見てればその傾向はわかるがw)
そうすると、得られる第一主成分は、0.7X - 0.7Y みたいな指標になる。
これは「総合力」じゃなくて「特化度」みたいなもの。
つまり「総合力」という言葉の持つ意味が成り立たなくなる、つーこと

473 :465:2008/02/06(水) 22:06:54
>>467
レスありがとうございます。
「V(Y) = V[E(Y|X)] + E[V(Y|X)] を示せ」という設問を解いてまして,
定義式から素朴に計算して
E[V(Y|X)] = E(Y^2) - E[{E(Y|X)}^2]
V[E(Y|X)] = E[{E(Y|X)}^2] - {E(Y)}^2
と出しました。
証明そのものとしては問題の項は相殺されるのでいいんですが,
更に変形できるのかなと考えた次第です。

474 :471:2008/02/06(水) 22:16:28
>>472 レスありがとうございます。ちなみに、
3変数に対する第1主成分の係数が 0.7, 0.7, 0.1 となった場合についてはどのように考えますか?

475 :471:2008/02/06(水) 22:19:38
>>474 の場合は、左の2つの変数と3つ目の変数の間に
あまり相関がないため、この場合の総合力はあまり意味を持たない、
みたいな解釈でよろしいしょうか?

476 :132人目の素数さん:2008/02/06(水) 22:33:18
そもそも主成分というのは元の次元を足し合わせたものだから
正でも負でも相関が高い場合は係数を見ることに意味が無い。
x=yという関係が合ったとすると、第一主成分がx+yだろうが3x-yだろうが0x+2yだろうが
全部同じことだし、実際どの解も第一主成分として全く同じ働きをする。

477 :471:2008/02/06(水) 22:44:22
>>476 ありがとうございます。
相関が低い( 0 に近い)場合は、係数についてどのように考えますでしょうか。

478 :472:2008/02/06(水) 23:05:24
>>474-475
相関行列から求めた主成分なら、係数の意味はそんな感じ。
2人の酔っ払いは似た方向に向かってるけど、
もう1人の酔っ払いは斜め向うに歩いてる。
第一主成分は似た方向に進む2人、第二主成分は斜めに向かう1人、、、

>>476
x = y で2ケース以上の観測値があれば、
第一主成分は 0.71x + 0.71y、第二主成分は 0.71x - 0.71y だよ。
(0.71 は 1/√2 を丸めた値ね)
ただし主成分軸の方向は逆転可。

479 :132人目の素数さん:2008/02/06(水) 23:09:48
相関が0なら係数が大きいものが影響力も大きいと思って間違いないが
スケールとか考えると結局係数を見て云々するのは相当のセンスが必要。
例えば体重をkgで取ったときの係数が1ならgで取れば係数は1000になる。

480 :132人目の素数さん:2008/02/06(水) 23:22:43
(Y1,Z1) , (Y2,Z2) , ... (Yn,Zn)は無作為に選ばれたベクターで、Yは{1、・・・、k}、Zは{1、・・・、m}の数値を取るとする。
Pij = P(Y=i,Z=j) とするとき、p=(pij)の最尤推定量を求めよ。

全然わからないのでよろしくお願いします。

481 :132人目の素数さん:2008/02/06(水) 23:25:23
だから普通は相関行列を使うんだけどねw
共分散行列を使うのは、すべての変数の測定単位が同じで
かつ絶対値が大きな変動を重視したい特殊なケース。

つか 476=479 は、主成分分析を知らんだろw

482 :132人目の素数さん:2008/02/06(水) 23:30:54
相関が1だと相関行列のランクが落ちるから固有ベクトルの決め方に
任意性が出るよと言っているだけなんだが、回りくどかったか?

483 :132人目の素数さん:2008/02/06(水) 23:31:21
468ですが、レスどうもです

>>469
それが可能なら苦労はしないけど

>>470
平均値とか?

484 :132人目の素数さん:2008/02/06(水) 23:35:00
>>480
問題が意味ふめ

485 :464:2008/02/06(水) 23:37:33
>>466
お答えありがとうございます。
もう少し具体的にご相談させて頂いてよろしいでしょうか。

同一の実験を2回行って、2つの実験値を得たとします。
このとき、不偏分散の平方根から標準偏差を求めようとすると、
値はでるものの、その値は
「母集団平均からの標本値のずれが標準的にどれくらいか」
という意味を表せないと思っておりました。
(自由度の考え方などから……うろ覚えですが)

そうすると、実験値がどれくらいばらつくかは、n=2の結果からは
求められないのだろうか。
そもそも、n=2のとき求めた値にはどのような意味があるのだろうか。
と疑問に思った次第です。
統計学をきちんと理解できていない状態での質問で、恐縮です……。

ちなみに、SEMは平均値の標準誤差の意味で使用しました。

長くなってしまいまして、申し訳ありません……。

486 :471:2008/02/06(水) 23:37:41
>>478 ありがとうございました!
ちなみに、相関行列をもとに主成分分析していました。
スケール全く異なる3つの変数だったので

487 :132人目の素数さん:2008/02/06(水) 23:41:08
>>468
アンケートはよく分からないけど、好きでも嫌いでもないのが3とすると、
3として分散分析を行えばいいんじゃない。
一番影響がなさそうじゃん。

488 :132人目の素数さん:2008/02/06(水) 23:42:08
実は俺アメリカの大学に行ってるんで、問題英語なんですけど翻訳したら意味わからなくなっちゃいました…
英語で書くので、もしわかったら教えてください。

Let (Y,Z), (Y1,Z1), ... (Yn,Zn) be iid random vectors, where Y takes values in [1,...,k] and [1,...,m].

Find MLE(Maximum Likelihood Estimator) of p = p(pij), where pij = P(Y=i,Z=j)

489 :132人目の素数さん:2008/02/06(水) 23:42:42
>>480
の問題です。

490 :132人目の素数さん:2008/02/06(水) 23:43:59
>>482
ゼロ固有値に対応する固有ベクトルの部分は、今言ってる話には
何ら影響しないよ。
やっぱり主成分分析を知らんなw

491 :132人目の素数さん:2008/02/07(木) 00:00:37
>>487
どうもです
その方向でちょっと考えてみます。

492 :132人目の素数さん:2008/02/07(木) 00:27:20
>>488
ヒント:二項分布の p の最尤推定

493 :132人目の素数さん:2008/02/07(木) 00:32:24
>>492
もう少し教えてくれませんか・・?あと、問題にミス見つけました。
where Y takes values in [1,...,k] and Z takes value [1,...,m] でした。

494 :132人目の素数さん:2008/02/07(木) 00:36:15
>>493
ヒント:多項分布の pi の最尤推定

495 :132人目の素数さん:2008/02/07(木) 00:44:11
>>494
できれば解説してもらえませんか?お願いします。

496 :132人目の素数さん:2008/02/07(木) 00:59:13
>>485
466だけど、何で n=5 とか n=10 なら良くって、n=2 がマズイと思うわけ?
どんな統計学の本にも、
「不偏分散の式は n=2 の時意味を持ちません」
なーんて書いてないだろうが。
一体どこから、そんなデマを仕入れて来たんだ?

SEMの意味はわかったけど、σ が σ/√n に変わるだけだろ?
その n が 2 になると、何か意味に違いが出るのか?
観測値のバラツキの推定だろうが、標本平均の標準誤差だろうが、
母平均のt信頼区間だろうが、n が2以上ならすべて同じだ。
ただ n=2 だと推定精度が最も低くなるだけのこと。

497 :132人目の素数さん:2008/02/07(木) 06:23:09
標準偏差と標準誤差の意味を中学生でもわかるように教えてください。
どうぞよろしくおねがいします。

498 :noname:2008/02/07(木) 11:29:29
試合で7勝7敗で15日目を迎えた力士はその最終日に勝ち8勝7敗となって勝ち越す確率が高いといわれている。
過去に7勝7敗で15日目を迎えた力士の勝敗が60勝40敗であるとすれば最終日の勝率は5割を超えているといえるか。
有意水準5%で検討せよ。

499 :132人目の素数さん:2008/02/07(木) 14:21:57
>>497
ある推定値に関する標準偏差を標準誤差という。回帰分析でよく使われる。例えば回帰の標準誤差や回帰係数の標準誤差など。標準偏差は推定値に限らずデータでも使われる。

500 :132人目の素数さん:2008/02/07(木) 16:00:54
ttp://bizmakoto.jp/makoto/articles/0802/07/news005.html
大和総研って…。
調べると全体の相関係数は-0.8だけどそれってバブルの頃の
84-89に-0.9という高い相関が出ただけで83までは-0.3ぐらいだし
90以降は無相関だよ。


501 :132人目の素数さん:2008/02/07(木) 16:21:50
散布図描いてない記事や論文は信用するな、という見本

502 :132人目の素数さん:2008/02/07(木) 16:23:29




大和総研の「統計もてあそび」度よりも >>500 がめざとく見つけたその鋭さとスピードに感嘆したよ

503 :132人目の素数さん:2008/02/07(木) 19:05:42
>>502
niftyで記事が出てただけだよ

504 :132人目の素数さん:2008/02/07(木) 23:07:08
>>499
ありがとうございます!
やはり専門的な単語は難しいですね。。。

505 :132人目の素数さん:2008/02/07(木) 23:56:29
>>504 具体的に計算してみるのが1番わかりやすいと思う

506 :132人目の素数さん:2008/02/08(金) 05:05:43
統計学初心者なのですが、教科書が難しいので
「ハンバーガーショップでむりなく学ぶ、やさしく楽しい統計学」
という本を購入しようと思っています。統計学の専門書の棚にあったのですが、
これで統計学の基礎を学ぶ事はできるのでしょうか?

この本です。 ttp://www.bk1.jp/product/02917148



507 :132人目の素敵さん:2008/02/08(金) 05:09:27
http://pcar.web.fc2.com/index.html
ここはどうだ?w

508 :132人目の素数さん:2008/02/08(金) 05:22:35
>>507
宣伝

踏むな!

509 :464:2008/02/09(土) 23:20:06
>>485=466氏

ご回答ありがとうございます。
「n=2のS.Dは意味が無い」と.は、「現実的に使えない(useless)」ということを
「数学的に意味が無い」と勘違いしていたかもしれません。

S.D.に意味が無いのなら、なぜS.E.Mは意味をもつのだろう?
と思っていたのですが、n=2のときでも、どちらもそれぞれの
意味はあるのですね。

ありがとうございました。

510 :132人目の素数さん:2008/02/10(日) 00:45:21
ある変数(x, y)があって、
X = f(x, y), Y = g(x, y)
のように(X, Y)に変換するとします。
(x, y)の共分散行列と、(X, Y)の共分散行列がどういう関係にあるか、
何か一般論として説明しているweb上の記事はどこかにないでしょうか。
もしくは検索ワードを教えてください。

511 :132人目の素数さん:2008/02/10(日) 01:03:10
>>510 設定と文字がめちゃくちゃだな…。

設定: x と y がそれぞれ変数(スカラー)で、どうして Cov(x, y) が行列になるんだよ。
文字: 全部確率変数なんだから、大文字で統一しろ。

【例】
(X , Y) |→ (Z , W) = (f(X , Y), g(X , Y)) = (aX + bY, cX + dY) の場合。

Cov(Z , W) = acV(X) + adCov(X , Y) + bcCov(X , Y) + bdV(Y)

512 :132人目の素数さん:2008/02/10(日) 08:02:50
(x, y) と書いたらそれは vector なんだから、
「(x, y) の共分散行列」は意味通じるだろ。

513 :132人目の素数さん:2008/02/10(日) 08:42:49
Var[(x, y)] の成分が Var[x], Var[y], Cov[x, y] しかないのに、
そもそも何で”行列”として考える必要があるんだよ

514 :132人目の素数さん:2008/02/10(日) 09:12:51
それを行列形式で並べて書いたものを分散共分散行列と呼ぶんだけどな
例がたまたま2次元だからって一般性を崩す必要はないだろう

515 :510:2008/02/10(日) 10:01:23
>>511
書き方がおかしかったようですみません。
>>512-513で補足して頂いた意味のつもりでした。

一次変換だとすぐに計算できるんですが、
例えばW = cos(X) sin(Y)とかの場合にどのように計算するんでしょうか。

516 :510:2008/02/10(日) 10:13:42
>>512-514
でした。

517 :132人目の素数さん:2008/02/10(日) 13:55:31
>>510
変換 f, g が特定の関数の場合は、x, y の同時分布を変数変換
して X, Y の同時分布を導出し、分散・共分散を求める。

変換 f, g の関数形が不定な場合、一般には、
局所的な共分散しかわからない。つまり f, g の線形近似を使う。


518 :517:2008/02/10(日) 14:03:15
あと、x, y の同時分布の分布形が未知で、二次までの積率しか
与えられていない場合も、一般には、線形近似で済ませるしかない。

519 :510:2008/02/11(月) 09:57:30
>>517-518
局所的に一次変換して、
目的の計算をすることができました。
ありがとうございます。

520 :132人目の素数さん:2008/02/11(月) 11:26:06
JGSSという社会学的統計データを分析する課題が出たのですが、
被説明変数が離散的かつ二値のときにはロジスティック回帰分析、
説明変数が離散的なときはダミー変数を使うと習いました。

では、被説明変数が離散的であるものの5段階のときはどうなりますか。
たとえば、革新か保守かを5段階で示すデータがあります。
これを被説明変数にするときは、普通に回帰分析すればいいのでしょうか。

521 :132人目の素数さん:2008/02/11(月) 11:39:01
二値でロジスティク関数を使う理由を考えて問題に応じて判断する。

上記の理由は簡単に言えば
二値の分布を取ると階段型の分布になるだろうから
階段型の関数でフィッティングしたら良かろうというもの。

522 :132人目の素数さん:2008/02/11(月) 11:50:29
log(p/(1-p))を被説明変数とすることで、pの推定値を0〜1に抑えることが出来るとは習いました。
二値でない離散変数の場合は、0〜4に抑える必要があるのでしょうか。
ここらへんがよくわかりません。
理系でないので、理解力が無くて、すみません。

523 :132人目の素数さん:2008/02/11(月) 12:06:47
回帰と言うのは自分が仮定した関数で現象を説明するとき
最もうまく説明できるパラメータを決めるための手法。
だから仮定した関数が現象に近くなければ意味が無い。

つまりあなたの扱う現象はどういう分布に見えますかということが問題。
線型関数に見えれば線型回帰をするし、ロジスティック関数に見えれば
ロジスティック回帰をする。暇なら両方試して成績の良いほうを選んでもよい。
その辺は自分の直感と分野の流儀との兼ね合いで決める。

524 :132人目の素数さん:2008/02/11(月) 13:23:31
結構主観的なんですね。とりあえず、モデルにうまく適合するか
調べてみます。ここから先はRスレにうつります。
ありがとうございました。

525 :132人目の素数さん:2008/02/11(月) 19:39:06
他スレで回答が得られなかったのでここで改めて質問いたします。
--------------------------------------------------------
平均100,分散2で製造されている部品から9個を抜き取ったところ

102, 101, 104, 98, 102, 96, 106, 97, 103

だった。この部品の標本平均を用いて有意水準5%で検定を行う。

(1)帰無仮説H0を述べよ。
(2)検定を行え。
(3)結論を述べよ。
--------------------------------------------------------
そもそもどんな帰無仮説を立てたらいいのかすら分かりません…

526 :132人目の素数さん:2008/02/11(月) 19:43:16
>>525
問題文にいきなり平均100 と書いてあるので奇妙ですね
こういう問題が初等的教科書に載っていたらパターンとしては

H0: 平均=100

として検定する話だと思うけど
仮にそうだとすると
分散2まで指定されて母分布の指定が無いから
標本平均が正規分布に従うとして H0 を検定するということでよいのでは?

527 :132人目の素数さん:2008/02/11(月) 19:44:28
そう思って元のスレで聞いてみたら、分散も同時に検定したいんだと。

528 :132人目の素数さん:2008/02/11(月) 19:47:06
>>527
でしたら教科書の章立てどおりに
分散はカイ平方分布
平均はt分布
で検定するということでどうでしょうか?

529 :525:2008/02/11(月) 19:48:16
>>526
出典は教科書じゃないんですよね。
ある統計学の授業で教師の手で作った問題みたいなので…

はっきりとした問題の意図がつかめないんですよ。

530 :525:2008/02/11(月) 19:49:48
>>528
そういえばt分布を使えとか言ってたような気がします…
ただそのt分布というのがさっぱり分からなくて…

531 :132人目の素数さん:2008/02/11(月) 20:01:13

>>530
たとえばwikipediaで t分布 を引くと載っていますよ
普通の初等的教科書でも載っているし(大学に入ったらt分布が載っている程度の教科書にしましょう)

(t分布の練習問題だとすると問題文冒頭に分散2と断ってある理由が不明ですが
それは出題した先生に対する疑問)

532 :132人目の素数さん:2008/02/11(月) 20:17:51
>>531
うーん、だとすると分散にカイ平方分布も使うんだと思います。

とにかくまず何をやっていいか混乱してしまって…

ちなみに持ってる教科書にもt分布は一応載ってます。

533 :525:2008/02/11(月) 20:25:03
とりあえずできたところまで…

(1)帰無仮説H0:この9個の部品が100,分散2で製造されている。
(2)データから不変分散を求める。
 9つの部品の平均値は101
 よって不変分散V^2は45/4

ここまでおかしな所ありますか?

534 :132人目の素数さん:2008/02/11(月) 20:48:01
>>533
t分布で平均を検定するのに分散の仮定はいらない
カイ平方分布による分散の検定とは別にやったほうがよいでしょう

それに一段ずつ手取り足取りやってほしいならお金を払って家庭教師を付けるべきかと思います

535 :132人目の素数さん:2008/02/11(月) 21:55:41
分散が既知なので母平均は標準正規分布を用いたZ検定でいいんじゃない。母平均も分かってるから検定する必要性があるとは思えないが。母分散の検定ならχ二乗検定でよか。これもなぜか分かってるが…。

536 :132人目の素数さん:2008/02/11(月) 22:24:44
>>535

>>526-534

537 :132人目の素数さん:2008/02/12(火) 00:30:07
>>533
仮説を立てろと言われて日本語で書いている時点で…。

538 :132人目の素数さん:2008/02/12(火) 00:53:28
>>533
初歩的な教科書嫁よ
どんな教科書でも例題くらい書いてあるだろ
いくら何でも無知すぎる

539 :132人目の素数さん:2008/02/14(木) 01:19:50
ナンバーズ4の予想屋なんかがいるので実際の結果の確率はどうなっているのか調べてみた。
過去50回のストレートだけ調べてみると一様の場合に想定される確率1/10000に対して結果の確率はその0.98倍だった。
推定で1倍を下回ったので検定は必要なかった…。


540 :132人目の素数さん:2008/02/14(木) 17:28:45
重回帰分析の項目選択では、決定係数が大きくなるかで判断していますが、
1、回帰検定のp値
2、(あるサンプルの真値がわかっている時、真値と予測値の)相関係数
で項目選択するのは間違いでしょうか?

541 :132人目の素数さん:2008/02/14(木) 23:02:49
すごく初歩的な質問ですみません。
相関係数0.417443って相関はないと見なしますか?

542 :132人目の素数さん:2008/02/14(木) 23:16:49
>>541
専門分野にもよるのでは?
自然科学のことは分からないけど、
社会科学だったら「ある」と見なす分野の方が多いだろうね。


543 :132人目の素数さん:2008/02/14(木) 23:23:30
>>542
自然科学か社会科学かという分け方はこの場合まずいかな

原因を究めたかどうかを問題にする場合(例:精密な自然法則)は不十分
関連の所在を見いだしたい場合(例:経済や医学などの対策や政策の効果)には関連あり
というところか

544 :132人目の素数さん:2008/02/14(木) 23:36:18
>>543
なるほどね。
医学分野でも0.4くらいで関連あるとみなすこともあるのは初耳だったので、
個人的には面白かったです、ありがとう。

545 :132人目の素数さん:2008/02/15(金) 00:03:20
541です。
心理学的統計なんですけど…
分野によって、違うんですね!

546 :132人目の素数さん:2008/02/15(金) 00:14:29
相関係数ってのはどれくらい相関があるかを表す値なんだから
それを「ある」と「ない」の二値に丸めるときには当然作為が入る.

どういう根拠でこの値を丸めるかは,当然考えておかないといけない.

547 :132人目の素数さん:2008/02/15(金) 01:24:38
>>540
1は修正決定係数(もしくはFPE)とほぼ同じ結果を与えるのでは?
2は特別な場合なのでそういうような考えもありかと思うが、
そういうことが想定できる場合が本当にあるのかな。
(真値って誤差が全くないということ?普通にあるデータとその真値との違いは何?)


548 :132人目の素数さん:2008/02/15(金) 08:17:50
>>547
2については、真値ではありませんでした。すいません。
目的変数です。
『目的変数』と『重回帰分析で予測された目的変数』の相関係数が大きくなる項目選択をする。


549 :132人目の素数さん:2008/02/15(金) 09:57:15
>>548
単純に相関係数だとすべての変数を取り込むだけじゃないの?

550 :132人目の素数さん:2008/02/15(金) 21:18:49
>>548
それが「決定係数」という指標ね。

決定係数 = 重相関係数 R の自乗
重相関係数 R = max 相関係数(Y, b1X1 + b2X2 + … + bpXp)
※max は実数係数 b1, …, bp の全範囲

回帰変数の選択は目的によって違うし、機械的に決める方法も無い。
自由度修正決定係数、t値(P値)などは、「ダメな結果」を振い落すには有効。
しかし残った候補の中で「どれがベストか」、を決められる指標は無いということ。

OCR(光学文字読み取り)とか自動翻訳とかが難しいのと同種の問題だよね

551 :132人目の素数さん:2008/02/16(土) 14:25:50
>>535
機械部品製造業の会社員です。母平均のZ検定でよいと思います。この問題と同様
例題が、品質管理にあります。
この9個の数値は部品の長さなり高さといった計量値で、その製造設備では従来
平均100,分散2で製造>>525されていたが、何らかの意図により加工条件を変更し、
恐らく平均値は変化有、分散は変化無と想定して、母集団平均値の変化量が
有意か否か検定せよというものです。
ある統計学の授業で教師の手で作った問題>>529という>>525氏が、機械系の
工学部生なら合点がいきますね。

552 :132人目の素数さん:2008/02/18(月) 02:19:39
サンプル数は(時系列データなので)十分多く、かつ、独立試行とみなせるだけの
間隔をおいてサンプリングするための記憶容量が確保できない(記憶容量は
せいぜい1〜3回分しかないので、サンプリングの統計的前提を満たせない)
という特殊な条件で相関を求めようとしています。

なんらかの逐次的な方法で相関を(近似的にでもよいので)求めることは
できますでしょうか?

いちおう個々の因子を指数移動平均したものを記憶(データ1個分の記憶容量を消費)
しておいて、それとの相関を取るというやりかたを考えたのですが、もっと良い方法が
ありましたら御教授ください。

553 :132人目の素数さん:2008/02/18(月) 17:20:22
>>552
分散・共分散は逐次的に計算可能。それを使えば相関係数は求まる(平方根計算あり)。
ただし2変数で5個分、K変数では K(K+3)/2 個の記憶域が必要。

以下の部分、意味不明。
>個々の因子を指数移動平均したものを記憶(データ1個分の記憶容量を消費)
>しておいて、それとの相関を取るというやりかた

554 :132人目の素数さん:2008/02/18(月) 17:21:57
>>550
機械的に決められないのはなぜですか?
データに特徴があるからですか?

555 :132人目の素数さん:2008/02/18(月) 18:17:57
>>554
特徴つかパターン認識かなあ。
例えば、「けんとう」が何を意味するのかは、人間ならどこに書いてあったのか
とか、前後の文脈などの手掛かりから
検討、拳闘、健闘、賢答、建党、献灯、etc
のどれか"見当"が付く。
「うp」とか「池沼」など、もっと凄いものでも人間はわかってしまうw
これを機械にやらせるのは大変だし、なんとか機械でやらせても、
たいてい質が低すぎて使い物にならない、つー話。



556 :132人目の素数さん:2008/02/18(月) 18:50:42
>>74
>サンプル数が少なすぎる気もするのですが統計学的にはどうなの・・・
20〜23人という調査標本数が過小という主観なのでしょうが、
統計学的には、調査計画者が自ら設定する許容調査誤差次第
ですね。[問 7]>>397問題文の確率 95 % の変動範囲に入る
推定誤差±0.05という数値のことです。
これが賛否アンケート>>397でなく製品の耐久性能調査=試験になると、
誤差は小さくしたいが標本数は多くできないというトレードオフで
頭痛ものです。自動車や船舶といった図体の耐久性能試験標本数は、
どうやって折り合いをつけているのだろ?

557 :132人目の素数さん:2008/02/18(月) 20:05:21
こっちで質問すればよかった・・マルチお許しを。
この問題どなたかわかりますか?

962 名前:132人目の素数さん 投稿日:2008/02/18(月) 20:02:26
質問なんですが、
東京マラソンで
応募130,062人、定員25,000人の抽選で
日テレアナは
40人応募、13人当選
でした。
この40人中13人以上当選する確率ってどのくらいでしょうか?

558 :1stVirtue ◆.NHnubyYck :2008/02/18(月) 22:49:53
Reply:>>557 Maxima で sum(40!/i!/(40-i)!*prod((25000-j)/(130062-j),j,0,i-1)*prod((130062-25000-j)/(130062-i-j),j,0,40-i-1),i,13,40); をする。

559 :132人目の素数さん:2008/02/18(月) 23:39:17
>>557
真面目に計算すると約3.2%

560 :132人目の素数さん:2008/02/19(火) 00:39:57
競馬に関する質問です。
ルーレットやダイスとは違って競馬は、
個体の能力差、騎手の巧拙、斤量、レース中のアクシデント、コース適性
等あらゆる不確定要素の絡むギャンブルで控除率は25%です。

そこでお聞きしたいのですが、競馬で回収率100%を越える事は可能でしょうか?
もちろん短い期間での回収率ではありません。

561 :132人目の素数さん:2008/02/19(火) 01:52:30
>>553
相関行列 漸化式 でぐぐってやりかたを見つけました。
ありがとうございます!

562 :132人目の素数さん:2008/02/19(火) 19:49:18
>>557と似たような計算をいくつかしたいのですが、どう計算したらよいのでしょうか。
Maximaに>>558を突っ込んでみたら意味不明な数値が出ました。

563 :132人目の素数さん:2008/02/19(火) 20:14:31
>>560
>個体の能力差、騎手の巧拙、斤量、レース中のアクシデント、コース適性
これらを具体的に定義してもらわないとどうしようもない。

564 :132人目の素数さん:2008/02/19(火) 22:43:55
少なすぎる観測点で天気予報するようなもんだな。

565 :132人目の素数さん:2008/02/19(火) 22:58:25
>>562
標準正規分布を使って考えると、
Z={(|X)-(25000/130062)}/√[{(25000/130062)×(1-(25000/130062))}/40]
(|X)≧13/40であるから、Z≧2.1312...
標準正規分布表より約1.66%
自分で手計算やってみたが、間違ってたらすまない。

566 :132人目の素数さん:2008/02/19(火) 23:49:54
>>562
この種の問題は、正確には超幾何分布になる。
例えば Excel(2003以降) だと x=13, …,40 について
 =HYPGEOMDIST(x,25000,40,130062)
の値を合計すれば良い。
Rだと
> 1-phyper(12,40,130062-40,25000)
[1] 0.03234933 ←答え

近似計算なら、普通は二項分布か正規分布を使う。
あとこの問題では、ポアソン分布も使える。

567 :566補足:2008/02/20(水) 11:03:55
Excel2002でも、>>565さんの考え方でやれば、計算できた。
 =HYPGEOMDIST(F15,40,25000,130062)
つかExcel2003からは、この機能が付いただけだなw

568 :566補足:2008/02/20(水) 11:06:13
あ、スマソ。「=HYPGEOMDIST(x,40,25000,130062)」ね

569 :132人目の素数さん:2008/02/20(水) 15:36:02
マルチで申し訳ないです。大変困っています。明日試験があります、親切な方お願いします・・。

問題はこうです。

5000人を対象に前向きコホート調査を行い、赤血球数、白血球数、ヘモグロビン、血圧、喫煙の有無、アルコール摂取量、血清脂質量、塩分摂取量、運動量、骨密度などを測定した。

その後役半数の住民に健康教育プログラムを実施したあと、同じ項目の調査を行った。

@調査開始前の測定項目の結果に関し、あなたなら医学統計の知識を使ってどのような解析計画を立てるか述べよ。

A健康教育の前と後で得られた測定項目の結果から、健康教育の効果を評価するためにあなたならどのような解析計画を立てるか述べよ。


いずれも解析の背景、目的、予想される結論についてのべること。

必要なら以下の単語を用いること

正規分布、正規性の検定、二群間の平均値の差の検定、多群間の平均値の差の検定、分散分析、相関係数、回帰分析、順位相関、敏感度、特異度、カイ二乗検定、因果関係

です。



自分のAの回答はざっと
塩分摂取量と血圧に注目して、説明変数に健康教育の前後での「塩分摂取量の減少量(差)」を、目的変数に同じく「血圧の減少量(差)」を設定して、これを健康教育をしたグループとしてないグループでそれぞれ回帰分析して相関係数を求める。

健康教育を評価するには、健康教育を施したグループとそうでないグループで相関係数を比較すればよく、健康教育を施したほうの相関係数が1に近ければ(より有意であると認められれば)効果があったといえる。というものです。

でもこれだと健康教育の評価ができてないような気がします。

統計に詳しい方、模範解答をお願いいたします。他の例でも構いません。

570 :132人目の素数さん:2008/02/20(水) 16:11:06
>>560
>競馬で回収率100%を越える事は可能でしょうか?

可能だから、それで食ってる人も居たりするんだよ。
次のようなケースを一般化すれば、何が必要かがわかる。

1. 馬A, B 二頭立てレースの勝ち馬を単勝で当てる。
2. A:B 馬券の売れ行きは 1:2、つまり配当倍率(オッズ)は、
  A が 0.75 ÷ (1/3) = 2.25倍、
  B が 0.75 ÷ (2/3) = 1.125倍。

3. もしも A が勝つことを、確実に予想できれば、回収率225%。
  80% の確率で予想できれば、回収率 225%×0.8 = 180%。
  60% なら 回収率 225%×0.6 = 135%。

Q1 Aの勝ちを何%以上の確率で予想できる時に、回収率は100%以上になるか?
Q2. 売れた馬券中 A の比率を r、Aが勝つ確率を p としてQ1の答えを表せ。

571 :562:2008/02/20(水) 21:53:35
勉強になりました、ありがとうございました。

572 :132人目の素数さん:2008/02/20(水) 23:12:11
二次元のガウシアンがあって、σ_x^2とσ_y^2とσ_xyが求まってるとき、
(x, y)を一次変換して(X, Y)に回転してやって、
σ_Xとσ_Yを求めるのってどうやるんですか?
(この変換後、σ_XY = 0になるとする。)

一次変換の回転角をθとおいて計算してみたんですが、
tanθ、σ_X^2、σ_Y^2の絡み合った式が出てきて、
すんなりと計算できません。

573 :572:2008/02/20(水) 23:21:36
http://en.wikipedia.org/wiki/Gaussian_function#Meaning_of_parameters_for_the_general_equation
ここの
a = 〜
b = 〜
c = 〜
の部分で、a、b、cが与えられた時にθ、σ_x、σ_yが求まるか、
というのと同じなんですけれども。

574 :132人目の素数さん:2008/02/21(木) 00:08:26
>>570
そうじゃないだろ。Bが勝つ場合だってあるんだから。
オッズがよく当たっていてAが勝つ確率が1/3でBが勝つ確率が2/3のときは
どちらが勝つか完全に予想できるなら回収率は150%だな。

575 :570:2008/02/21(木) 02:36:09
どんな場合にどの馬に賭けるべきか、あるいはこのレースを見送るべきか
を分析するための例なので、

2', いまAに賭けた場合を考える。

を追加で、、、、

576 :132人目の素数さん:2008/02/21(木) 06:12:04
東大に進学した友人が、大学をやめて今では競馬で食ってる。
年収は300万しかないそうだが、
それ以上やると危険なので、やらないんだそうだ。
オッズのみを見るといってた。


577 :132人目の素数さん:2008/02/21(木) 08:45:18
>>575
賭けないと収益は上がらないんだけど。
Aが勝たないときには賭けないならその分も含めて収益を出さないと。
2頭で100%Aが勝たないならBが勝つのは自明なんだからもったいない。w

>>576
もしその状態を維持できているならすごいものだ。
(資産が1億あってというんじゃないよね。w)
競馬新聞かどこかと契約すればいいのにと思う。

578 :132人目の素数さん:2008/02/21(木) 11:14:40
層別散布図(色分けした散布図)を作成してみようと考えています。
ただ、項目が多数あり大変です。
事前にうまいこと層に別れる項目を調べることはできないでしょうか?

579 :132人目の素数さん:2008/02/21(木) 16:58:09
>>577
ショバ代を25%も取られる「−25%サムゲーム」なんだぞ。
つまり、どの馬券も取れる確率がオッズの示す通りなら、
どれを買っても期待回収率は75%。
賭けなければ回収率100%なんだから、そんなレースは見送るのが吉。

580 :132人目の素数さん:2008/02/21(木) 17:41:38
俺も期待値は75%だと思っていたが、単なる思い込みだったのか?

581 :132人目の素数さん:2008/02/21(木) 17:57:46
馬券の売れ方とそれが当たる確率は比例しない件

582 :132人目の素数さん:2008/02/21(木) 18:00:25
>>579,580
それは予想ができない場合だよね。
ただ本当に100%以上をずっと維持し続ける人がいるかは疑問だが。
(それだけで生活するなら200%以上ぐらいを維持しないといけないしね。)

583 :132人目の素数さん:2008/02/21(木) 18:12:56
だから業界は人気馬や人気騎手を作って、それを買わせるんだよ。
そうすると他の配当が良くなって、クロート筋が稼げるw

584 :132人目の素数さん:2008/02/22(金) 06:31:45
精度の高い指数を自分で考え出したりすれば競馬は稼げるということなのか?
75%にはならない?

585 :132人目の素数さん:2008/02/22(金) 07:17:17
オッズが変に偏っているときだけ指標に少しだけ意味が出てくるということ。
だから指標の良し悪しより、まず資金管理と資金配分の手法の問題。

586 :132人目の素数さん:2008/02/22(金) 12:35:46
>>453
正規分布の標準偏差は、ベルカーブの膨らみ量で理解容易なのですが、正規分布以外の
分布、例えばカイ2乗やポワソン分布の標準偏差値は何を意味しているのですか?
又どのような計算に使うのでしょうか?

587 :132人目の素数さん:2008/02/22(金) 18:29:34
確かに過剰人気馬がいてオッズが偏っていることが多々ある。
何らかの手法で過剰人気馬を消すことが出来れば、75%の壁を越えることは可能ということか。
単純に単勝1と2人気では期待値は違うな。
でも誤差の範囲内のような気がする。

588 :132人目の素数さん:2008/02/22(金) 19:31:33
時系列データなどの2因子を対象に部分的な相関を求めたいのですが、何かメジャーな手法や理論はありますか?
たとえばウェーブレット解析みたいなことを相関についてやりたいです。

589 :132人目の素数さん:2008/02/22(金) 21:11:29
コンピ指数90馬の複勝回収率なんて90%越えてる。

590 :132人目の素数さん:2008/02/22(金) 23:31:17
>>586
>例えばカイ2乗やポワソン分布の標準偏差値は何を意味しているのですか?

標準偏差は分布の広がりの指標。
けどカイ二乗やポアソンの場合、平均だけで分布の形がすべて決まるから、
分布の形状を理解するのに標準偏差は要らない。

>又どのような計算に使うのでしょうか?

主として分布型が不明な場合に、区間推定・検定・その他の統計分析を行う目的。
つまり漸近理論(大標本法)。
極値問題で、二階微分や2次形式が重要なのと、ある意味同じ。


591 :132人目の素数さん:2008/02/23(土) 02:18:56
>>586
>>590に補足だけど、母分布がポアソン分布の場合でも標本の和の分布をとると中心極限定理より正規近似できるから、母分布の平均分散が推定、検定できる。

592 :132人目の素数さん:2008/02/23(土) 08:37:46
数学の知識があっても、競馬が儲かるかどうかは分からないなんて...

593 :132人目の素数さん:2008/02/25(月) 13:07:27
変量データを対象に
1、ピアソンの積率相関係数で計算
2、変量データを順位に変換して、ピアソンの積率相関係数で計算
3、スピアマンの順位相関係数で計算
の場合、1が増加すれば2も3も増加(もしくは変化なし)するでしょうか?

一般的には重回帰分析の項目選択では決定係数(乗重相関係数の二乗:1で計算して二乗)を使っていますが

増減法や項目検討手順は等しい場合、2や3で評価しても同じ結果が得られるでしょうか?
よろしくお願いします。

594 :132人目の素数さん:2008/02/25(月) 19:46:41
控除(パクり)率25%なんだから期待値は75%でいいんじゃないの?
違う意見の人は分かるようにお願い致します。m(__)m

595 :132人目の素数さん:2008/02/25(月) 21:10:02
>>594
オッズは"馬券の売れ行き"で決まる。
べつに"当たる確率"で決まるわけぢゃないからだよ。

あと"当たる確率"も、予測する人間の"情報量"と"判断力"によって大きく違う。

だから世間の人気情報で賭けてるようなカモの期待回収率は、75%よりもっと低いし、
ツウ特にインサイダー情報持ってるようなヤシらのは、75%より遥かに高くなる。

596 :132人目の素数さん:2008/02/25(月) 22:43:28
ではオッズに捕われない知識のある予想家は大数の法則を打ち破ることは可能?

597 :132人目の素数さん:2008/02/25(月) 23:13:18
八百長すれば確実に儲かるんだから無意味な前提だな

598 :1stVirtue ◆.NHnubyYck :2008/02/25(月) 23:17:14
ところで、私が出している情報は大体内的情報ではない。ほとんどの人が一度は教わったであろうことだ。

599 :132人目の素数さん:2008/02/26(火) 00:03:30
八百長すればって...
それは論外。


600 :132人目の素数さん:2008/02/26(火) 00:26:49
>>596
大数の法則を打ち破ることはできないし、打ち破る必要も全くない。
●競馬のオッズは、払戻金の倍率であって、客観確率の逆数×(1−控除率)じゃない。
●競馬における確率である予想的中率も、条件(情報+判断力)によって、人毎に異なる。

例えば、A, B, C, D 4頭のレースの1位を当てる場合を考える。
馬券の売れ行きは皆同じで、オッズはすべて3倍。
(4倍じゃないのは、胴元に25%を持ってかれるから)
ここで「A が1位になる」という(何かの情報&判断に基づく)予想を持つ人が居て、
その予想が正しい確率は(頻度的=大数法則的な意味で)、
このレースの場合には 1/2 だとする。

この人が A に賭ければ、期待回収率 = オッズ×確率 = 3倍×(1/2) = 1.5倍。

601 :132人目の素数さん:2008/02/26(火) 01:18:58
名門校の競争倍率=自分の子供の合格オッズ
と勘違いしてる親に、ムリな理由を説明するのは大変だなw

602 :132人目の素数さん:2008/02/26(火) 06:31:52
例えがおかしい。

603 :132人目の素数さん:2008/02/26(火) 13:24:38
>>593
相関係数を熟知していないとわからん。

604 :132人目の素数さん:2008/02/26(火) 18:12:06
>>600
実際には25%控除した額を分配しているんだから、100%を越えるのは容易ではない。
残念ながら人気は様々な人間の総合でほぼ馬券になる確率に等しい。
75%を打ち破ることは、かなり難しいというか無理じゃないか?

605 :132人目の素数さん:2008/02/26(火) 20:49:18
明らかに人気先行のレースもあるからそれだけに絞って勝負すると多少ましかな。
でも確かに何年も100%以上を維持できる人は本当にいるのかな?

606 :132人目の素数さん:2008/02/26(火) 21:58:09
いないと思うぞ。理論的にありえない。

607 :132人目の素数さん:2008/02/27(水) 00:18:11
>>605
適切な資金配分さえできていれば、勝率が55%程度でも
トータルでは儲けを出すことができる。

適切な資金配分ができていないと、勝率が90%でも
トータルでは破産する可能性がある。

破産確率、プロフィットファクターでググれ。

608 :132人目の素数さん:2008/02/27(水) 01:51:55
>>607
問題は適切な資金配分が常にできるのかってことなんだけど。

609 :132人目の素数さん:2008/02/27(水) 02:06:59
適切な資金配分って何だ?
オッズの低い馬券に大金をはたき、高い馬券は少額で買うのは
愚の骨頂だぞ。
それとも追い上げなどの投資か?

610 :132人目の素数さん:2008/02/27(水) 07:17:50
競馬板でやってくれ。

611 :132人目の素数さん:2008/02/27(水) 09:01:45
この流れを断ち切るために質問。
0〜1の実数範囲を持つ乱数サイコロをn回振るとき、平均が90%以内で理論値0.5±0.0001くらいになるnはいくつですか?

612 :132人目の素数さん:2008/02/27(水) 11:49:36
乱数は一様かい?

613 :132人目の素数さん:2008/02/27(水) 14:58:04
>>606
>理論的にありえない。
はあ?その理論て何?「ヴァカにはムリ」という理論?w

>>611
正確な解は無いと思うぞ。
中心極限定理を使って正規分布近似で解けばよろし。

614 :132人目の素数さん:2008/02/27(水) 15:24:51
馬はダメ!
いまならプラチナ買え

615 :132人目の素数さん:2008/02/27(水) 17:57:08
>>613 は無知の極みだな。

616 :132人目の素数さん:2008/02/27(水) 21:06:02
>>611
乱数サイコロを一様分布と仮定すると、分散が分かるから、後は中心極限定理による正規近似でいいんじゃないかな。


617 :132人目の素数さん:2008/02/28(木) 22:38:49
スレ違いで申し訳ないけどちょっと教えてください。

貧困率やGDP、世帯年収などの色んな各種統計をグラフにして考察している
個人のサイトがどこかにあったと思うのですが、もしご存知でしたら教えてください。

1年ぐらい前までそのサイトのグラフが色々と2ちゃんでリンク先として貼られてたけど
最近見なくなり、どこだったのか検索しても見つからないので。

618 :132人目の素数さん:2008/02/28(木) 22:47:02
すいません、見つかりました。
http://www.dataranking.com/index.cgi?LG=j

619 :132人目の素数さん:2008/02/28(木) 23:20:58
競馬は儲からない。決定o(^-^)o

620 :132人目の素数さん:2008/03/03(月) 13:25:45
Rかエクセルで、下記のような場合のF値を出したいです。
%点:0.025
自由度1:15
自由度2:∞
このような場合、どのような関数を用いればよいでしょうか。


621 :132人目の素数さん:2008/03/04(火) 02:31:34
すみません、統計から離れて長い人間なんで適切な質問が難しいのですが
例えば確率が不明のサイコロを100回振って15回1が出た時に
サイコロの真の確率の範囲をエクセルで求めるにはどうしたらよいでしょうか?

622 :621:2008/03/04(火) 02:31:55
あげ

623 :132人目の素数さん:2008/03/04(火) 04:44:51
>>620
>自由度1:15
FINV関数

>自由度2:∞
Fの分母は、自由度→∞ の時、1に確率収束する。
分母が定数1なので、Fの分布は分子の分布に等しい。
分子は、自由度2のカイ自乗分布に従う変量を、その自由度2で割った値。
よって「CHIINV関数の値/2」で答えが出る。

624 :132人目の素数さん:2008/03/04(火) 04:46:42
>>621
歪んだサイコロで、1の目が出れば「成功」、他の目を「失敗」とする。
このサイコロを100回振り、成功が15回起きた。
成功の回数 x は、成功の確率 p、試行回数100の二項分布にしたがう。
あとは二項分布のパラメータ p の区間推定式を調べる。
Excel関数の使い方がわからなければ、もう一度質問。

625 :132人目の素数さん:2008/03/04(火) 20:49:32
例えば、100人に対し「英語番組視聴と英検資格保有」のアンケートを行い、
単純集計で英語番組視聴が40人で、英検保有者が20人という結果が出た
とします。

ここから、次のようにクロスさせて、

(1)全体100に占める英語番組視聴の割合である”40%”
(2)20人の英検保有者が英語番組を視聴する割合”XX%”、

・・・として、(1)と比べた(2)の集団の優劣を述べることは適切でしょうか?


よろしくお願いします。

626 :623:2008/03/04(火) 21:29:59
>>620
>Rかエクセルで、

Rだと、qf(1-右側確率, 自由度1,自由度2)。
自由度は、無限大の時、定数「Inf」が使える。

627 :132人目の素数さん:2008/03/04(火) 21:45:54
>>625
偶然変動の可能性が薄いことを、確かめてからならOK。
偶然変動チェックは、
(英語番組視聴、非視聴)と(英検保有、非保有)の2×2分割表を作って
独立性のカイ二乗検定をやるのが普通。

628 :627:2008/03/04(火) 21:56:35
あ、サンプルサイズ100ぐらいなら、カイ二乗検定より
フィッシャーの正確確率検定を使っておいた方が、
突っ込まれないかも。

629 :621:2008/03/04(火) 23:50:42
すみません、自己解決しますた。
答えていただいた方ありがとうございました。

630 :132人目の素数さん:2008/03/05(水) 17:40:22
すみません。不等式の名前について教えてください。
(x+y+z)(a^2*x+b^2*y+c^2*z)-(a*x+b*y+c*z)^2 >= 0

(a,b,c,x,y,z それぞれ非負の実数)

631 :132人目の素数さん:2008/03/05(水) 17:58:43
別に名前なんかないだろ

632 :132人目の素数さん:2008/03/05(水) 18:00:03
>>630
すべての不等式に名前がついているわけではない。

特にそれなんてコーシーシュワルツとほとんど同じように
証明できるから、特に名前をつけるようなものでもない。

633 :630:2008/03/05(水) 18:49:14
というか良く考えると、コーシーシュワルツと同じですね。
失礼しました。

634 :132人目の素数さん:2008/03/05(水) 20:27:30
競馬は儲かると言った奴負けたな。

635 :132人目の素数さん:2008/03/05(水) 22:23:11
>>26
>F(t)=(Σri-0.3)/(n+0.4)の0.3,0.4とは・・・・
不完全ベータ関数の近似値らしいね。

636 :132人目の素数さん:2008/03/05(水) 22:59:10
>>630
(a,b,c,x,y,z それぞれ非負の実数)->(a,b,c それぞれ非負の実数)

637 :132人目の素数さん:2008/03/05(水) 23:33:23
>>630
x,y,zが非負なら成り立つけど、コーシー・シュワルツの不等式とは
別物のただの不等式じゃないかな。似てるちゃ似てるけど。

638 :132人目の素数さん:2008/03/06(木) 08:46:26
>>637
軸ごとに重みの違う内積 < (a,b,c), (u,v,w) > = (aux, bvy, cwz) を考えて
コーシー・シュワルツを (1,1,1) と (a,b,c) に使ったもの.

639 :132人目の素数さん:2008/03/06(木) 10:03:18
>>619 >>634
期待値では儲けられても、現実に必ず儲けられるわけじゃないからな。
吸収壁のあるランダムウォークでは、壁に当たるとゲームオーバー。
そこで分散の許容限度、つまり資金力、が効いて来る。
貧乏の壁って厳しいだろ?w

640 :132人目の素数さん:2008/03/06(木) 14:19:35
>>638
気付かなかった…。コーシーシュワルツの不等式関連はどの系統の本を見ればいいかな?手持ちの微積や線型の本には載っていなかったので…。

641 :132人目の素数さん:2008/03/06(木) 15:12:44
>>640
コーシーシュワルツに詳しい本なんて知らんなあ。
これくらいなら、こういう帰着のさせ方を何度か見てれば気づくよ。

もし興味があれば A, B を対称行列、C, D を対称・半正定行列として
p(t) = tr( C (A t + B)^2 D ) ≧ 0 の判別式をとってみるといい。
普通のコーシーシュワルツは A = diag(a,b,c), B = diag(x,y,z), C = D = I、
630 は A = diag(a,b,c), B = C = I, D = diag(x,y,z) になっている。

642 :132人目の素数さん:2008/03/06(木) 23:09:47
重回帰分析の関数変換について
目的変数と説明変数の散布図を確認し、
仮に√xの関数の形をしていたならば、
説明変数を√xで変換するのでしょうか?
それとも逆関数x^2で変換するのでしょうか?

643 :132人目の素数さん:2008/03/06(木) 23:39:25
目的変数は√xに比例するかx^2に比例するか?

644 :132人目の素数さん:2008/03/07(金) 00:33:20
>>642
y = √x の形だというんだね。
そうならX = √xと変換するとyとXは線形関係になる。
ただ誤差が等分散と言えるかどうかにも注意しないといけない。
元のままで等分散なら非線形で回帰しないとね。

645 :132人目の素数さん:2008/03/07(金) 00:34:00
x, y が共に正なら、√x よりも両側対数変換が一般的。
なぜなら、
log y = a + b log x ←→ y = 定数・x^b
なので b=1/2 の特殊ケースが平方根。

646 :132人目の素数さん:2008/03/07(金) 05:10:47
誰か、STATA使いはいますか?

647 :132人目の素数さん:2008/03/07(金) 16:35:14
>>644
√xで変換して直線になりました。

それの手順が実はわかっていません。
非線形で等分散でないものを、直線で等分散になるように変換する方法はないのでしょうか?


648 :132人目の素数さん:2008/03/07(金) 16:39:04
>>645

> x, y が共に正なら、√x よりも両側対数変換が一般的。

これも実はyを変換すると全てのxについて関与するので、直線の関係がくずれるからダメかなと感じています。
何も考えずに全てのXとyを対数変換してもよいのでしょうか?

649 :132人目の素数さん:2008/03/07(金) 17:16:02
>>646
Stataなら使ってるけど、STATAは知らんなぁ。
http://www.stata.com/support/faqs/res/statalist.html#spell

650 :132人目の素数さん:2008/03/07(金) 19:53:12
>>647
もしyが大きくなるにつれて分散が大きくなっているようなら
>>645の言うように両対数がいいかも。


651 :132人目の素数さん:2008/03/07(金) 21:02:32
>>648
何かの理論方程式を当てはめる場合以外は、
単純線型も対数線型も、ある近傍における回帰関数の近似式に
すぎないよ。

単純線型は、変化 dy/dx を一定と置いた近似式。
対数線型は、変化率 (dy/y) / (dx/x) を一定と置いた近似式。
実際にどちらも良く使われる。

当てはまりの良さ(決定係数や偏回帰係数の有意性)とか、
分散不均一性とかを考慮して決める。
あと、y が意味的に非負の変数の時に、回帰の理論値(予測値)が
負になってしまっても良いのか?、とかw

両者を混ぜた重回帰式は、扱いが難しいし、恣意的な印象を
与えたりもするので、特別な理由がある場合しか使わないね。

652 :132人目の素数さん:2008/03/08(土) 00:28:21
>>650
yは等分散でarctan関数みたいな形です。

653 :132人目の素数さん:2008/03/08(土) 10:02:18
>>652
yが等分散なら√xとyのプロットは直線かつ等分散でないのかね?

654 :132人目の素数さん:2008/03/08(土) 14:28:27
混乱してきたので整理させてください

不均一分散でxが√xの形→両対数変換
等分散でxが√xの形→?
不均一分散でxが線形→?
変数によって分散が等分散、不均一分散や線形、非線形が異なります。
この場合どうするのが普通なのでしょうか?



655 :132人目の素数さん:2008/03/08(土) 16:49:05
>>649
じゃぁそのStataで、確認的因子分析やSEMをするにはどうしたらいいの?

656 :132人目の素数さん:2008/03/08(土) 22:58:12
>>655はマルチ
http://yutori.2ch.net/test/read.cgi/news4vip/1204834516/l50

657 :132人目の素数さん:2008/03/08(土) 23:16:01
>>654
相当混乱してるみたいだね。
変数によってとは説明変数が複数あるということかい?
それとも同じようなデータが複数あってそれぞれで
挙動が違うという話かい?

単回帰の話なら「等分散でxが√xの形→」の答は
先に書いたようにX=√xとyで回帰分析するとよいと思うよ。
「不均一分散でxが線形→」の方はその直線が原点を通るなら
やはり両対数変換で改善できるよ。

658 :132人目の素数さん:2008/03/09(日) 00:39:41
>>657
説明変数が複数あります。
重回帰分析です。


659 :132人目の素数さん:2008/03/09(日) 01:00:20
>>658
yの等分散性に関してはよほど異常なことがない限り統一的だと思うのだけど。
(x1,y)のプロットでyの分散が広がる傾向を見せるのに(x2,y)の
プロットではそう見えないなんてことあるのかな?yは共通だよ?

そこさえ統一的であるなら次のどちらかになるんだけどね。

1. yが等分散ならxの方で曲がった傾向を見せるもののみ何らかの変換をする。
2. yが広がる傾向にあるならyと必要ないくつかの(あるいは全部の)xの対数を取る。

ただ、どちらにしても一部の変数のみ変換するなら物理的(あるいは科学的)に
それらの変数だけ変換する意味を説明できるかは突っ込まれそうだね。

660 :132人目の素数さん:2008/03/09(日) 06:36:32
>>659
なるほど!
まずyを等分散にするんですね。
yが不均一分散なら対数変換して等分散にする。

ここでx1、x2〜とyで非線形のものがあればxを変数変換して線形にする。

ここでx1、x2〜は不均一分散でも等分散でもいいのでしょうか?

661 :132人目の素数さん:2008/03/09(日) 11:47:07
>>656
そのスレはオレが立てたwww

662 :132人目の素数さん:2008/03/09(日) 22:32:21
>>660
やはりよく分かっていないようですね。
等分散かそうでないかは2つの変数の関係で生じるものです。
xだけとかyだけとかでは意味がありません。
たとえばxが1から10ぐらいの値を取るとしたとき、
xが1の付近での対応するyの分散とxが10の付近での対応するyの分散が
同じ程度なら等分散ということです。

663 :132人目の素数さん:2008/03/10(月) 00:01:57
重回帰だと、単純散布図ではなく偏散布図を描かないと、
非線型性も分散不均一性もわからんだろ

664 :132人目の素数さん:2008/03/10(月) 01:43:58
>>663
一般的にはもっともだ。
ただ非線形であることが見えると言っていたのできれいなデータだと思ったことと
変数変換が絡んでくると偏回帰プロットはどうすればいいのかという問題がある。
結局試行錯誤しかないか。



665 :132人目の素数さん:2008/03/10(月) 09:24:39
重回帰構造つーのは、単回帰では非線型な関係に見えることが多い。

例:単回帰では Y=√X1、重回帰では?
Y, X1, X2
1, 1, 0
2, 4, 1
3, 9, 3
4, 16, 6
5, 25, 10

666 :666:2008/03/10(月) 18:19:47
√(6*6)=6


667 :132人目の素数さん:2008/03/11(火) 00:18:31
>>665
X2がその値になるのはなぜ?

668 :132人目の素数さん:2008/03/11(火) 07:46:14
>>665
説明変数間の相関が高いといろんな事が起こるわな。

669 :132人目の素数さん:2008/03/11(火) 17:30:18
>>667
観測値番号を i (i=1,…,5) とすると、
Y = i
X1 = i^2
X2 = 1〜(i-1) の和 (初項 0)

670 :132人目の素数さん:2008/03/11(火) 22:08:18
>>669
X2 = 1〜(i-1) の和 (初項 0)
これはどうやって導出されたのですか?

671 :132人目の素数さん:2008/03/11(火) 23:07:46
i の二次関数になってるわけか、、、

672 :132人目の素数さん:2008/03/13(木) 13:20:43

相関がある項目はより回帰係数を強く、ない項目は回帰係数を弱くという表現をして
単純に相関係数と回帰係数を乗算しようとしています。
この結果でてくる指標は、統計学ではすでに存在しているのでしょうか?


673 :132人目の素数さん:2008/03/13(木) 19:43:15
>>672
意味不明な指標だな。何がやりたいんだ?

674 :132人目の素数さん:2008/03/13(木) 19:49:30
>>672
存在しません.なぜならナンセンスだからです.

675 :132人目の素数さん:2008/03/13(木) 20:17:00
>>672
その回帰係数というのは重回帰のもの?
偏相関係数を計算すれば関係の強さは得られるが。


676 :132人目の素数さん:2008/03/13(木) 20:45:03
はい、重回帰分析です。項目削除の代わりに回帰係数の信頼度を掛けて『回帰係数の期待値』を算出したらどうかなと思ったので。
回帰係数の信頼度は相関係数ではなく回帰検定のP値なら意味あるかな。



677 :132人目の素数さん:2008/03/13(木) 20:50:05
>>676
偏回帰係数×(1‐回帰検定のP値)です。


678 :132人目の素数さん:2008/03/13(木) 21:28:17
>>677
少し意味が通じるようになったけど、その指標が何に使えるんだ?

679 :132人目の素数さん:2008/03/13(木) 22:00:03
>>676-677
一般の重回帰関係
Y = β1・X1 + β2・X2 + … + βk・Xk + ε ( E[ε]=0 )
は結構複雑なので、一番単純なケースの k=1 & X1=1 について
考えてみれば?
つまり β1 = E[Y] で、その推定値は Y の標本平均の場合。

それに使い道があれば、一般の場合を考える価値があるかもね、、、

680 :679:2008/03/13(木) 22:08:18
または、単回帰
Y = α + β・X + ε ( E[ε]=0 )
のβで考えてみる。

681 :132人目の素数さん:2008/03/13(木) 23:00:11
>>678
偏回帰係数について
回帰係数のP値検定で0.05以下なら一般的にOKと言われていますが
0.06なら本当に棄却していいのか?と思いました。
結局、あるなしの0、1で判定するのではなく
確率を乗算した期待値で算出したほうがいいんじゃないかと考えました。
だから>>677の式を使うのはどうなのかなと。

682 :132人目の素数さん:2008/03/13(木) 23:04:08
いろいろ遊んでいたら
Σ(単回帰係数×単回帰係数のP値)=Σ(重回帰係数×重回帰係数のP値)が
全てのデータnについて同じ値になった。
これは何を意味しているんだろうか。。。

683 :132人目の素数さん:2008/03/13(木) 23:46:49
>>681
回帰係数の有意性検定やってるんだよね?β=0を仮説としてるんだとしたら、
0.06なら棄却しないでいいのか?にならない?
言いたいことは漠然とだけ伝わるけど、期待値で判断する理由は?
有意性を判断する上で明確な理由があるのなら教えて。

684 :132人目の素数さん:2008/03/14(金) 03:45:59
>>683
そうです。回帰係数の有意性検定β=0を仮説としています。
0.05という数値は何を根拠に決めたんだろうと感じたので。
で、0.05ならOKで、0.051ならNGと急に変わるので、ゆるやかにするために期待値でだめかなと。

P値が大なら回帰係数も小さくなりyに影響も小さくなる。棄却される方向に動くので。



685 :132人目の素数さん:2008/03/14(金) 10:10:32
>>684
で?それをどう使うの?影響の大きさを見るなら単にp値を見るのとどう違うの?
変数間の影響比較をしたいのなら単に標準化して係数を求めればいいだけだけど。

686 :132人目の素数さん:2008/03/14(金) 13:44:00
684がやりたいのは、こういうことじゃないかなあ。
1. 重回帰の説明(独立)変数選択で、P値が微妙な場合、落とすべきかどうか皆悩む。
2. そこで、母偏回帰係数 βi がゼロである「確率」 Pr{βi = 0 } を考える。(ベイズ流)
3. Xi を入れた場合の回帰式と、入れない場合(βi = 0)の回帰式を、βi の(事後)確率で「結合」して、Y の予測を行う。
4. うまく「結合」した回帰式を使えば、Y の予測誤差を小さくすることができるか?

もしも、P値が微妙な変数が1つだけなら、結論は出せると思うけどね・・・
あとベイズ流だと、βi の全範囲について確率分布を考えるわけで、
ゼロ値だけを特別扱いすることに、なにか実際的な意味があるかどうか、、、

687 :132人目の素数さん:2008/03/14(金) 14:18:13
それ以前に、個々の変数(独立)を0.05で落とすもんですか?

688 :132人目の素数さん:2008/03/14(金) 14:28:11
>>684
0.05というのは標準正規分布を仮定した場合、データが2σ区間に落ちる確率が約95%だからじゃないかな?別に区間域を99%まで広く取って1%で検定してもいいわけだし、確かに明確な根拠はないよなあ…。

689 :132人目の素数さん:2008/03/14(金) 14:36:06
>>687
彼女がつぶやいた一言で、自分のことを好きか嫌いかを決めるのは困難。
知識を総動員してトータルに判断する。
会うチャンスがまだあれば、ある度合い(P値)で保留しておくのが吉。

690 :132人目の素数さん:2008/03/14(金) 22:01:23
予測にという話なら変数選択の問題じゃないか?
個別に判断せず修正決定係数やAICで全体的に判断すべきでは?

691 :132人目の素数さん:2008/03/15(土) 10:44:18
>>686
そのとおりです!

一般的には変数選択は修正決定係数やAICやP値で全体的に判断するものなんですか?
減少法や増加法では変数の検討順番で最終選択される変数が異なります。
かといって増減法や総当り法だと変数が多い(私の場合約50個)と時間がかかってしまいます。
そこで変数検討順番が変わっても最終選択変数が同じになり、最適な選択ができる方法はないかと考えました。


692 :132人目の素数さん:2008/03/15(土) 11:00:00
一般的には全体的に判断するものでしょう。
私なら、確実な、あるいは論理的に考えて必要な変数は固定し、どう考えても見込みのない変数は削って、
検討すべき変数を絞り込んでから増減法なり総当たりなりするんじゃないかな、と思いますね。
50個も独立変数のある回帰分析はやったことがないんでわかりませんが。
それと、「最適」と言っても、最終的には決断というか主観による部分もあります(どの基準を使うかによっても異なるわけですし)。
あるいは主成分分析でもして合成変数にするかな。
いずれにしても、0.05だからよい、0.051だからNGという判断はしないでしょう。

693 :686:2008/03/15(土) 17:58:55
>>691
けどね、箇条書きの 3 で仄めかしてることだけど、
 偏回帰係数×(1‐回帰検定のP値)
のような単独係数補正には、致命的欠陥があるんだよ。
(実際にその方式で Y を予測してみればすぐわかる)

ひとつは、切片も補正しないと、残差の平均がゼロで無くなって
ずれた関係式になること。しかしこれは、すべての変数を平均からの
偏差(または標準化)で扱うことによって、回避可能。

もう一つは、その変数と他の説明(独立)変数との相関の存在。
ある変数を落とすか回帰式に入れるかで、その変数と相関を持つ
他の変数の偏回帰係数が違った値になる。この違いの大きさは
相関の強さに比例し、場合によっては符号まで変化する。

つまり、ある偏回帰係数をゼロ寄りに調整するには、
(その係数だけではなく)全偏回帰係数を同時に調整してやる必要がある、
ということ。でないと、斜め上行く回帰式になってしまうw

694 :sage:2008/03/15(土) 18:26:31
すいません、初心者の質問です。
シェッフェの一対比較法という分散分析の手法を使って
有意であることが分かったあとに、各データの平均値を
LSD法によって多重比較してよいものなのでしょうか
手持ちの試料には、ヤードスティックとかいうLSD値に
似たものを使っているのですが、違いがわかりません。

よろしくお願いいたします



695 :132人目の素数さん:2008/03/15(土) 20:51:34
>>694
群が3群でない限り、分散分析後のLSD法はいきなりLSD法を使うのと大差なくなるぞ。
ヤードスティックというのはこれのことか?
http://itpro.nikkeibp.co.jp/word/page/10011821/

696 :694:2008/03/15(土) 22:52:38
レスありがとうございます
LSD法って3群じゃないと使えないのでしょうか?
ちなみにシェッフェの一対比較法(浦の変法)というやつでした。

ヤードスティック法とは別だと思うのですが
式でいうと
ヤードスティックY=(スチューデント化された範囲)×√(誤差の平均平方÷(2×群数×人数))
で、たとえばA群とB群の信頼範囲をABとすると
A平均-B平均-Y < AB < A平均-B平均+Y
で表されるそうです
この信頼範囲の意味がよくわからず、LSDで判定したいなって考えてしまいました。

LSD法を使ってよい場合とそうでない場合の判断の仕方
が詳しく書かれているHPや書籍がありましたら
教えてください。
お願いしますm(__)m

697 :132人目の素数さん:2008/03/15(土) 23:21:12
>>692
> あるいは主成分分析でもして合成変数にするかな。

主成分分析で合成変数がわかるのですか?

698 :132人目の素数さん:2008/03/15(土) 23:29:11
>>693
マルチコ問題を起こさない項目削除も悩んでいます。
調べたところ判断する方法が複数あって、よく使われるのはどれなのかもわからなくて。
・相関係数が大きすぎる
・VIFが10以上
・重回帰係数て単回帰係数の符号が違う

699 :132人目の素数さん:2008/03/15(土) 23:37:39
>>693
なるほど。>>691がやりたかったことが見えてきた。
それで期待値を取ってたわけね。
発想としては自然だったんだな…。

700 :132人目の素数さん:2008/03/16(日) 00:27:42
>>696
スチューデント化された範囲ってn群の平均値に対するものだよね?
そうだとするとそのヤードスティックの定義の分母にまた群数が現れる
意味が分からない。

信頼範囲って0を含んでいればA群とB群に差がなく
含んでいなければ差があるという意味でしょう。

単独のLSD法は多重比較の有意水準を守らないということは
多重比較の本のどれでも載ってると思うけど。

701 :132人目の素数さん:2008/03/16(日) 00:34:48
>>698
多重共線性が起きていることの確認と項目選択とがごっちゃになっていると感じる。
項目を選ぶならVIFがベストかな?
ただ普通に変数選択したときの結果も見ながら総合的に判断しないといけないかもね。

702 :132人目の素数さん:2008/03/16(日) 01:42:43
ルイちゃんかわいいなぁ
山本さんがうらやましくて仕方ない

703 :132人目の素数さん:2008/03/16(日) 21:34:43
>>702
このロ○コンめ!

704 :132人目の素数さん:2008/03/17(月) 12:00:26
VIF≧10とは相関係数≧0.948683と同値と考えていいですか?

705 :132人目の素数さん:2008/03/17(月) 12:32:05
>>704
2変数間のVIFならそうだね。

706 :132人目の素数さん:2008/03/17(月) 21:40:45
>>705
多変数なら偏相関係数をつかって(2変数のときと同じ)VIFの式で計算すればいいのでしょうか?

707 :625:2008/03/17(月) 21:44:31
>627さん
どうもありがとうございました。
また、スレを見失ってしまい御礼が遅くなり申し訳ありませんでした。

それから、次のような単純な出し方はいかがなものでしょうか?

:例:
300人中、英検合格者が100人いたとして、要因を単純に出そうと
思ったら、次のようなパターンでも良いのでしょうか?

A:自らは英語テレビを見ないで英検保有する者が10人
B:自らが英語テレビを視聴して英検保有する者が30人
C:自ら&自分の親も英語テレビを視聴し、英検保有する者が40人
D:いずれも属さない人が30人

よろしくお願いします。

708 :132人目の素数さん:2008/03/18(火) 00:46:22
>>706
X1, X2, X3でYを説明する場合だとX1のVIFは
X1をX2, X3で回帰させたときの決定係数R^2に対して
1/(1-R^2)となるようだ。


709 :132人目の素数さん:2008/03/18(火) 01:18:30
>>707
CはBの一部じゃないの?それとも & じゃなく or とか?
何れにせよ、そんな不規則な比較はダメ。
ちゃんと分割表(クロス集計表のこと)を使って、要因間の独立性を検定する。

710 :132人目の素数さん:2008/03/18(火) 01:46:22
多数の分散拡大要因VIFは、相関行列の逆行列の要素。


711 :132人目の素数さん:2008/03/18(火) 12:14:03
皆さんは理系ですか?

712 :132人目の素数さん:2008/03/18(火) 12:25:21
>>710
なるほど。その方が一度に計算できるね。
正確には説明変数に対する相関行列の逆行列の対角要素ってことだね。

713 :132人目の素数さん:2008/03/18(火) 16:32:41
>>712
> 正確には説明変数に対する相関行列の逆行列の対角要素ってことだね。

目的変数に対する相関行列の逆行列の対角ではダメでしょうか?

714 :132人目の素数さん:2008/03/18(火) 17:13:01
>>713
VIFは説明変数間の関連を見るもので目的変数は関係ないみたいだね。
だから目的変数も入れて相関行列を求めそのまま逆行列を取ったら
対角要素はVIFにはならないよ。

715 :132人目の素数さん:2008/03/18(火) 19:23:33
重回帰分析をしようとしてます。
データは製造条件の良品データのみで不良品データはありません。
良品データの散布図を確認したところ●のような形で若干楕円型のものもある程度です。

このデータに(良品のみという)制約のあるものを対象に予測したいのですが、回帰分析でよいのでしょうか?


716 :132人目の素数さん:2008/03/18(火) 23:41:15
>>715
よく分からないんだけど散布図って多変量散布図?
目的となる変数があるならとりあえず重回帰してみたら?
決定係数で予測が無理かどうか分かると思うけど。

717 :132人目の素数さん:2008/03/19(水) 07:29:35
>>716
2変数の散布図です。多変量散布図の方がよいですか?
重回帰をしたところ補正済み決定係数が0.20程度でした。

718 :132人目の素数さん:2008/03/19(水) 10:07:38
>>717
すべての組み合わせを見たんならいいんですよ。
多変量散布図はそれを一度に出してくれるだけですから。
修正決定係数が0.2では全然役に立ってません。
たとえ変数選択をしたとしてもあまり変わらないでしょう。

719 :132人目の素数さん:2008/03/19(水) 13:03:11
>>718
はい、すべての組み合わせをVBAで作成して見ました。

つまり回帰分析では予測できないということですね。予測が目的なのですが、他の手法を使うということでしょうか?


720 :132人目の素数さん:2008/03/19(水) 17:05:30
 皆さんお忙しい中すいません。突然ですが一つ質問させて下さい。
今着ている服の色(上下共に)と年齢がぴったりと当てられる可能性はどのくらいありますか?
オカルト板で実際にあてられて、偶然とは思いにくいので…。
もしスレ違なら誘導お願い致します。

721 :132人目の素数さん:2008/03/19(水) 17:22:11
>>720
ちなみに何色なの?
データがあれば確率ははじき出せるが。

722 :132人目の素数さん:2008/03/19(水) 17:23:33
>>720
スレへのリンクはって。
そこに過去にかかれたデータから分析されたとか?

723 :132人目の素数さん:2008/03/19(水) 17:38:45
>>721
>>722
ちょっと難しいことは良く分かりませんが、http://hobby10.2ch.net/test/read.cgi/occult/1204837888/
>>194が私です。完全に当たってます。

724 :132人目の素数さん:2008/03/19(水) 19:26:01
>>723
何のヒントもなしにあたってるね。
霊視が存在しないと仮定すると、書き込んだときをたまたま見られてたなら100%当たる。
同一PCにネットの履歴が残っていて別の人が後から書いたなら100%当たる。
心当たりは?

725 :132人目の素数さん:2008/03/19(水) 20:48:49
???

726 :132人目の素数さん:2008/03/19(水) 23:12:03
>>719
散布図がどれも丸くなっているということは非線形回帰など他の方法でも
予測することはできないと思われます。予測に役立ちそうな変数を新たに
追加するということしかないですね。

727 :132人目の素数さん:2008/03/19(水) 23:13:25
>>725
書き込んだのが家族かストーカーかってことだよ。

728 :132人目の素数さん:2008/03/19(水) 23:27:35
>>727
あと本人乙の可能性ね
てゆうか匿名掲示板で宣伝があれば通常は本人乙や関係者乙だから

「当たった不思議」と言って回る人は
「霊能力者」本人でないことを立証しないといけない

匿名掲示板ではその証明は霊能力よりも難しいかもしれない

729 :132人目の素数さん:2008/03/20(木) 16:27:49
>>726
追加したくても測定不可能な項目があるので現状はできないんです。
回帰分析がダメなら分散分析とかではできませんか?

730 :132人目の素数さん:2008/03/20(木) 16:50:29
>>729
回帰分析:定量的な要因による品質差を分析
分散分析:定性的な要因(分類変数)による品質差を分析

分散分析はダミー変数を使った回帰モデルで表現できるから、
定量変数と定性変数を混ぜた回帰分析も可能。

731 :132人目の素数さん:2008/03/20(木) 17:36:17
>>729
すでに変数が得られているのに分散分析でとはどういうことか?
>>730が述べているように分散分析は定性的な変数を使う。
まだ使っていない定性的変数があるのなら可能性はある。
なお、現在ある定量的な変数を区切って定性的に直して
効果があることはない。>>730が述べているように
分散分析は所詮回帰分析の一種だから。

732 :132人目の素数さん:2008/03/20(木) 21:37:12
totoやyahooのファンタジーサッカーをやっているんですが
Jリーグのチームごとに得、失点のデータを使って次の対戦の得、失点を予想することは可能なんでしょうか
ホームチームの平均得点とアウェイチームの平均失点を比べて予想するような感じなのでしょうか

733 :132人目の素数さん:2008/03/20(木) 21:51:27
>>732
予想するだけなら誰でもできる。あたるかどうかは別問題。

サッカーのゲームみたいに統計的効果の小さそうなものに
統計的な手法で予想したって意味があるかは全然不明で、
きっと「得点が10を超えることはない」程度の主張しか、
統計的に確からしい予想はできないと思われる。

もっとサッカー評論家みたいな人がやってる予想のほうが
きっと数学使うより意味のある結果が出るよ。

734 :132人目の素数さん:2008/03/21(金) 01:32:15
>>733
評論家でも大して変わらないでしょう。
totoが始まったばかりの頃、大勢が予想していたが
全然当たらなかったからな。

735 :132人目の素数さん:2008/03/22(土) 05:38:27
485 :名無しさん@実況で競馬板アウト:2008/03/19(水) 05:05:41 ID:cJVjpt/80

>>484
例えば、1/500で当たるルーレットがあったとします
1回転で試行回数1回とします。これを当たるまで回し、当たった時の試行回数を記録します
その後はまた1から数え、当たったところで試行回数を記録します

これを永続的に続けた場合、500回転目に当たっているパターンが1番多くなり
そこを中心(頂点)として山のような形になります

希望であれば計算式も記載しますが、この場合500回転目で当たっている割合は65%前後になります
この分布が期待値であり、1回転目は最も期待値が低いと言えます(501回転目以降を除く)
もちろん、確率はどこでも1/500ですが、1発勝負でそこを引く可能性は低いです

当然ですが投資で巨額な金を使う場合1/500では分母が小さすぎます
競馬で数値を出すのは難しいのであくまで例ですが、期待値とはこういうことです

http://mamono.2ch.net/test/read.cgi/keiba/1203346290/

すいません。自分にはこれ何言ってるのかさっぱりなんですけど、
詳しい方から見てまともな理屈ですか?


736 :132人目の素数さん:2008/03/22(土) 09:06:58
>>735
ささいなミスが1カ所。
「500回転目で当たっている割合」ではなく「500回転目までで当たっている割合」。
その数値は指数分布で計算できて正確には63%。

そういうところはともかくサイコロでも
「1の目を出すのに大体6回はかかるだろう。1の目の確率は1/6だから」
と考えれば納得できるのでは?

737 :132人目の素数さん:2008/03/22(土) 15:22:52
>>736
ありがとうございます
>500回転目に当たっているパターンが1番多くなり
ここが一番良くわからないのですが
サイコロの場合だと1回目に1が出る確率は1/6
6回目に初めて1が出る確率は5/6の5乗×1/6になって6回目のパターンの方が少なくなるような気がしてしまいます
自分の考えはどこがおかしいのでしょうか?

たびたび申し訳ありません



738 :132人目の素数さん:2008/03/22(土) 17:08:32
>>737

> 6回目に初めて1が出る確率は5/6の5乗×1/6になって6回目のパターンの方が少なくなるような気がしてしまいます

×6C1がない。

739 :132人目の素数さん:2008/03/22(土) 17:19:09
>>737
1回目に1が出る確率は1/6
2回目に初めて1が出る確率は5/6の2乗×1/6×2C1
・・・・
6回目に初めて1が出る確率は5/6の5乗×1/6×6C1

6回目に『初めて』1が出る確率の方が小さい。

6回目『までに一回以上』1が出る確率は
1-5/6の6乗

740 :132人目の素数さん:2008/03/22(土) 17:27:09
>>738-739
Cはいらなかった。訂正。

741 :132人目の素数さん:2008/03/23(日) 08:46:28
>>737
確率は指数分布ですから単調減少です。
パターンが多くなると言う表現があいまいですが、
平均に与える影響(回数×確率)は500回目が一番高くなる形になります。
それをすべて合計すると平均となり、500となります。
500回目までで確率63%というのと矛盾するように感じるかもしれませんが、
1回目から500回目までとそれ以降は対称ではなく1000回以上かかることも
あるのでそのようなずれが生じます。

742 :132人目の素数さん:2008/03/23(日) 09:56:57
みなさまありがとうございます。
ようやく納得できました。
>>735の文を書いた人はたぶん、平均に与える影響、の説明をみて
出現率のことだと勘違いしていたのだと思います。

743 :132人目の素数さん:2008/03/23(日) 14:02:36
名前はパスカル分布な。
成功の確率 p (0≦p≦1) の事象を毎回独立に繰り返して、
ちょうど n 回目に初めて成功が起きる確率 Pn:
Pn = [(1-p)^(n-1)] p
(p=1/500, n=500 の時 Pn≒0.0007)
最初の成功が n 回目以内に起きる確率 Qn:
Qn = P1+ … + Pn = 1 - (1-p)^n
(p=1/500, n=500 の時 Qn≒0.63)

744 :132人目の素数さん:2008/03/23(日) 17:31:17
パスカル分布って幾何分布のこと?そういう言い方もあるのか。

745 :132人目の素数さん:2008/03/23(日) 21:44:48
離散は面倒だから指数分布で計算したが、正確に言うなら幾何分布だな。
パスカル分布は負の二項分布のことだから幾何分布も含んでいるけどね。

746 :132人目の素数さん:2008/03/24(月) 20:56:52
説明変数n個の相関行列の逆行列を計算し、
対角成分がVIFで10以上を削除判断するということでしたが、
多重共線性を示す説明変数のなかで1つ残すものを決めるにはどうするのでしょうか?

相関行列の逆行列の対角成分以外でも10以上のものがありました。
それをヒントに群がいくつあるか、群の中からどれを残すのかを決めるのでしょうか?

747 :132人目の素数さん:2008/03/24(月) 21:08:57
>>746
VIFが最大の変数を削ったらだめなわけ?

748 :132人目の素数さん:2008/03/24(月) 22:10:43
>>747
> VIFが最大の変数を削ったらだめなわけ?
はい、まず関与しているのが2群あり、1群目には関与している項目が6個あり、5個を消さないとダメな状態。
また2群目は関与している項目が3個あり、2個を消さないとダメな状態。

消し方に何かよい方法はないものかと思いました。

749 :132人目の素数さん:2008/03/24(月) 23:18:46
チェスなどの2人制ゲームにおける実力の測定値にイロレーティング(Elo rating)と呼ばれる
(レーティング)の算出法があります。
参照 http://ja.wikipedia.org/wiki/%E3%82%A4%E3%83%AD%E3%83%AC%E3%83%BC%E3%83%86%E3%82%A3%E3%83%B3%E3%82%B0

例えば以下のような2チームがいたとして
甲組 A1さん(R1600)A2さん(R1400)
乙組 B1さん(R1800)B2さん(R1300)

甲組と乙組期待勝率の高そうな方はどちらかということを考える時に


750 :132人目の素数さん:2008/03/24(月) 23:19:07
【その1】
チームのRを平均して期待勝率を出す

甲組(1600+1400)÷2=1500 乙組(1800+1300)÷2=1550

レート差50-53の範囲における勝率はそれぞれ 57% 43%
よって乙組は甲組に14%期待勝率で上回るということになる

【その2】
総当りで考えて
@甲A1(R1600)&乙B1(R1800)
A甲A1(R1600)&乙B2(R1300)
B甲A2(R1400)&乙B1(R1800)
C甲A2(R1400)&乙B2(R1300)

@におけるR差200→勝率甲.24 乙.76
AにおけるR差300→勝率甲.85 乙.15
BにおけるR差400→勝率甲.08 乙.92
CにおけるR差300→勝率甲.64 乙.36
これらの勝率を足し算すると
甲 0.24+0.85+0.08+0.64=1.81
乙 0.76+0.15+0.82+0.36=2.19
となるから乙の方が戦力的に上

どちらの考え方の方が妥当でしょうか

751 :132人目の素数さん:2008/03/25(火) 00:23:27
>>748
最大のものを削ってVIFを計算し直し、それでも10以上があり、また削って…を
繰り返してその状態って事?
また、普通の変数選択でもそんなになくなるの?


752 :132人目の素数さん:2008/03/25(火) 02:19:09
>>751

>>748
> 最大のものを削ってVIFを計算し直し、それでも10以上があり、また削って…を
> 繰り返してその状態って事?

はい、そうです。
結果的に始めにVIF≧10以上のものが消されています。


> また、普通の変数選択でもそんなになくなるの?
変数選択は項目が50個もあって重回帰分析の項目選択はできていません。

対角要素以外の数値がたまたまかもしれませんが、数値が≧10でヒントになって群の個数と、その関与する数がわかるのではないかと。

753 :132人目の素数さん:2008/03/25(火) 03:14:53
>>752
実際は最初からVIFが10以上のものが複数ありました。

754 :132人目の素数さん:2008/03/25(火) 09:40:52
>>752
とりあえず自分で群だと思っているその6項目だけで変数選択すると
どうなりますか?残るのは1項目ですか?
(Rだったら50項目ぐらいの変数選択はできると思うけどね。)

755 :132人目の素数さん:2008/03/25(火) 11:49:02
>>754

> とりあえず自分で群だと思っているその6項目だけで変数選択すると
> どうなりますか?残るのは1項目ですか?

はい5項目(適当に)削除したら1項目はVIFは10以下になります。
ただ他の群の項目はVIF≧10以上で残ります。

問題を切り分けます。
1、1群のみで関与項目が6個の場合、削除方法はVIFが大きいもの上位5項目を削除するのがよいのでしょうか?
2、群を見分ける方法は相関行列の逆行列の対角要素以外で10以上のところで判断できそうなのですが、
対角要素以外の部分は何を意味しているのでしょうか?
(対角要素VIFはその項目を他の項目で説明できる量?を表している)

756 :132人目の素数さん:2008/03/25(火) 13:17:25
>>749-750
【その1】は明らかにダメ。理由はレート差と勝つ確率との関係が非線型だから。
【その2】が良いかどうかは、チーム対戦のルールによる。
もし籤引で対戦者を決めるのなら、籤引前の指標としては有効かも。

757 :132人目の素数さん:2008/03/25(火) 22:27:10
>>755
(AICなどで)普通に変数選択したらと言ったんだけど。
VIFは説明変数間の影響を見るだけなので目的変数との関係をみる変数選択の
方が基本だと思います。
2についてはよく分かりませんね。対角要素以外は意味がなさそうに思います。
群を見るなら相関行列を見た方がいいのでは?

758 :749:2008/03/26(水) 00:41:05
>>756

どうもありがとうございます
発端というかとっかかりは
カードゲームの団体戦(3対3)
の説明の中で
個々人のRをチームのRに反映する際に
「3人のRの平均」を求めてるのが
ちょっとひっかかったので



759 :132人目の素数さん:2008/03/26(水) 08:53:43
>>757

AICや修正済決定係数で変数選択すればよいということですぬ。
方式はステップワイズがよいですか?
今は減少法しか作ってないので。

760 :132人目の素数さん:2008/03/26(水) 19:38:38
多重共線性を放置して変数選択する方法もあるのか。なるほど。

761 :132人目の素数さん:2008/03/27(木) 09:59:45
>>760
いやどうだか

762 :132人目の素数さん:2008/03/27(木) 19:16:51
複数説明変数X1〜Xnがあり、
説明変数x1と目的変数yの散布図を確認したところ二次曲線でした。
重回帰を実施するとき、X1〜Xnの説明変数に加え、
X1を二乗した項目を追加しました。(応答曲面法に近い)
ここで多重共線性を調べるためVIFを確認しようとしたところ
特異行列なため逆行列が求まりませんでした。

このような場合多重共線性を調べるにはどのようにすればよいでしょうか?


763 :132人目の素数さん:2008/03/27(木) 23:12:08
いま実験を行っているのですが(学生じゃなくて中小企業での研究です)、

・ある微生物集団を2グループ連続培養している。
・あるとき、培養条件を変えた。
・2グループ間で、条件変更が与える影響が異なる(片方は影響なし)のではないかと考えている。
・データ(増殖速度)は、条件変更前後に5点ずつぐらい。

2グループの培養条件は同じなのですが、室温などの変動があるので微生物の状態も変化しますし、
条件変更前後をそのまま比較しにくくて、どういった統計で処理したら妥当かを考えています。

2元配置の ANOVAを使おうと思っているのですが、

・条件変更前後の5点のデータを繰り返しとみなして、繰り返しのある二元配置分散分析を行う。

というやり方でいいものでしょうか。データは5点あるのですが、同一条件での反復5回の測定とは
言いにくく、その5点でも微妙に培養環境が異なっていたりするのですが・・・


764 :132人目の素数さん:2008/03/28(金) 20:07:33
>>762
行列が特異なのは2乗のせいじゃないよ。
他の変数間に線形関係があるのでは?

765 :132人目の素数さん:2008/03/31(月) 16:11:51
偏散布図を書いて、各説明変数の信頼区間を確認したいのですが、
偏散布図はどのように計算して描けばよいでしょうか?

766 :132人目の素数さん:2008/04/01(火) 20:35:22
>>765
Y:被説明変数、X1,X2,…,Xp:説明変数、の重回帰で
Y と X1 の偏散布図は
縦軸:Y を X2,…,Xp で回帰した残差
横軸:X1 を X2,…,Xp で回帰した残差
Y と Xi なら、Xi 以外の全説明変数で、どっちも回帰した残差使う。

767 :767:2008/04/01(火) 20:49:32
7 ! / 6 ! = 7


768 :132人目の素数さん:2008/04/02(水) 01:51:22
>>766
> Y と X1 の偏散布図は
> 縦軸:Y を X2,…,Xp で回帰した残差

というのは、重回帰で予測Y=aX1+bX2+……
のとき、
X1の項以外を実測Yから引くと理解してよいですか?それともX1を除いた変数と実測Yとで重回帰分析をしなおす?


> 横軸:X1 を X2,…,Xp で回帰した残差
> Y と Xi なら、Xi 以外の全説明変数で、どっちも回帰した残差使う。

横軸の値がX1じゃなくなりませんか?違和感がありますが。

769 :132人目の素数さん:2008/04/02(水) 07:14:18
>>768
>X1を除いた変数と実測Yとで重回帰分析をしなおす?

し直す。で

> 横軸:X1 を X2,…,Xp で回帰した残差

の方は、X1を除いた説明変数とX1とで重回帰計算をやる。

770 :132人目の素数さん:2008/04/02(水) 08:16:28
>>769

横軸はX1以外からX1に影響してる分を差し引いて、純粋なX1を求めているという解釈ですか?

771 :132人目の素数さん:2008/04/02(水) 18:20:50
そだね。記号で書くと、観測ケース毎に
(純粋Y, 純粋X1) = (Y, X1) - E[(Y, X1) | X2, …,Xp]の推定値
と純粋値に変換してからプロットしたのが偏散布図。

(純粋Y, 純粋X1)の相関係数が偏相関係数。
(純粋Y, 純粋X1)の単回帰式の傾きが偏回帰係数。

772 :132人目の素数さん:2008/04/02(水) 19:37:09
重回帰分析の変数について、変数Aは値が小さくなるほど、他の変数に影響を受けやすくなります。
(変数Aは薬のようなものである値C以上だと細菌を繁殖させやすくなりますが、C以上の量を増やしてもあまり意味がないものです)
このような関係は変数変換して直線にしなければならないでしょうか?

773 :132人目の素数さん:2008/04/02(水) 23:24:52
>>771
Yについては納得できるのですが、X1は設定する値で他のXiから影響は受けないのですか。。。

774 :132人目の素数さん:2008/04/03(木) 13:20:51
>>772
ロジスティック曲線みたく効果の天井があるのなら、重回帰の時には
効果との関係が直線になるように、変換しとく必要あるでしょ。
どうすれば良いかは知らんけど、、、

775 :132人目の素数さん:2008/04/03(木) 13:25:03
>>773
もう言葉で説明するのがメンドーなので数値例。

Y, X1, X2
13, 1, 1
11, 1, 1
18, 1, 2
20, 2, 2
重回帰式 Y = 4 + 2*X1 + 6*X2 (R^2≒0.96)

<X1 と Y の偏関係を分析>
1) Y から他の説明変数の影響部を除く
 回帰式 Y = 5 + 7*X2
 Y残差 (1, -1, -1, 1)
2) X1 から他の説明変数の影響部を除く
 回帰式 X1 = 0.5 + 0.5*X2
 X1残差 (0, 0, -0.5, 0.5)
3) X1残差 と Y残差 をプロット(偏散布図)
4) X1残差 と Y残差 の相関 ≒ 0.7 (偏相関係数)
5) 単回帰 Y残差 = ゴミ + 2*X1残差(傾き=偏回帰係数)

776 :775:2008/04/03(木) 13:40:29
>>773
訂正
2) X1 から他の説明変数の影響部を除く
  ↓
2) X1 から他の説明変数とは異なる独自部のみを取り出す

777 :132人目の素数さん:2008/04/03(木) 18:21:05
ありがとうございます。
描き方は理解し、実際偏回帰係数と同じになることを確認しました。
横軸、縦軸の一般的な名前は何と書けばよいでしょうか?

778 :132人目の素数さん:2008/04/03(木) 19:15:22
グラフに偏散布図とか偏相関プロットとか書いとけば、
縦軸横軸は変数名そのままでいいいんでない?
ヘタに説明しようとするとグチャグチャするからさ。
ついでに重回帰式もグラフ内に入れとくのが親切。

779 :132人目の素数さん:2008/04/04(金) 17:42:47
目的変数Aを測定する機械の感度に寄与する電極長さという説明変数があります。
電極長さが大きくなると感度がよくなります。(目的変数Aが比例分散します)

また他複数の説明変数もあり、目的変数Aとは等分散で曲線や直線関係です。

変数変換し等分散、直線関係にするには
まずどうすればよいでしょうか?

780 :132人目の素数さん:2008/04/04(金) 19:10:05
関数の1次近似の次は2次近似だから
説明変数の2次の項を加えて有意かどうか検定してみるとか
y = a + b11・x1 + b12・x1^2 + b21・x2 + b22・x2^2 + …
の b12, b22 などね

781 :132人目の素数さん:2008/04/04(金) 19:53:28
重回帰花盛りやな。
多変量解析では最もよく用いられるが、実用には色々難しい側面があるんやろな。

782 :132人目の素数さん:2008/04/04(金) 20:40:46
統計学の素人が素人に頼まれたのですが・・・。[0, ∞)における滑らかな分布関数
(例えば幾つかのガウス分布をx>0だけで考えて正規化したもの)のラプラス変換
(s>0での)が離散データとして与えられていた場合、元の分布関数を復元する手法
というのはあるのでしょうか?岩波の数学全般の教科書みたらラプラス変換したものは
強単調減少になる、ってありました。で、例えばデータを良く知られた強単調減少関数で
フィットするとかなんとか、既に開発されていないのでしょうか?

783 :132人目の素数さん:2008/04/04(金) 21:05:23
分布のラプラス変換値がデータとして得られる、つーのが現実離れしてるので、
統計学の問題じゃないような気がするんだが、、、

784 :132人目の素数さん:2008/04/05(土) 00:40:30
つまり
 s_1, ..., s_n, F_1, ..., F_n を複素数とする。
 関数 f(x) は分布関数であって、そのラプラス変換 F(s) が
 F(s_i) = F_i を満たす。 f を決定せよ
ってことか。この問題は、知らんなあ。面白いとは思うが。

785 :132人目の素数さん:2008/04/05(土) 04:47:08
100点満点中平均点が何点のテストだと、一問分のミスが一番致命的になるんでしょうか?
テストを受ける人の学力を平均だとします。
例えば、平均点5割のテストで一問ミスって、−5点になるのと
平均点7割のテストで一問ミスって、−5点になるのは、
割合的に前者の方が致命的なので、平均点が低ければ低いほど、
一問のミスの致命度が大きくなると考えたんですが、
平均点9割8分のテストで一問ミスるのはもっと致命的のような気もします。
とすれば、一体平均点何点の場合が一番致命的なのか・・・?
考えてみても分からないので東大生の友達に聞いたんですが、彼も困ってました・・・。
誰かいい考え方が思いつく人いませんか?

786 :132人目の素数さん:2008/04/05(土) 07:43:14
>>785
100点のとき。
みんなが100点とれるぐらい簡単な問題を間違うのが一番致命的。

787 :132人目の素数さん:2008/04/05(土) 07:51:45
>>785
まず簡単に考えるとばらつきがないテスト(全員同じ点数)なら、
点数が高い方が致命的。
だからばらつきがあるテストならσの関数で表現される。

788 :132人目の素数さん:2008/04/05(土) 09:33:28
「致命的」の意味が不明だ。
それと「一問分のミス」の意味も不明だ。

一問が100点の試験で、正解率が50%だと平均点が50点
一問ミスしたら致命的。

一問が1点の試験で、正解率が50%でも平均点が50点
一問のミスが「致命的」かどうかはわからない(多分)

いずれにせよ、最も致命的なのは、スフィンクスがオイディプスに出した問題だろう
たいていのテストで命まで取られるわけじゃない

789 :132人目の素数さん:2008/04/06(日) 01:09:49
今自分が平均点付近にいればミスしても致命的ではないが、
満点とってるやつがミスするのは致命的。
致命的を偏差値が下がる度合いと定義した。

790 :132人目の素数さん:2008/04/06(日) 09:48:58
いやいやボーダーのやつの方が致命的だろ。w
そのせいで人数が抜かれる人数が多いんだから。

791 :132人目の素数さん:2008/04/06(日) 10:00:10
致命的も定義せずに議論とな

792 :132人目の素数さん:2008/04/06(日) 11:42:13
順位、偏差値のどちらが重要なんだ?

793 :132人目の素数さん:2008/04/06(日) 13:28:38
スイマセン致命的という表現は抽象的でしたね。
入学試験の話なので、合格から遠ざかる程度のことです。
だから、たぶん偏差値より順位の方が重要だと思います

794 :132人目の素数さん:2008/04/06(日) 13:37:23
平均点100点のときが一番なのは分かりましたが、
平均点70点と50点では一問間違えるのはどちらが致命的ですかね?


795 :132人目の素数さん:2008/04/06(日) 15:01:46
>>794
全体人数、合格定員、現在の自分の得点、一問の配点などに強く依存するため条件不足

796 :132人目の素数さん:2008/04/06(日) 15:27:43
エスパー的に解釈すると、
配点は5点×20問
分布は正規分布、標準偏差が10点
倍率が2倍
自分は(というか、考察対象は)平均点付近の「実力」があるが、たまたま
ケアレスミスをしたらどうなるか
ってな条件を脳内に構築。どんな試験でも同じような条件だと思って質問中。

>>793で「入学試験の話『なので』」なんて、後から出した条件を
さも最初から書いていたような書き方をしているところから推測。

797 :132人目の素数さん:2008/04/06(日) 15:41:02
>>794
一般化するとこんな感じか。
平均70点の試験と平均50点の試験で平均付近の確率変化の激しい方はどちらか?
もちろん分布に依存するが点数が1問1点の同じ成功確率の2項分布に従うとしたら
平均70点の方は70点となる確率が0.08678、平均50点の方は50点となる確率が0.07959
なので平均70点の方が平均付近の変動が激しいと言うことになるな。

798 :132人目の素数さん:2008/04/06(日) 15:41:47
>>796
入学試験の話ってことは書いていませんでしたね。
すいませんでした。
確かに模試と入学試験じゃ、違いますよね。模試なら偏差値の方が重要になるし。
とりあえず自分なりに確率で計算してみました

799 :132人目の素数さん:2008/04/06(日) 15:48:41
とりあえず一問10点の、100点満点のテストで、
平均点70点と50点の場合で一問ミスって、60点、40点になり、
二つ目のテストで80点以上、60点以上とれる確率を出してみました
実際は難易度にばらつきがあるけど、
便宜的に問題を解ける確率をそれぞれ一律、7/10、5/10に設定します
平均点70点のテストで80点以上とれる確率
途中の計算式まで書くのはめんどいので、過程と結論のみ分かりやすくまとめると
(7/10)10剰+10C9・(7/10)9剰・(3/10)+10C8・(7/10)8剰・(3/10)2剰
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
                10の10剰
=0.3827827864

平均点50点のテストで60点以上とれる確率
1+10+45+120+210
ーーーーーーーーーーー =0.3769531
    1024

800 :132人目の素数さん:2008/04/06(日) 15:50:04
よって極わずかだが、平均点70点より50点の方が一問のミスが致命的になる。
でもこれは一問のミスを10点で計算したから差が極わずかであっただけで、
一問のミスを5点に設定すれば差はもっと顕著になる
現実的に2〜5点程度のミスが多いからね。

不確定要素が多いのは分かりますが、こんな感じでいいのかな

801 :132人目の素数さん:2008/04/07(月) 00:14:02
>>800
話がすり替わってるね。
すでにミスした後のリカバリーの話がしたかったのか?
ミスしたときの影響度を見たかったのではないのか?

802 :132人目の素数さん:2008/04/07(月) 11:33:12
重回帰分析においてグラフに、信頼区間の曲線を回帰直線の上下に引きたいのですが、
信頼区間曲線の求め方がよくわかりません。
方法の名前だけでもよいので御教授ください。

803 :132人目の素数さん:2008/04/07(月) 14:08:01
>>802
Rなら
http://forest-environment.cocolog-nifty.com/forest/files/use_r.pdf
という解説ページがある。
この中のmatplotが信頼区間の曲線を描画しているが、
私の環境では
matplot(new$Wind, cline$fit, lty=c(1,2,2), type="l")
としないと描いてくれなかった。


804 :132人目の素数さん:2008/04/07(月) 19:12:40
>>803
ありがとうございます。
しかしRではないんです。
EXCELでやりたいので式が知りたいのです。

805 :132人目の素数さん:2008/04/08(火) 02:01:47
じゃあこっち。
http://homepage2.nifty.com/crop_shimane-u/regression_excel2.htm


806 :132人目の素数さん:2008/04/08(火) 10:43:55
>>805
これは単回帰の式なのですが、重回帰の場合xやxの平方和はどうするかが問題なのです。

807 :132人目の素数さん:2008/04/08(火) 16:37:15
文章の計量―文学研究のための計量文体学入門 アンソニー・ケニィ著,吉岡 健一訳
南雲堂 (1996/06)

文化を計る―文化計量学序説 村上 征勝
朝倉書店 (2002/12)

808 :132人目の素数さん:2008/04/09(水) 10:20:56
>>806
重回帰って信頼区間曲面を求めたいのか?

809 :132人目の素数さん:2008/04/09(水) 10:40:39
>>808
名前はよく知りませんが各項目の信頼区間です

810 :132人目の素数さん:2008/04/09(水) 18:17:50
すべての項目の偏散布図を作成したいのですが、
一項目ずつ、x軸、y軸を重回帰分析で計算すると手間です。
いっきに行列で計算する方法はないでしょうか?
よろしくお願いします。

811 :132人目の素数さん:2008/04/09(水) 23:33:49
>>802
>重回帰分析においてグラフに、信頼区間の曲線を回帰直線の上下に引きたいのですが、

重回帰だと回帰平面は有るが、回帰直線なんてものは無い。

>>809
>名前はよく知りませんが各項目の信頼区間です

意味不明。

812 :132人目の素数さん:2008/04/10(木) 00:00:45
質問させて下さい

一つの箱からクジ引きをした場合に、

Aの箱はクジが2枚入っていてその内の1枚が当たりで、
Bの箱はクジが4枚入っていてその内の2枚が当たりだとします。

約分するとどちらも当選確率は1/2ですが
この抽選を幾度となく繰り返した場合、

AとBで抽選結果のバラツキや、当たりハズレの分布の荒さに違いはありますか?

また、確率が1/2と1/4ではなく

1/10000が1つの場合と1/20000が2つの場合ではどうでしょうか?


813 :132人目の素数さん:2008/04/10(木) 00:09:48
>>812
>この抽選を幾度となく繰り返した場合、

引いたクジは箱に戻してから、次に引くとすると

>AとBで抽選結果のバラツキや、当たりハズレの分布の荒さに違いはありますか?

全く同じ

>1/10000が1つの場合と1/20000が2つの場合ではどうでしょうか?

全く同じ

814 :132人目の素数さん:2008/04/10(木) 00:17:01
>>813
レスありがとうございます。
この板に来たのは初めてなので
空気読めてなかったらごめんなさい。

実はこれパチスロの抽選の話で、
私はAとBに違いは無いと考えているのですが、知人いわく、

「Bの方が確率自体はAと同じでも、Aよりも分母の大きいものが2つある為に、
結果がバラツキやすく、当たりハズレの偏りも大きい」
と言うのです。
どうすれば、この事を中卒の私が中卒の知人にうまく説明できるでしょうか?




815 :132人目の素数さん:2008/04/10(木) 02:05:14
>>814
期待値は同じでも、突発的に当たる割合は分母が小さいほど大きい。


816 :132人目の素数さん:2008/04/10(木) 02:38:29
>>814
パチスロのことはよくわからんのだが、聞きたいことは本当に
10000個のうち1個が当たりのくじと
20000個のうち2個が当たりのくじとの比較
というモデルと対応した話なのか?
実は全然違う話だったりしない?

817 :132人目の素数さん:2008/04/10(木) 02:47:52
あくまでサンプル抽出であって、母集団の確率じゃないからでしょ。

818 :132人目の素数さん:2008/04/10(木) 03:38:07
>>817
こちらはパチスロのことは何も知らないことを前提に
教えてほしいんだが...

>あくまでサンプル抽出であって、母集団の確率じゃない
っていう表現を見てイメージしたのは

一定の割合で当たりの玉の入った大量の玉(母集団)の中から
よくかき混ぜて100個をバケツにすくい上げて
そのバケツの中でしばらく抽選を行い
一定時間経ったらそのバケツの中身を母集団に戻して
また100個選ぶ所から始める

というようなモデルで、

その母集団が、
500個の中に当たりが20個なのか、それとも
5000個の中に当たりが200個なのかでは
「バケツにすくい上げた時のバケツの中に入ってる当たりの玉の個数」の
分布は異なる

というようなことなんだが、
そういうことを言っているという理解で合ってる?


819 :812です:2008/04/10(木) 07:51:32
>>816
パチスロは台に乱数を生成する装置がついていて、
レバーを叩いた瞬間に0〜65535の65536個の値の中から一つが抽出されます。
その結果によって大当たりか否か等が決められています。

例えば取得された乱数の値が
1〜300なら『777』
301〜400なら『中当たり』
401〜500なら『小当たり』
0なら『プレミア当たり』
などのように、なっています

乱数の取得方法のソースは見つかりませんでしたが、
完全確率(独立試行)だと言われています




820 :続き:2008/04/10(木) 07:58:40
パチスロには色々な機種があり
実際は65536個ある乱数の中にある『大当たり』の乱数が
もっと細かく分けられている機種や大当たり乱数がもっと沢山ある機種など
さまざまです。

機種Aは
1〜300までの大当たり乱数のうち
1〜150までを引いた場合には『赤い777』が揃います
151〜300までを引いた場合には『青い777』が揃います
実際にはどちらの777が揃っても出てくるメダルの枚数は同じで優劣はありません。

機種Bは単純に
1〜300の乱数を引けば『赤い777』が揃います。

理論上はどちらの機種も大当たり確率は変わらなので、当たりの波も変わらないと私は考えています。


821 :132人目の素数さん:2008/04/10(木) 08:04:49
しかし知人は

Bの機種ではAの機種より確率の低い当たりが2つ合わさって
Aの機種の大当たり確率と同じになっているため、
Aの機種より大当たりが連チャンしたり
なかなか当たりが出てこない状態が続きやすい

と言っていました。
時間がないのでまた後ほど・・・

スレ汚しすみません

822 :132人目の素数さん:2008/04/10(木) 08:39:59
>>810
Rを使ってプログラムを組む

823 :132人目の素数さん:2008/04/10(木) 11:50:48
>>822
行列をつかって一気に計算するアルゴリズムがあるみたいなのです。


824 :132人目の素数さん:2008/04/10(木) 17:46:34
>>821
出現確率が同じなのに、
一定回数内での出現回数の分布に違いが出るのは、
試行の独立性が成り立っていない時。

コンピュータで発生する擬似乱数は
1) 出現確率は長期的な相対度数の意味において正確
2) 独立性は原理的に不完全(実用上問題が無い程度には改善可)

人間の感覚は結構鋭いから、その知人が言うように、
一方の機種は出現回数の分布に偏りがある
可能性が高いと思う。(たぶんプログラマーが乱数に無知なため)

825 :824:2008/04/10(木) 19:40:43
>一定回数内での出現回数の分布に違いが出るのは、

大当たりが起きるまでの回数の分布、の方が適切だった

826 :812:2008/04/11(金) 00:40:09
>>824
>2) 独立性は原理的に不完全(実用上問題が無い程度には改善可)
巷ではパチスロの抽選は独立試行であるように言われていますが
実際にはそれは不可能という事ですね?
私自身も抽選についてあれこれ調べてみましたが、やはりその通りでした。

理論派、非理論派問わず、この件を数人に聞いてみたところ
理論派の人でも『数学的にはABで違った挙動は見られないはずだけど
実践上の感覚ではBの方が波が荒いような気がする。
あくまで感覚だから当てにならないと思うけど・・』
といったような意見がほとんどでした。

今回はどうもありがとうございました。




827 :132人目の素数さん:2008/04/11(金) 08:08:27
n 次元のデータ x_1, x_2, ... が与えられたとします
このデータたちは、ある線型部分空間 W の上に乗ることがわかっています。
W の次元を推定したいのですが、どうすればよいでしょう?

(W からいくらでもサンプリングできる状況で、W の次元を推定しようとしています)

828 :132人目の素数さん:2008/04/11(金) 09:43:14
>>827
単に固有値問題だろ。
データから分散共分散行列を求めてその固有値を調べる。

829 :132人目の素数さん:2008/04/11(金) 12:53:40
統計初心者なんですけれども質問させてください。
実際の実験とは違うんですが大筋で同様だと思います。

ここに実験群A(メンバー:a1,a2,a3..an)と対照群B(メンバー:b1,b2,b3..bm)がある。
実験群のメンバーには薬を飲んでもらって、対照群のメンバーにはプラセボを飲んでもらった。
そののち彼らそれぞれに何回かゲームをしてもらった。
そのゲームの結果は成功、失敗で与えられる。
たとえば
人 成功/試行回数(成功確率)
a1 22/350
a2 100/700
a3 0/50
(以下略)


こんな感じ。
それでAとBで成功確率に差は有るか調べたいのです。
Rのshapiro.testによればデータは正規分布していないらしいです。大きな山は見えるんですが。
どんな検定が合っているかキーワードだけでも教えていただけませんか?

830 :132人目の素数さん:2008/04/11(金) 20:04:10
>>829
試行回数が異なるのに成功確率を入れてshapiro.testしたっていうんじゃないよね?

831 :132人目の素数さん:2008/04/12(土) 00:56:17
>>829
メンバー毎の結果を群単位に合計して、
↓2×2の分割表で検定する。

(回数)成功 失敗
A群  Nas  Naf
B群  Nbs  Nbf

あと、試行回数がA群とB群でかなり違っていて、
もし薬の影響が機序として考えられるのなら、
それは別に分析する。

832 :132人目の素数さん:2008/04/12(土) 13:40:48
俺もたぶん分割表を作ると思うが、
350回ゲームをやるのと700回ゲームをやるのとではだいぶ違うし、
経時的にというか慣れてきて成否が変化するだろうから、大丈夫かなと思ったりする。
ただの「たとえ」だろうとは思うが。(実際は700個の種子の発芽、とかそんなのだろうけど)
もし本当に何百回もゲームをするというデータなら、どういう処理をするかな

833 :132人目の素数さん:2008/04/12(土) 15:52:37
>>832
試行回数も含めて何らかの意味で、有意なメンバー差があるかどうかも
分割表でテストできる。

(回数)成功 失敗
a1  Na1s  Na1f
a2  Na2s  Na2f
a3  Na3s  Na3f
…   …   …

メンバー差があって、それが試行回数と関係してる場合なら、
試行回数の大中小(あるいはもっと細かい)グループ別にデータを分けて
A群B群を2×2分割表で較べるとか。

まあ最初にメンバー別の大きな分割表を作っておけば、あとはそれを
区分別にまとめて、いろんな条件を統計的に検定できるっしょ

834 :132人目の素数さん:2008/04/12(土) 22:35:09
例えば、2兆円規模の市場を調査するには
売上何円分の小売店を調べれば市場動向がわかることに
なるのでしょうか?



835 :829:2008/04/13(日) 07:30:11
>>830>>831>>832>>833
皆さんどうもありがとうございます。
キーワードは分割表ですね・・・。
実際の状況は何日か議論が必要だと思われる込み入った物なので控えさせてください。

836 :132人目の素数さん:2008/04/15(火) 14:04:24
時系列データの予測で、予測値の信頼性99.974%(3σ)で最大値○○以下であるということが知りたいのですが、
時系列データの扱いがわかりません。
どのような手順ですればよいでしょうか?

837 :132人目の素数さん:2008/04/15(火) 18:27:49
正方形の枠の中の座標(位置X、位置Y)での性質を示す複数データがあります。
この位置X、位置Yを考慮した重回帰分析をしたいのですが、
説明変数としてしまうと正規分布ではなく均等分布になります。
質問1.均等分布を正規分布にする変数変換があるのでしょうか?
質問2.場所データを考慮するよい方法があるのでしょうか?

よろしくお願いします。


838 :132人目の素数さん:2008/04/15(火) 19:46:56
>>836
時系列データの予測って方法が一つってわけじゃないんだけど…。

839 :132人目の素数さん:2008/04/15(火) 22:47:03
>>837
説明変数が正規分布する必要はないでしょう。
回帰分析の条件は「誤差が(独立に)正規分布する」ではないでしょうか。

840 :132人目の素数さん:2008/04/15(火) 23:45:33
回帰分析の場合、説明変数の分布は何でも良いね。
つか実験値などでコントロールできるのなら、
むしろ X=1, 2, 3, 4, … とか均等なのが普通は吉。

あと誤差が正規分布しなくても、偏回帰係数の分布は
中心極限定理でほぼ正規分布になるし、
他の主要な統計量も漸近分布で何とかなるよ。

841 :132人目の素数さん:2008/04/16(水) 08:14:51
>>840
つまり重回帰分析で満たさないといけないのは等分散と線形の2つでいいということですか?
で、変数変換すればよいと。

842 :132人目の素数さん:2008/04/16(水) 14:09:27
すいません素人質問させてください

2つの母集団の分散が同じとみなされるか否かを検定するのに
χ二乗検定とF検定があるのですが、2つの違いがいまいちわかりません

たとえば、ご飯を200g茶碗に盛ったときの2人の作業員のブレを検査したいとき

A氏:-10g -20g 5g 18g 8g
B氏:-14g 20g -10g 3g 5g

という結果が出たら、普通F検定でやりそうですが
A氏の不遍分散値を期待値として、B氏のχ二乗値を求めて
検定することもできると思うのですが・・・

よろしくお願いします



843 :132人目の素数さん:2008/04/16(水) 16:35:11
>>842
違うデータ同士の平均と変数をごちゃまぜにした検定統計量はχ^2分布に従わない。

844 :132人目の素数さん:2008/04/16(水) 16:44:32
>>842
>A氏の不遍分散値を期待値として、

その仮定はムリっしょ。
A氏が指導員か何か模範技の持ち主で、
標本分散の偶然変動を無視できるくらい多くの計測値がある
とかの場合でないと。

普通は、F検定する値の分母の自由度が∞の場合を考えても、
「分母の自由度を無視すんじゃねーよ」と言われるだけ。



845 :132人目の素数さん:2008/04/16(水) 22:01:49
外れ値分析をやりたいのです。
まず検出はできています。
そのあとどのような手順ですすめればよいのでしょうか?
書籍の紹介でもかまいませんのでよろしくお願いします。

846 :132人目の素数さん:2008/04/19(土) 18:56:11
Stataのgllamm使って、マルチレベル分析ができる人。

ランダムスロープが2つ以上ある場合のeqの指定はどうしたらいいの?
xtmixedの時と同じ結果が出ません。
gllammマニュアルには独立変数が2つのrandom coefficient modelの場合が載ってません。
誰か助けてください。><

847 :132人目の素数さん:2008/04/20(日) 23:00:20
地方国立大学の新入生で統計学を学ぼうと思っているのですが、基礎からわかるような参考書はあるのでしょうか。教科書で「新生社 コアテキスト統計学」というのを買ったのですが、もっとわかりやすいものはないかと思って質問しました。

848 :132人目の素数さん:2008/04/21(月) 13:38:45
http://gbrfeah.ath.cx
某社のTがやってる

849 :132人目の素数さん:2008/04/21(月) 15:29:17
>>847
本屋に行けば腐るほど入門書がある。人に聞くより実際に自分の目で見て決めるのが良い。

850 :132人目の素数さん:2008/04/21(月) 18:05:43
イプシロンなんとか論がちんぷんかんぷんです
一回目の講義で(大学)もはやもう全てだめです
誰か助けてくれwwwwww

851 :132人目の素数さん:2008/04/21(月) 20:35:06
>>847
「わかる」というのは、入門レベルの場合、かなり個人差があるよ。
特に統計学の場合は、それが恐ろしく激しいと思う。
Aさん:使い方を手っ取り早く
Bさん:豊富な実例が一番
Cさん:式はコンピュータが計算してくれるので、その意味教えれ
Dさん:確率数学的な原理を、できるだけ論理的に丁寧に
・・・
だからいろんな本が出てるので、>>849が言うのが正しい。

852 :132人目の素数さん:2008/04/21(月) 21:00:29
>847
>>849に賛成です。
おれは学部のころ定番と言われていた岩田が苦手であった。
結局、ホーエルの入門数理統計学をやってみたらすごくよくわかった。
だけど、ホーエルがいいっていう人は少ない。

自分に合う本を探すのも、学問のうちだと思われ。


853 :132人目の素数さん:2008/04/21(月) 21:53:29
>>852
ホーエルの入門数理統計学はいいね。時間がなくて辞書代わりに使ってるだけだけど、日本の本に載ってないことが載ってたりした。

854 :132人目の素数さん:2008/04/21(月) 22:43:31
論文を読んでて群間の比較には一元配置分析、kruskal-wallis検定を用いたと
あるんだけど、図にはどちらを用いたか記載されてないんだよね。

このどちらを用いてる結果なのか判定するポイントは何ですか?

855 :132人目の素数さん:2008/04/22(火) 00:23:41
>>854
本文に統計量が書いてあるだろ。

856 :132人目の素数さん:2008/04/22(火) 08:20:27
>>850
ε-δ論法か?
なぜこのスレなのかという疑問が。
それとも統計の講義で1回目にそんな話をする大学があるのか?

857 :132人目の素数さん:2008/04/22(火) 21:45:32
>>856
誤爆と思われ。

858 :132人目の素数さん:2008/04/22(火) 23:39:45
ベイズの定理について教えてください。
Wikiでは
http://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E3%81%AE%E5%AE%9A%E7%90%86
>ベイズの定理は、ある結果(データ)が得られた時、その結果を反映した下での事後確率を求めるのに使われている。

とありますが、この「得られた時」といのは、「得られたと仮定したとき」ではないでしょうか。


というのも、ベイズの定理から事後分布を求めるにあたって、実際に事象が起こるという事実は必要ではないようにみえるからです。

http://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E6%8E%A8%E5%AE%9A#.E3.81.A9.E3.81.A1.E3.82.89.E3.81.AE.E3.83.9C.E3.82.A6.E3.83.AB.E3.81.AB.E3.82.AF.E3.83.83.E3.82.AD.E3.83.BC.E3.81.8C.E3.81.82.E3.82.8B.E3.81.8B.3F
このクッキーボールの例では、実際にクッキーを取り出そうが取り出すまいが、事後分布が計算できます。

実際にクッキーを取り出したという情報は、さきほど計算した事後分布には影響しません。

この情報が活用できるのは、次にクッキーを取り出したときどうなるか、の事後分布の計算だと思います。


859 :132人目の素数さん:2008/04/23(水) 02:16:37
>>858
なにか根本的に勘違いしてるのか?
どこをどう勘違いした結果の発言なのかがわからんから教えようもないが...

クッキーの例を上のリンクの式に当てはめるならば、
事象Aに相当するのは「プレーンクッキーを取り出す」こと
事象Bに相当するのは「ボウル#1を選ぶ」こと
使った結果は「プレーンクッキーを取り出した」という事実、すなわち事象Aが起きたという結果。

もちろん、実際に事象Aが起きる前であっても、
事象Aが起きたという結果を仮定して、それが判明した時点から見た事象Bが起きる確率を
計算することはできるが、別にwikiの記述も、そういう仮定の上での議論を否定してる
わけじゃない。

で、何がわからないんだ?

860 :132人目の素数さん:2008/04/23(水) 22:14:20
質問です。

同じ製品を毎日同じ数だけ作っているA工場、B工場があります。
この2つの工場で作っている製品の不良品を多数集めてどちらの工場
で作った物かを調べたら、A工場のものがB工場のものの2倍ありました。

この場合、A工場の不良品率がB工場の2倍と結論して良いのでしょうか?



861 :132人目の素数さん:2008/04/24(木) 08:16:19
いけない。

862 :132人目の素数さん:2008/04/24(木) 14:02:44
>860
不良品率の定義がわからんから答えられん。。。


863 :132人目の素数さん:2008/04/24(木) 18:43:42
>>860
不良品率を、出荷される製品中の不良品の割合と定義し、
・両工場で生産される製品は、一旦同一の倉庫に集められてから出荷されるので
 流通過程において差異は生じない
・両工場で発生する不良品の不具合の内容は全部同じであり、発覚しやすさにおいても
 差異は生じない
・不良品を回収する時点では、どの工場で生産されたものかどうかによる区別は
 行わない
ぐらいの仮定をしてやるならば、不良品の回収手段によらずその推論は妥当だろう。

864 :132人目の素数さん:2008/04/24(木) 19:02:13
A工場の不良品数:2個
B工場の不良品数:1個


865 :132人目の素数さん:2008/04/24(木) 19:22:09
>>864
「この2つの工場で作っている製品の不良品を多数集めて」
だから、そういう場合は考えなくていいんじゃね?

866 :132人目の素数さん:2008/04/24(木) 23:45:04
>859
解説ありがとう。
--
もちろん、実際に事象Aが起きる前であっても、
事象Aが起きたという結果を仮定して、それが判明した時点から見た事象Bが起きる確率を
計算することはできるが、別にwikiの記述も、そういう仮定の上での議論を否定してる
わけじゃない。
--
↑でよい、ということが知りたかったんです。
独学だと、自分の考えがあっているのかあっていないのかわからなくて。


867 :132人目の素数さん:2008/04/26(土) 04:04:45
分散分析の記述で、F値が間違っていたら他の人が見て分かるものですか?

868 :132人目の素数さん:2008/04/26(土) 21:42:12
>>867
データがきちんと示されていたらね。

869 :132人目の素数さん:2008/04/26(土) 21:47:45
>>368
たとえばどんなデータでしょうか?



870 :132人目の素数さん:2008/04/26(土) 23:51:53
>>869
例えばって色々考えられるからねえ…。
一般的には因果関係が強そうな複数の要因を考えるんだが。
たとえばこのスレに何度も出たような気がするけど、
英語が話せることについて英検1級取得者と海外留学経験のある人との
因果関係について調べたいときは2×2の表を作って調べたりとかね。

871 :132人目の素数さん:2008/04/27(日) 00:07:12
>>870の例は分散分析としてはよくないな。やるとしたら独立性の検定だな。
分散分析としては、例えば、工場の作業能率を調べたいときに、
複数の工員と複数の機械を表の行、列にとって分析するとかがあるね。
データは製造した製品の個数とかで。

872 :野田健:2008/04/27(日) 08:23:38
国益にならない国民と消費税どちらが多いでしょう
早く薬剤開発部と病院と協力して抹殺しませう。

873 :132人目の素数さん:2008/04/27(日) 20:32:19
>>870,871
どうもありがとうございました

874 :132人目の素数さん:2008/04/28(月) 18:50:08
この問題の解き方を教えていただけないでしょうか?
詩文なのでさっぱりです。恥ずかしながら釣りじゃなく真剣にわからないです。
すべての観測値が同じ値だけ増加しても標本分散には差が生じないことを証明しなさい。
ただし観測値を{x1.x2.・・・・xn}とし{x1.x2.・・・・xn}の標本平均値をx-とする。
ヒント:すべての観測値がaだけ増加するというのはxi+aと置くことである。
ヒント:xi+aを新たな観測値とし、Σ記号を使って標本平均値を表現してみよう。
これらを元にして標本分散の式にあてはめてみよう。

875 :132人目の素数さん:2008/04/28(月) 19:24:19
事象A,B,C,・・・・が起こった時刻の各集合

{TA1,TA1,・・・・,TAn},{TB1,TB1,・・・・,TBn},{TC1,TC1,・・・・,TCn},・・・・

があって、様々な二つの事象の相関度を比較したい場合、どうするのがオーソドックスでしょうか?

よろしくお願いいたします。

876 :875 やり直し:2008/04/28(月) 19:37:24
事象A,B,C,・・・・が起こった時刻の各集合

{TA1,TA1,・・・・,TAn},{TB1,TB1,・・・・,TBn},{TC1,TC1,・・・・,TCn},・・・・

があって、この中から二つの事象を取り出して相関度を全ての
組み合わせで比較したい場合、どうするのがオーソドックスでしょうか?

よろしくお願いいたします。

877 :132人目の素数さん:2008/04/28(月) 20:08:28
>>874
分散式の読み方がわかればできるっしょ。
数値例としては、観測数2の場合で、{1, 3} と
それを +10 した {11, 13} を計算してみる。

878 :132人目の素数さん:2008/04/28(月) 20:20:56
>>876
なぜ TA1, TB1, TC1 が二回づつあるのか?
なぜ A, B, C の観測数が全部同じなのか?
など、データの取られ方が全然わからん。

879 :875:2008/04/28(月) 20:32:43
>>878
すみません。まちがってました。

事象A,B,C,・・・・が起こった時刻の各集合

{TA1,TA2,・・・・,TAl},{TB1,TB2,・・・・,TBm},{TC1,TC2,・・・・,TCn},・・・・

があって、この中から二つの事象を取り出して相関度を全ての
組み合わせで比較したい場合、どうするのがオーソドックスでしょうか?

よろしくお願いいたします。

880 :132人目の素数さん:2008/04/28(月) 23:26:37
>>879
一般的な統計的手法があるような問題には見えないけど。
その分野の論文で誰かがやってない場合には
自分で各事象の時間的発生メカニズムをモデル化して解く感じ

881 :132人目の素数さん:2008/04/28(月) 23:38:27
>>874
平均もaだけ増える。普通に定義式に当てはめるだけだと思うよ。

882 :132人目の素数さん:2008/04/29(火) 00:49:14
>>879
 質問の意味が何通りにも解釈できるから回答ができないが。。。

 例えば、とりあえずA,B,Cの先頭を時刻0とする。
 それぞれの事象が発生した時刻を、0からの経過時間とする。
 分でも時間でも適切に選ぶ。
 0時刻からの経過時刻で、相関マトリックスを作ればよろしい。

 ただ、こういう質問が書き込まれる度に、
 マハラノビスの言葉が思い出されるのはおれだけ?
 データの背後にあるものを常に考えるのが統計学者なんだ。
 875みたいな質問は、宿題を手伝っているみたいで、
 本来は回答したくない。。。

 つーか、何やりたいのか意味不明だし。。。


883 :879:2008/04/29(火) 02:19:23
>>882
ありがとうございます。

>0時刻からの経過時刻で、相関マトリックスを作ればよろしい。

どういう意味でしょうか?

そうですね。各事象の時刻の個数が異なるので、「相関」というのおかしかったかもしれません。
例えば「事象Aが起こった前後に事象Bが起きやすい傾向にないか」とかそういったことです。

884 :132人目の素数さん:2008/04/29(火) 13:13:16
>>883
データがそれなりに多いなら適当な時間区切りで事象の数を数えて
それで相関を取ってみればいいのでは?
たとえば、Aの家に電話がかかってくることとBの家に電話がかかってくることに
関連があるかを知りたいなら1時間とか1日とかを単位としてかかってきた電話の
本数のデータにまとめるというわけです。

885 :132人目の素数さん:2008/04/30(水) 03:20:37
>例えば「事象Aが起こった前後に事象Bが起きやすい傾向にないか」とかそういったことです。

例えば、と問えば、だったらこうだ、とかそういう答えかたしかできない。
実はこういう場合とか、などと延々と続くんだろうな。
回答する気なくなる。

やはり何のデータなのか書いてくれないと。
データと目的によって分析手法が変わるんだよ。
そんなこともわからんようでは、高校生か?


886 :132人目の素数さん:2008/04/30(水) 14:01:50
>>885
いやいや大学生でも全然分かってない。
下手したら社会人でも…。

887 :883:2008/05/01(木) 23:04:06
>>884
ありがとうございます。
その例みたいなことがやりたいです。

TAi - TBj (i=1,2,・・・,l , j=1,2,・・・,m)

の l × m 個の時間差値を解析して、何かできないかと思うのですが・・・・。
これができれば、かなりつぶしが効く解析になるのではないかとかんがえています。
C,D,・・・の家のデータもつかって、

TAi - TCk (i=1,2,・・・,l , k=1,2,・・・,n)
TAi - TDh (i=1,2,・・・,l , h=1,2,・・・,p)




との分布状況を比較する必要があるかもしれません。

888 :132人目の素数さん:2008/05/02(金) 00:43:57
大学の授業で統計学を取っているのですが
先生がものすごいスピードで計算して黒板にくちゃくちゃな文字で書いて
すぐに消して次の問題へ・・・
こんなことの繰り返しなので、まったく頭で考える時間もないし
黒板の文字を書こうとしても汚すぎて見えません
授業では教科書はなく、プリントを配られるシステムです
プリントには先生が解く問題しか載っていなくて
公式は黒板に書かれるのですが、それも汚い文字とすぐ消すので追いつきません
私は数学TAは習いましたが、数学2B3Cはやっていません
(ちなみに今年のセンターが57点なので数学が出来るほうじゃないです)
このままだと確実に単位を落とすと思うので、自分で学習しようと思います
ちなみに今やっているところは「度数分布と分散と標本」です
一人で学習できるような入門書を教えてください
お願いします

889 :132人目の素数さん:2008/05/02(金) 04:11:05
Albert Shiryaevって有名な人ですか?


890 :132人目の素数さん:2008/05/02(金) 04:31:37
さいころを10000回ふって6が出る確率を求めるとき、1800回でたとすると、
確率は0.18になりますよね?このとき、分散って計算できますか?


891 :1stVirtue ◆.NHnubyYck :2008/05/02(金) 05:02:00
Reply:>>890 確率変数を述べるのが先だ。

892 :132人目の素数さん:2008/05/02(金) 05:08:30
>>890
そこで行われたのは、
「あるサイコロを10000回振って、6が出た回数をカウントする」という試行なので、
行われた試行の回数は1回だけ。なので、分散も何もあったもんじゃない。

計算できるとすれば、
そのサイコロを振って6が出る確率が0.18であると仮定した場合における、
「そのサイコロを10000回振って、6が出た回数をカウントする」という試行を繰り返し行う場合の
「6が出た回数」の分散の理論値。

もっとも、そういう議論をするのであれば、1回の試行の結果から得られた0.18という値を持ち出すのは
おかしな話。やるなら、例えば、そのサイコロの6の出る確率が1/6であるという仮説を立てて、
その仮説に従い「そのサイコロを10000回振って、6が出た回数をカウントする」という試行を
繰り返し行う場合の分布を計算して、実際の(1回の)試行結果(今回の場合は1800回という値)
と比較して、それがいかに起こり難いことかを判定して、仮説の妥当性を検討する、とか。

893 :132人目の素数さん:2008/05/02(金) 05:11:35
>>891
推計学を勉強して出直してこい。

894 :1stVirtue ◆.NHnubyYck :2008/05/02(金) 05:15:44
Reply:>>893 お前は何を見ていた。

895 :132人目の素数さん:2008/05/02(金) 06:31:24
>>894
??? 見たのは>>890へのレスとしての>>891の書き込みだけだが。
スレタイも読まずに条件反射的に適当なレスをつけて議論をミスリードするんじゃねー
という意味で申し上げたまでだ。
コテハン氏の経歴なんか知らんし、興味もない。(>>894がそういう意味で言っているならばだが。)

896 :1stVirtue ◆.NHnubyYck :2008/05/02(金) 06:50:43
Reply:>>895 お前は分散を何だと思っている。

897 :132人目の素数さん:2008/05/02(金) 10:12:51
>>888
ISBN: 4944178212 はどう?


898 :132人目の素数さん:2008/05/02(金) 19:25:35
わたくしは株式投資を始めたのですが、
どうしても統計の知識が必要なのですが、
どのような本から読み始めたらよいのでしょうか?



899 :132人目の素数さん:2008/05/02(金) 19:41:01
>>890
>さいころを10000回ふって6が出る確率を求めるとき、

サイコロを何回振っても、「確率」は求められないよ。

>1800回でたとすると、 確率は0.18になりますよね?

それは確率では無く、その推定値として使われる「相対度数」。

>このとき、分散って計算できますか?

推定値である相対度数の分散なら計算できるし、
統計の入門書には式が出てる。母比率(母割合)の推定のあたり。
ちなみに、母比率 = 1回の試行で 6 の出る確率、ね。

以上

900 :132人目の素数さん:2008/05/02(金) 23:28:37
>>898
それだけでは何とも言いようがない。具体的にどういった統計手法が
知りたいのかとかね。
趣味で株を始めて儲けたいと思っているのか、あるいは仕事上
どうしても分析しなければならないのか、後者なら実務に就いている以上、
既に人に聞くようなレベルではないだろう。高度な計量経済や金融工学の
知識が必要になると思われる。
前者なら統計手法や経済学の知識は多分要らない。株式投資で儲けている
投資家は殆どがそのような学問的素養は全くない素人。
それよりは会社の公表している財務諸表が読める方がよほど効果的だと思われる。

901 :132人目の素数さん:2008/05/07(水) 13:05:01
東大の蝿薔薇って有名な人ですか?

902 :132人目の素数さん:2008/05/11(日) 03:09:07
この人の言ってる意味が分からないのですが・・・
どなたか解説して頂けますか?

47 名前: 確率検証 投稿日: 2008/05/11(日) 00:47:36 ID:Xj/7nkus0
前スレで確率検証していたものです。
確率検証第一弾は下記になっておりましたが、
前スレで色々なご指摘があったので、そのうち式を修正して
対応していきたいと思います。今日はたぶん寝ます。

●4年間中、2年間同じチームが出停ランク1位 5.6%
1/18 = 0.055555556
(⇒2年間1位のデータと異なるデータが存在、チェックして修正予定)

●そのチームが偶然、マスコミで不正疑惑をもたれているレベルの
 偏向判定を受けているJリーグ唯一のチーム(2007年)である確率 0.18%
1/18 × 1/31 = 0.001792115
(⇒試行回数を考慮した修正予定)

●そのチームの関係者に偶然、協会権力者3人のうち一人がいる確率 0.53%
1/18 × 3/31 = 0.005376344

903 :132人目の素数さん:2008/05/11(日) 10:44:45
>>902
話が見えないのでどこのスレかを示すなどした方がよいよ。
Jリーグでの不正疑惑問題のようだね。
最初のものにだけコメントしておくとチーム間にラフプレーに対する意識に
差がないとしたら4年間中どこかの2年間であるチームが1位になる確率は
0.3004もあるんだけど。
(2番目以降は31という数字が何を表すのか不明。)

904 :132人目の素数さん:2008/05/11(日) 13:31:18
今Excelで統計解析の本を読み始め、
実例がないかと2ch検索したあたしがきましたよ

http://ex24.2ch.net/test/read.cgi/soccer/1210420287/201-300
これじゃないの?



905 :132人目の素数さん:2008/05/11(日) 22:51:12
>>904
そのスレですね、色々書いてありますが
正直何を言ってるのかさっぱり分からないので、
どなたか、解説して欲しいとおもったのですが
>>903のお答えを見ると前提の計算が間違っているのですか?
教えて君で申し訳ないです

906 :132人目の素数さん:2008/05/11(日) 23:08:50
仮定が明らかにならないことには話にならない
計算が間違うとかいう以前の問題

勝手な感想だが論旨と数字の出所さえ理解できれば
中学生レベルの内容だろう

907 :132人目の素数さん:2008/05/12(月) 02:20:10
日本評論社の「確率論入門」のp75の問題

● Xはパラメータλの指数分布に従う確率変数とする。次の場合に密度関数を求めよ。

(1)A=2X+5
(2)B=e^X
(3)C=(1+X)^(-1)
(4)D=(1+X)^(-2)

● Xがパラメータ0と1の正規分布に従うときY=X^2は自由度1のカイ二乗分布に従うことを示せ。

この2問が分かりません。独学で確率論をやっているのですが解けません。どなたか教えてください。

908 :132人目の素数さん:2008/05/12(月) 02:22:13
>>907
マルチ

909 :907:2008/05/12(月) 02:26:01
すみません。マルチしてしまいました。質問スレの方は撤回しますので、ここに居られる方で分かる方お願いいたします。

910 :132人目の素数さん:2008/05/12(月) 04:17:37
>>909
一度マルチを指摘されたらどちらのスレでも答えてもらえなくなるんだよ。
いい機会だから知っておくといいよ。 

911 :132人目の素数さん:2008/05/12(月) 04:41:02
問題1
時間       ケース数
0〜0.5未満     3
0.5〜1.5      23
1.5〜2.5      52
2.5〜3.5      60
3.5〜4.5      32
4.5〜7.5      23
7.5〜12.5      8

テレビを見ている時間の調査ですが

平均値は
(0.25x3+1x23+2x52+3x60+4x32+6x23+10x8)/201
中央値は
3時間ですか?

問題2
xの分散が144、標準偏差が12で ケース値をu=1.1x+5の式で変換するとき
のuの分散174.24と標準偏差13.2であってますか?
問題3
クロス表でユールの連関係数
     利用してる         してない
20〜39歳   54            66
40〜59歳   63            117

x2値はいくつですか?



むずかしすぎてパニックです。どなたか教えてください<m(__)m>できたら計算方法も教えてください


912 :132人目の素数さん:2008/05/12(月) 06:42:42
荒らすわ

913 : :2008/05/12(月) 07:55:35
荒らすな

914 :132人目の素数さん:2008/05/12(月) 13:36:56
>>909
2問目の証明は確率統計や数理統計の本には必ず載ってるはずだよ。定義式に忠実に、確率密度の全区間積分=全確率=1を用いる。ちなみに数学的帰納法のn=1のときだね。

915 :132人目の素数さん:2008/05/12(月) 14:44:45
荒らすわ

燃えろーライオンズーかっ飛ばせーライオンズー、燃えろーライオンズ、ライオンズー

わーだーグランドにかがやくなんとかのほしーをーいけーどこまでもーわだーかずーひーろー

916 :132人目の素数さん:2008/05/12(月) 21:09:00
あーちをーかーけろー
かーがーやーけひかりあーびて

それゆけたつのり!!!!!!!!11

917 : :2008/05/12(月) 22:21:24
どうしてもいろんな人に質問を見てほしければ
メインのスレに質問を書き込んで, ほかのスレに
当該レスのURLを書き込んで誘導すればおkだね

918 :132人目の素数さん:2008/05/12(月) 23:56:24
いい流れw
もの凄い勢いで誰かが質問に答えるスレ@理系板@36
http://science6.2ch.net/test/read.cgi/rikei/1201947891/
>>971でアホな質問してます
もしおヒマな方いれば

919 :132人目の素数さん:2008/05/13(火) 00:43:02
次の特性値からわかることを述べよ。
         1組       2組
 平均      2.079     2.555
 中央値     2.1        2.6
 分散      0.034      0.047

920 :132人目の素数さん:2008/05/13(火) 02:02:24
>911
 何もわからない。
 データが何か不明なので。

 1組とか2組とかのデータが同じ種類のデータかも不明。

 宿題は自分でやろうねー!


921 :132人目の素数さん:2008/05/13(火) 12:28:13
>>920アンカ間違えたら恥ずかしいよー!

922 :132人目の素数さん:2008/05/13(火) 20:04:11
最尤法はベイジアンの手法に入るのでしょうか。
最尤推定量は一致性を持つが(ものの本によると)、
ベイズにはこの概念が無いので頻度理論の手法ともいえますが、
事後分布のモードは最高尤度を表しているので、
ベイズの手法とも言えそうです。

923 :ゆかちん:2008/05/13(火) 20:45:14
4冊ほど統計確率の本読んでみたけど(うち2つは漫画)、さて
現実に何に使えるかなーと思っていたら使えそうな命題がでてきた。
絵の具48色の減り具合を数値化してあるんだけど
これを減っている量が多い順に並び変える・・・
すると上位いくつとかはわかるけど
統計をつかってもっとうまく分類する方法ないかしら?

924 :132人目の素数さん:2008/05/13(火) 23:39:29
各色をRGB色空間とかYCbCr色空間に置いて、クラスター分析してみる

925 :132人目の素数さん:2008/05/14(水) 00:33:21
(゚Д゚)≡゚д゚)、カァー ペッ!!


926 :132人目の素数さん:2008/05/14(水) 21:00:15
クラスター分析ってなにか

927 :132人目の素数さん:2008/05/15(木) 05:06:47
時系列予測において、生データを季節変動データに変換した場合、
その分布は正規分布とみなすのは一般的でしょうか?
正規分布ということが成り立つならば、
σが計算できるので、予測の範囲±3σを計算したいのですが。

928 :927:2008/05/15(木) 05:07:55
>>927について
>時系列予測において、生データを季節変動データに変換した場合、
時系列予測において、生データを季節変動を除去したデータに変換した場合、

929 :132人目の素数さん:2008/05/15(木) 20:50:20
>928
 詳しくはわからんけど、ブラックショールズモデルってのが、
 そういうのじゃないかな?

 それを金融工学では確率偏微分方程式と呼んでいるらしい。

 また、価格変動が正規分布するとして、確率的に将来の価格を推定して、
 オプション価格を計算するのがブラックショールズモデルであると
 思うのだが?

 こういう本なんか読むといいんじゃないかな?
 
http://www.tradersshop.com/bin/showprod?c=9784916106568

ググればいろいろ出てくるみたい。


930 :132人目の素数さん:2008/05/15(木) 20:52:42
対数正規だしちょっと違うけどな

931 :132人目の素数さん:2008/05/16(金) 06:12:25
その時系列データの値が必ず非負(たとえば株価とか)ならば、正規分布はおかしい。
この場合対数階差が正規分布するとしてみる事がある。これがブラックショールズの仮定。

932 :132人目の素数さん:2008/05/16(金) 21:38:32
>>931
はい、最小値が非負で、最大値も決まっています。

この場合でもブラックショールズモデルにあてはめることは可能でしょうか?

933 :132人目の素数さん:2008/05/16(金) 21:47:41
>>932
931じゃないけどそもそも何がしたいの?
>>927をもっと具体的に書かないと分からんと思うぞ

934 :933:2008/05/16(金) 21:51:32
あ〜ごめん、±3σを知りたいのな
それじゃーBSを使う意味はないよ
BSは分布が既知のうえでどの辺に位置するかを計算する式だから

935 :132人目の素数さん:2008/05/16(金) 23:23:51
最大値が決まってるって事は、データの値は絶対その上限を越えないということ?

936 :132人目の素数さん:2008/05/17(土) 02:17:22
>>934
けど分布がわかればσは計算できるのでは?

937 :132人目の素数さん:2008/05/17(土) 03:31:40
>931
>933
 うむー、なんだか初心者が教科書をちょっと読んで
 知ったかで書いているな。
 とんでもない間違い書いているぞ?
 実際に分析したことないだろ?


938 :933:2008/05/17(土) 08:13:42
>>937
お前も問題理解できてないだろ

939 :132人目の素数さん:2008/05/17(土) 09:04:57
>>937
正してあげれば?

940 :132人目の素数さん:2008/05/17(土) 10:47:15
エクセルVBAを用いた多変量解析プログラム自作指導書らしいが、有用なのかな?
エクセルで学ぶ多変量解析の作り方 井上勝雄・広川美津雄 筑波出版会 2000年9月 \2,310
http://pub.maruzen.co.jp/shop/4924753386.html 

941 :132人目の素数さん:2008/05/17(土) 16:11:26
片側に制約条件(最大値か最小値のどちらか)がある分布は対数正規分布になるというのは正しいでok?

942 :132人目の素数さん:2008/05/17(土) 17:47:05
ガンマ分布もあるぜよ

943 :132人目の素数さん:2008/05/17(土) 19:09:19
>>937
>>931だが、おれはブラックショールズについて言っただけで別に大きな勘違いしてないと思うがね。
株価は非負だから、対数正規分布すると仮定したんだよ?サミュエルソンかマートンかブラックかショールズか忘れたけど。
つまり収益率が正規分布。つまり近似的に対数階差が正規分布。
連続時間に該当するのは幾何ブラウン運動だね。


944 :132人目の素数さん:2008/05/17(土) 19:24:18
>>937
追記
そして、それを踏まえて言えば、対数階差が正規分布すると仮定すると“してみる”こともあるというのは正しいだろう?
勿論例外もある。
例えばショートレートモデルに使われるバシチェックモデル。これなんかは、確率正でマイナスになる。
金利がマイナスなんておかしいわけ。だから他のモデルが考えられた。
その中で金利が幾何ブラウン運動するとしたモデルもあった。幾何ブラウンはほとんど確実に非負だから。しかし、それでは、またおかしいことが起こる。だからこれも使えない。
有名なCIRモデルでは金利は非負で、非心カイ2乗分布する。
対数正規以外にもいろいろあるのは知っているよ。

945 :132人目の素数さん:2008/05/17(土) 20:37:31
CEVもでるだな

946 :132人目の素数さん:2008/05/17(土) 20:39:59
おっとうっかり書き込んでしまった
要は927は単純に計算すればいいだけなのでは?
σは正規か対数正規かは不明だが

927はもう少し具体的に記述する必要があるな

947 :132人目の素数さん:2008/05/17(土) 21:14:56
よく見ると上下に有界な確率過程らしいんだ。
対数正規なら下は0で押さえれるけど、上は無理だよね?


948 :132人目の素数さん:2008/05/17(土) 21:36:47
対数正規は発散する
ってかもう少し具体的に情報出さんと答えようがないぞ

949 :132人目の素数さん:2008/05/17(土) 23:29:10
誰か簡単にt検定とカイ二乗検定について教えて。

950 :132人目の素数さん:2008/05/18(日) 02:02:41
>>944
 ファイナンスの用語はわからんが、
 わかる範囲では間違いが多いな。
 統計学をやっているわけではないでしょ?
 また数学科でもない。

 幾何ブラウンの定義は知ってる?
 ファイナンスでは非負で使うのかと思ったけど。。。


951 :132人目の素数さん:2008/05/18(日) 05:00:44
>>950
どこが間違いか教えてくれ。勘違いを正すために。
お願いします。

952 :132人目の素数さん:2008/05/18(日) 05:07:06
ファイナンスでつかう幾何ブラウン運動は、例えば株価なら
dS(t)=S(t){μ(t)dt+σ(t)dW(t)}
とかだ。


953 :132人目の素数さん:2008/05/18(日) 05:14:11
初期値の事か!?


954 :132人目の素数さん:2008/05/18(日) 07:08:57
>>952
だからなんなの?

955 :132人目の素数さん:2008/05/18(日) 14:08:47
>>947
結局上下共に限界があるなら
正規分布でいいのではないでしょうか?

956 :132人目の素数さん:2008/05/18(日) 14:15:44
そもそも3σが求まればいいならばモデルなんて関係ないのでは?

957 :132人目の素数さん:2008/05/18(日) 14:18:46
>>956
分布によってσの計算が異なるのでは?

958 :132人目の素数さん:2008/05/18(日) 14:25:13
>>957
失礼、分布形は関係あるけど上の方でモデル云々とあったからそのこと。

959 :132人目の素数さん:2008/05/18(日) 17:21:24
>>949
t分布になる問題はt検定、カイ二乗分布になる問題はカイ二乗検定で解く

960 :132人目の素数さん:2008/05/18(日) 21:30:13
http://www.badongo.com/file/7114302
http://www.badongo.com/file/7114722

961 :132人目の素数さん:2008/05/19(月) 12:12:57
統計の初心者ですが、尺度のところで名義、比例、順序、間隔があり、それぞれの説明+例を3つ挙げろってのがあり、よく解らなくて出来ません。誰か教えて下さい。

962 :132人目の素数さん:2008/05/19(月) 17:39:54
>>961
ググればいくらでも出てきますよ。
そんな簡単で、でもちょっと面倒って質問は答える気がしない。
誰も答えないと思うよ。


963 :132人目の素数さん:2008/05/19(月) 18:57:46
>>962 なんと的確かつ簡明な回答!

964 :922:2008/05/19(月) 19:35:22
最尤法はベイジアンの手法なのでしょうか?

965 :132人目の素数さん:2008/05/19(月) 21:43:55
んにゃ

966 :132人目の素数さん:2008/05/20(火) 02:34:09
>>964=>>922
ゴリゴリの頻度理論だよ。それを進めると情報量の方に行く。
ベイジアンと似た性質が出て来ても、それは見かけだけ

967 :132人目の素数さん:2008/05/20(火) 14:40:37
統計のための行列代数 上・下 D.A.ハーヴィル 伊理 正夫訳

これ翻訳が全くだめだ。意味不明。
前書きに、著者の意向を汲んで、そのまま訳したとあるが、
学生に翻訳させたので、直訳になってしまったってこと。

元は、良い本なのになあ。残念。
英語版を買うしかないか。。。

つーか、伊理先生、先日お会いしたけど、高齢のため歩くのも
ままならない様子。
あんな状態で上下巻なんて翻訳できるわけないっての!

翻訳した東大の学生ども!
名著を馬鹿翻訳で汚した罪は重いぞ!
氏ね!


968 :132人目の素数さん:2008/05/20(火) 21:34:47
どこをググれば出てきますか?

969 :132人目の素数さん:2008/05/20(火) 23:06:06
グーグルをググればゲルググ

970 :132人目の素数さん:2008/05/21(水) 00:13:28
東大工学部の数学コンプレックスは
根深いのう

971 :132人目の素数さん:2008/05/21(水) 00:27:12
伊理
甘利
数学できない人達。
無能ぶりは残念!
人のせいにするなよ。

972 :132人目の素数さん:2008/05/21(水) 00:47:11
二項分布が使われている場面
どういう場面で二項分布は使われていますか?
もしくはどういう場面で二項分布はあてはまるでしょうか?
具体的な場面を探しております。
できたら、さいころやコインの話以外でありましたら、
お願いいたします。

973 :132人目の素数さん:2008/05/21(水) 00:53:56
それくらいは自分で考えろよ
ちょっと考えればいいだけだろ

974 :922:2008/05/21(水) 06:42:12
>>966

ttp://ja.wikipedia.org/wiki/計量経済学
によると、最尤法はベイジアンの手法と考えるのが妥当とありますが、
どうなのでしょうか。最尤法はベイジアンの手法ではないということを示す
一例があれば納得できるのですが。

975 :132人目の素数さん:2008/05/21(水) 11:59:08
>>974
 966ではないけど、むちゃくちゃおおざっぱな説明をしてしまうと、

ベイジアンというのはだな、ベイズの公式を使う人達のこと。
 で、ベイズの公式とは、ぶっちゃけパラメトリックということなんだけど、
 事前情報を使うってこととも言える。
 つまりデータから母数を推定するってこと。母数を変数と考える。

 で、最尤法というのは、一致性と、えーとなんだっけな、十分性と
 それから、あれだよ、あれ、忘れたけど、ぶっちゃけ一致統計量としての計算
 ができるってことだから、母数の推定によく用いられる。
 母数を変数と考えるベイジアンは、母数の推定のために、よく最尤法を
 用いるってこと。

 わかったかな?


976 :132人目の素数さん:2008/05/21(水) 12:52:43
テス

977 :132人目の素数さん:2008/05/21(水) 15:51:58
>>975
ベジタブルってのは野菜だけど
ベジタリアンってのは野菜中心に食べる人

ってのと一緒でいいですか

978 :132人目の素数さん:2008/05/21(水) 15:59:31
>>974
ベイジアンにハマってる人だと、そこに書いてあるようなモワっとした
匂いを嗅ぐと「あ、ベイジアン、めーっけ!」と思うのかもねw

[Q] 単回帰モデル: Yi = α + βXi + εi (i=1,…,n) で、
  データに一番フィットする切片と勾配の係数を教えれ。
[A] えと、最小自乗法で解くと
  Σ εi^ 2 = Σ (Yi - α - βXi) ^2 を最小にする α と β は …

↑はノンパラで品質保証はBLUE。全然ベイジアンぢゃないよねえ。
それとも Xi, Yi を固定して、α と β の値をいろいろと考えたら、
もう「気分は既にベイジアン」なのか?w

ではパラメトリックに2変量正規分布下で考えてみよう。↑は最尤解で、
その品質保証には、>>975が言う一致性、十分性、トドメとして
有効性(分散のクラメルラオ下限=フィッシャー情報量の逆数)
が追加される。それだけのこと

979 :922:2008/05/21(水) 16:49:42
ベイズの定理を使う人がベイジアンというのはわかりましたが(言葉の定義なので)、
事後分布の分子の項にも尤度項が現れますよね。
この項は、(新たに)得られたデータが持つ情報を事後分布に反映している部分だと、
解釈しています。つまり、得られたデータがパラメータの推測に用いる
全ての情報をもつという考え方に基くなら、ベイズも最尤法も違いは無くないですか?
(解釈まちがってますかね・・・汗?)

980 :1stVirtue ◆.NHnubyYck :2008/05/21(水) 17:05:05
思考盗聴で個人の生活に介入する奴は早く地球から去ったほうがよい。

981 :132人目の素数さん:2008/05/21(水) 18:23:27
>>979
母数ベクトルを θ、確率変数ベクトルを x とする。

伝統派: 確率 = f( x | θ) → 推定量 θ^ とか信頼区間とか検定用統計量とか

f( x | θ) を、θ と x との数量法則を規定する関係式として利用し、
形式上 f( θ | x ) のように扱うのが尤度。だから、そう扱ってる間は「尤度」であって、
そもそも「θ に関する確率分布」は、なーーーーんにも考えていない。

ベイジアン: 確率 = f( x | θ)g(θ) → 事後分布 h(θ | x)

ベイジアンが伝統派を、g(θ) = 定数 を掛けた特殊ケースと扱うのは勝手だけど、
「何も要らない」のと g(θ) = 定数 という「事前分布が必要」とでは、
「エーーーーッ、使い勝手が随分違うじゃん!!!」と感じる人が多いので、
ベイジアンはメジャーになれないのよ

982 :132人目の素数さん:2008/05/22(木) 14:52:18
二百十一日六時間。


983 :132人目の素数さん:2008/05/23(金) 00:16:11
ume

984 :132人目の素数さん:2008/05/23(金) 07:12:27


985 :132人目の素数さん:2008/05/23(金) 07:12:57


986 :132人目の素数さん:2008/05/23(金) 07:13:22


987 :132人目の素数さん:2008/05/23(金) 07:13:44


988 :132人目の素数さん:2008/05/23(金) 07:14:10


989 :132人目の素数さん:2008/05/23(金) 07:14:35


990 :132人目の素数さん:2008/05/23(金) 07:15:29


991 :132人目の素数さん:2008/05/23(金) 07:15:50


992 :132人目の素数さん:2008/05/23(金) 07:16:16


993 :132人目の素数さん:2008/05/23(金) 07:16:38


994 :132人目の素数さん:2008/05/23(金) 07:16:59


995 :132人目の素数さん:2008/05/23(金) 07:17:20


996 :132人目の素数さん:2008/05/23(金) 08:52:19
二百十二日。


997 :132人目の素数さん:2008/05/23(金) 08:53:19
二百十二日一分。


998 :132人目の素数さん:2008/05/23(金) 08:54:19
二百十二日二分。


999 :132人目の素数さん:2008/05/23(金) 08:55:19
二百十二日三分。


1000 :132人目の素数さん:2008/05/23(金) 08:56:19
二百十二日四分。


1001 :1001:Over 1000 Thread
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。

307 KB
★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50


read.cgi ver 05.05 2022/08/31 Walang Kapalit ★
FOX ★