放射線は測っているとたまに大きく針が振れることがあるけど、その時のデータはなかったことにしてよいのかなあ?
外れ値が観測された場合どうするかじゃな。放射線は確率的な現象を計測しているから、条件によっては結構値がゆらぐじゃろ。
きちんとしたデータで考えた方がよいと思うけど。
データをまとめる際に、外れ値の処理に悩むこともあるじゃろ。
社会調査では、入力ミスが外れ値の原因になるから、データクリーニングの必要性が強調されておる。
明らかに外れた値は解析対象から除いてもよいのじゃないかなあ。
都合の悪いデータを除くような恣意的なデータ選択は正しくない。
意図しなくても、測定者が「予測」に合致するデータを指向する傾向があるから、データの扱いは公平にするよう注意しなくてはならん。
その辺、疫学者はとっても厳しい。
値が外れることの原因ってどんなのがあるの?
外れ値(outlier)の原因は、
(1)測定や実験操作上の誤り
(2)データ記録の際の誤記
(3)本来対象としている母集団とは別の母集団からのデータの混入
(4)対象としている母集団にそのような値が含まれるいる。
が考えられるじゃろ。
核医学診療を受けた患者がそばを通った場合に値が大きくなるのは、(4)ということか。
管理区域境界の線量の評価では、患者内の線源からの放射線量を除外してよいとは規定されておらんから、それでよいんじゃないかな。
まとめてください。
外れ値が観測される原因はいろいろあるから、少なくとも明らかな操作上の誤りであることが判明した場合以外は、安易に外れ値を除外するべきではない。理由なく測定値を除外することは情報量を低下させるので推計値の不確かさを大きくする。もしも、その値が理屈に合わないのであれば、その原因を追及すべきではないかな。
(参考文献)
緒方裕光、柳内晴夫(1999).統計学—その基礎と応用—.現代数学社.