佐藤特許事務所  東京都世田谷区


トップ

事務所の概要

特許出願をお考えの方へ 実用新案登録をお考えの方へ 料金表

お問い合せ 話題コーナー

代表者プロフィール

知財関連リンク集



最終更新日 2014/02/18


1 統計学の話題

 最近とみに、統計学が脚光を浴びている。その方面の本が、「現代の必須知識!」とか
「ビジネスマンの強力な武器!」なる惹句で多数出版されている。或は、“統計学部”
をつくろうとしている大学もあるらしい。“昔一応統計学を専攻した者”としては、
こういう風潮に疑問を通り越していかがわしさを感じてしまうのだ。

@ 思い出話

 昔、ある公害裁判で、高名な統計学の教授が会社側の証人になったことがあった。
教授、証言して
「工場排水と疾病との間に、因果関係があるとは云えない。」
原告が怒って、
「それならこの水、送ってやるから毎日飲め!」
この教授、いたく消耗したそうだ。(当然のことながら全く飲む気はしないだろうから。)
当時、このことが、確率・統計の先生方の集まりで話題になった。
「学問に対する重大な挑戦だ!」などと云って怒った先生は一人もいなかった。
「そんな深刻な裁判にしゃしゃり出ていって、分かりもしないことを喋る方が悪い!」と
いうのが、全員の見解だったのである。
この教授が、データ改竄をして会社側に迎合したわけではないだろう。
統計学というのが、元々その程度のものなのである。それなのにのこのこ出かけていった教授
の厚かましさに皆腹を立てたのである。多分この教授は、(“権威”にはままあることだが)
世間を舐めていたのだと思う。
とは云っても勿論、統計学が“インチキ学問”という訳ではない。その「使い方」が
問題なのである。「素人の一知半解の使い方」或いは「玄人の最初から結果を決めておいての
使い方」は全てインチキである(と私は考える)。

A 色即是空と桐一葉

 般若心経に「色即是空」という言葉がある。「森羅万象には実体がない」という意味なのだそうだ。
こういう見方も尤もではあるが、やはりもの足りない気持ちが湧いてくる。そして、
実体を「説明」しようと試みる。
「桐一葉落ちて天下の秋を知る」という句がある。季節の変化(転じて天下の趨勢)を
葉っぱ一枚からよみとるというのだが、ダボラの雰囲気はなく、実体に触れているようで
素晴らしい。確かにこういう「芸術的説明」の仕方もあるのだが、適用される現象は極く
限られたものになるだろう。もっといろいろな現象の実体に触れてみようと人は努力する。
その為に、いろいろ「説明」を試みるのだが、単なる「説明」では、経験談、自慢話、意味
不明の饒舌になって、多くの人の共感は得にくい。多くの人の共感・賛同を得るためには
多大の労力と才能を必要とする。あげく、“声がでかい奴が勝ち”、“専門用語・レトリック
を駆使する奴が勝ち”、“PRが巧い奴が勝ち”になってしまって、「実体への接近」には程
遠い。


B 統計学の出番

 「有効な説明」というのは何といっても、「計量化」、「数値化」ではなかろうか。
これを使えば共通の理解が得られて、「その説明の正しさ」を多くの人に納得
させられると考えるわけだ。そして、「計量化」、「数値化」の為の武器の一つ
として、統計学があるのである。他にも、微分方程式、数論等いろいろあるの
だが、統計学こそが、いろいろな分野に手軽に使えるように思えて、従って
「森羅万象向きのツール」と看做されているのである。

C 統計学の使い方

 勿論、統計学は森羅万象向きのツールではない。
  (勉強すればする程、否定的な思いが強くなるのは不思議なことである。)
思うに統計学は、
  ・限定された場面・状況で
  ・自省的、抑制的に
  ・補助的に
使うべきである。逸脱すると、論争術、セールストーク、果てはサギ師の口上に
堕してしまう。
  ・更に、所謂“精度”を過信すべきではない。

Cの1 然らば限定された場面・状況とは

 「限定された場面で」とは、例えば上述の公害問題などには使うな!という
ことである。
この公害問題に使うとすれば、「工場排水を人間(偏りのない母集団)に長期間
飲ませて、発症の頻度を検定する」ということになるが、そんな人体実験等出来
るわけがない。となると、工場排水にせよ被験者にせよ迂回的にサンプリングして
隔靴掻痒たる“検定”を行うことになる。「検定」がそもそも曖昧な概念なのだか
ら、これは雲をつかむような話で、これこそ、色即是空なのである。それでは、
こういう場合には「それに対応してもっと難しい数式、統計モデルを使えばよい
のではないか?」と思われるかも知れないが、全く逆である。数式を難しくすれば
する程、実体から遠ざかり、所謂“プロのモデル遊び”になってしまうのである。
大方のプロはその辺は十分心得ていて、つまりバーチャルの世界を楽しんでいる
のだが、中にはそうでない人(バーチャルとリアルの垣根が分からない人、
分かっていて身過ぎ世過ぎのために垣根を破る人))もいて混乱する。
ついでに前述の、「工場排水と疾病との間に、因果関係があるとは云えない。」なる
宣明について考える。これは、「工場排水と疾病との間に、因果関係はない。」と
主張しているのではない。「有るかもしれないが、無いかもしれない。誰にも
(当然原告にも)分からない。」と主張しているのである。民事裁判の場合、
立証責任は多分原告側にあるのだから、被告側としては、この主張でも足りると
考えているのだろう。つまり、「原告側が、因果関係があることを積極的に証明
しなければならない」と被告側は考えているのだ。かくの如く、この宣明は何も
主張していないのである。こんなことを云う為に、法廷にのこのこ出かけていった
この教授の矜持、いずくにか有る! こんなクリティカルな場に統計学の出番など
ないのだ! 最後に付け加えると、因果関係はあるに決まっている。そんな排水
なんぞ、会社側にしろ、この教授にしろ、全く飲む気はしないだろうから。
それで十分だ。

Cの2 然らば自省的、抑制的とは

 統計学というのは、限られたデータから全体像を数量的に推察するための武器である。
然らば、その収集されたデータの品質というのが当然問題になってくる。こんな品質
のデータでは全く役に立たない、或は、この程度の品質のデータではこの程度の断片
的な像しか推察できない等と使うわけだ。品質をチェックするキーワードとして
「無作為抽出=ランダム・サンプリング」なる概念があって、統計学の教科書の最初
の方にでてくる。
 意外にもこれを厳密に定義しようとすると、“神学論争”になってしまう程に難しい
のだが、ちょっと考えても重要らしいのは理解できる。例えば、ある地域の住民の
性比を調べようとする。サンプリングの為に手っ取り早く自衛隊基地を選べば男ばかり
になるだろうし、女子大を選べば女ばかりになってしまう。この調査の場合は、我々
には情報・常識があるから、サンプリングが適切ではないことがすぐ分かるが、未知の
領域なら適切かどうか全く分からないのである。例えば、調査対象が、人間集団、工場
の出荷製品、農作物の生育状況など、人のコントロール下にある(相対的にだが)の
ならまだしも、人の制御不能な自然現象、変転極まりない現象が対象では当否が判断
出来ないのである。更に、単純な無作為抽出ではなく、目的によっては、より難しい
選択的無作為抽出をやらねばならぬこともあるのだ。(むしろ、こっちの方が多いだろう。)
結局、品質チェックに王道がある筈もなく、ひたすら誠実に対処するしかないわけだ。
「自分の集めたデータは、“単なるかき集め”ではなかろうか?」、「そのデータの数量化は
主観的・恣意的に過ぎるのではなかろうか?」、「独り善がりのデータ(=他人には通用し
ないデータ)をかき集めたに過ぎないのではなかろうか?」等と自省しつつ前進すべきな
のである。私は昆虫生態学の論文を良く読むが、どれもデータは、“単にかき集めたもの”
としか思えない。どのようにしてランダム性を担保したかの説明がまるでないのだ。中に
はサンプリング調査と全数調査(の近似)の区別もつかない論文もある。それを精緻な統
計モデルに適用し、パソコンを駆使して何やら数値を弾き出しているのである。正規分布
はもはや時代遅れ、混合分布利用のための一般化線形モデルが今や標準なのだそうだ。そ
のための統計ライブラリはパソコンにも完備されていて、データを放り込めば、0.3だの0.4
なんて数値が“算出”されて出てくる。0.3と0.4とでは何がどう違うのか?0.3は、実体
つまり昆虫の生態をどのように反映しているのか?私には勿論、著者にも分からない。た
だ“論文”が出現しただけなのである。昆虫学に全く無知の学者が作ったモデル式による
算出値など、昆虫生態学になんの役にも立たないのは明らかではないか。昆虫生態学の王
道は、今も昔も例えば可児藤吉博士のような研究であると思う。

Cの3 然らば補助的とは

 例えば昆虫の個体数の計測の問題を考える。先ずその昆虫の生物学的諸相を考察し
何らかの仮説を立てる。その仮説を補強する武器として統計学は用いられるべき
である。統計学の一般論から、「生物の個体数測定法」を提案した論文を読んだ
ことがある。それならその方法は、生物一般に適用出来る筈だけれど、その論文
では、或る緑地の、聞いたこともないような種類の蛾に適用して、“良くfitする”
と自画自賛していた。
 その種に限定するにしても、せめていろいろな場所で測定して検証を試みるという
発想も全くないのである。こんな蛾の個体数に興味がある人など他にいそうもない
から、論評されることもなく、従って“論文”として安泰なのである。つまり、
なるべく小難しい数式を使って他人の関心を呼ばないテーマを選べば“論文稼ぎ”
になるわけだ。
 以前「カマキリの積雪予測」という研究が、研究者だけではなく一般の人の注目を
集めた。私も読もうと思ったけれど、「数量化理論」を用いていると知って読む
のを止めた。
「数量化理論」というのは統計学の手法なのだが、カテゴリー変数なる恣意的・
主観的な量を数値のように扱うので統計学と認めない人も多い。私もそう思う。
論文の紹介記事を読むと、大要は、「カマキリは、雪に埋もれてしまう高さには
産卵しない。雪に埋もれると卵は死んでしまうからだろう。これは、こぞの秋、
積雪の高さを予測しているからだ。」ということらしい。そして、「積雪より
上部に(なるべく)産卵していることを数量化理論で検証した」わけである。
(予測のメカニズムについては触れていないらしいが。)
 これに、生物学者が追試して反論した。
「雪に埋まっている卵もある。そして孵化率は埋まっていない卵と変わらない!」
前項だけなら「数量化理論」による反撃も可能かも知れないが、後項が検証され
ては勝負にならない。最初の論文の著者は、先ず孵化率の調査つまり生物学的調査
をすべきだったのである。そして孵化率に顕著な差があるのなら(この場合は
なかったけれど)、次に“統計学的な”調査に進めば恥をかかなかったわけだ。
この論文は、なまじ他人の注目を集めたから不本意な結果になったけれど、他の
論文も、(私が読んだものは)このようなものが殆どである。人も私も(馬鹿馬鹿しくて)
追試しようとは思わないから論文として生息していける。論文のテーマ選びの際に
参考になりそうだ。

Cの4 然らば“精度”を過信すべきではない とは

これは、書き手よりも読み手に対するコメントである。統計データには
「信頼区間」、「信頼水準」、「適合度=理論値と計測値の差」、「決定係数」、「t値」など
統計処理の“正しさ”を示す数値がやたらにでてくる。一つ一つ説明しないけれど、例と
して適合度について述べる。モデル式(とその未知パラメータ)を仮定し、データを当て
はめて(fitting)、パラメータを決定する。それでモデルが確定するから、理論値を計算す
ことが出来る。「理論値とそれに対応する観測値との差=誤差」が小さい程、その「モデ
ル式=仮説」は正しそうだということになり、著者の手柄となるわけだ。しかしながら、
これは殆どの分野では全くナンセンスである。何故なら、全く客観性(=共通理解が成立
していること)がないデータ、つまりその著者だけの恣意的なデータがやたらに多いから
である。更に、著者にとって都合のいいサンプリングが行われる。その結果、以下に述べ
る“データ補正”も容易且つ盛大に行われるから、誤差など幾らでも小さくできるのであ
る。
「風が吹けば、桶屋が・・」なる“仮説”がある。猫や鼠を持ち出すまでもなく、
桶屋(昔は沢山あった)の収入データとその地の風速データとが沢山あれば、私は、“デー
タの取捨選択”と“データ補正”を駆使していくらでもfittingの良いモデル式を決定する
ことが出来る。かくの如く、“データの選別”と“データ補正”というのが曲者なのだ。
データ改竄は勿論良くないが、データ補正は称揚されて“プロの腕の見せ所”などといわ
れている。ところが、データ改竄とデータ補正との間に明確な違いなどないし、データ補
正は統計学の守備範囲でもない。トランケーション、アグリゲーション、インターポレー
ション、ウェイティング・・など様々の“技法”があるけれど、全て各現場の必要性から
生まれてきたのであって、やり過ぎるとデータ改竄になってしまう。(断じて手を加えるな
というのは言い過ぎではあるが。)
結局、「客観性のある生データを出来るだけ素朴に利用して、fittingが良ければOK!」と
いうことになるが、読み手にはそのような背景はなかなか分からないから、結局
「過信するな!」ということになるのである。

〔戻る〕 〔次へ〕