🏠
🌡️ 📆 令和5年9月25日

◇ 品質はばらつく!統計で使う分布関数とその性質

山形大学  理工学研究科(工学系)  化学・バイオ工学科  🔋 C1 📛 立花和宏

🔚 品質管理 🏫 Web Class syllabus 53225 📆 🌸 前期 火 🕐 13:00~14:30 🕝 ( 中示B) Files C1

自然物、工芸品、工業製品

表   1 自然物と工業製品
自然物 人工物
工芸品 工業製品
例1:道具 さえずる小鳥 パイプオルガン ピアノ
例2:食べ物 魚 回らない寿司 カップラーメン
例3:エネルギー 柴 電気、ガス、灯油
作り手 なし 職人、技能者、クリエータ 労働者、作業者
(※設計は技術者)
顧客 なし 王侯貴族、教会、富裕層 市民、庶民
歴史 なし 産業革命 以降
形態 献上、寄進 販売
量 ありのまま 丹精込めてひとつ 工場で大量生産
品質(Q) ありのまま 丹精込めてひとつ 同じ品質、 ばらつき なし
コスト(C) ただ? 非売品? 安く、低コスト 1 )
納期(D) 早く、即納(店売り)
環境(E) 持続可能 保護 廃棄物

データ

データとは、 論文 や 報告書 の論拠となる共有できる 情報です。

データ(data) : データム(datum)の複数形で、「論拠・ 基礎資料、 実験や観察などによって得られた事実や科学的 数値」などを意味する。「与える」意のラテン語ダーレ(dare)の受身形からでたもの。
『大日本百科事典』(小学館, 1980) *

デジタル回路計で、 11円電池 の起電力を測ろうとすると表示が一定になりません。 このようなとき、11円電池 の起電力をどうやって、データにすればよいでしょうか?

アナログ回路計では、目盛りのところを人が読みます。読み取り 誤差になります。 デジタル回路系では、一定時間ごとに AD変換された数値が直接表示されます。これが数値のばらつきになります。


数値の表現

表   2 デジタル記憶、記録での数値の表現
型 数 プログラミング言語
単精度浮動小数点 実数 Basic(Single), C(float),
倍精度浮動小数点 実数 Basic(Double), C(double), Python (float)
複素数 Python (complex)

測定値などを表す数字のうちで、位取りを示すだけの0を除いた、意味のある数字を有効数字と言う。 たとえば、1.234g±0.012gという測定結果があり、これを 不確かさ を無視して1つの値y=1.234gとして表すことを考える。 不確かさ を考慮した値はおおむね1.222g~1.246gの範囲にあると考えられる。 2 )

このことは、測定値に限ったことではありません。 たとえば、円周率という数には、確かな値がありますが、数字で表現しようすれば、 3.14あるいは3.14159という具合に表現しなければなりません。 やはり有効数字が存在するのです。

さらにこれは10進数に限ったことではありません。 コンピュータの内部では、2進数で表現されることが多くあります。 その表現形式もさまざまです。 単精度浮動小数点や倍精度浮動小数点といった形式があるのは、そのためです。

倍精度浮動小数点は、実数を64ビットで表現します。 実数は無限集合です。それに対して64ビットの表現は264の有限集合です。 実数とデジタル数値を1:1対応させることはできません。 必ず量子化誤差が入ります。

デジタルコンピュータのようなデジタルデバイスでは、 データは、 デジタル情報として記憶または記録されます 3 ) 。


表   3  èª¤å·®ã®ç¨®é¡ž
数値 区分 細分 説明
測定値 系統誤差 反復測定において、一定のままであるか、または予測可能な変化をする測定誤差の成分。
機械的誤差 ノギス、天秤、メスシリンダーなど測定器の精度や 精確さ( 確度) による誤差
個人的誤差 測定者のくせによる誤差
理論的誤差 理論の省略などによる誤差
偶然誤差
random error
反復測定において、予測が不可能な変化をする測定誤差の成分。 誤差論(確率・統計)の対象
計算値 計算誤差 AD変換 、 DA変換、丸め誤差や計算精度による誤差、 数値 データの格納方式による誤差。
設計値 公差
tolerance
製品の仕様図や設計図で、基準値から許容される値。 方向が指定されてより具体的なものは許容値と呼ばれる。

誤差(error)は、測定値から真値を引いた値です。特に、測定誤差と言うこともあります。 4 )

誤差が検査や測定にかかるのに対して、 公差は設計にかかります。 不適合を出さない設計をするには、研究開発段階から、公差の設計が大切です。

化学で使われる量・単位・記号 5 ) 誤差とノイズ 6 )
感量:検出限界。
感度:ゲイン、増幅率
秤量(ひょうりょう):フルスケール、最大計測可能重量
読み取り限度・目量:最小目盛りの1/10、精度 = 目量 / 秤量:分解能:ビット深度

こういう意味のある数字を有効数字というのであるが、有効数字が三桁というのは、例えば56.2とか7.31とかいう数である。数字で書いて見ると三桁位のものは極めて簡単な数で、小学校の三年生位ならば楽々と取り扱える程度のものである。ところが物理の方では三桁目まで精確な測定値が得られれば、大抵の場合には、それで先ず充分に精密な測定と思って差支えない。そして普通の物理的性質は、それ位の精度で分れば、それで充分に壮麗な物理学の殿堂を築き上げる材料として採用することが出来るのである。

もっとも三桁というのは、一般の場合であって、精密な物理の測定では四桁も五桁もちゃんと測定がなされていることもしばしばある。こういう場合に意味のある数字を一桁増すことは、誤差を更に十分の一に縮めることであって、実は非常に骨の折れる仕事なのである。 学生実験の報告書とか、 独逸ドイツの学位論文の或るものとかを見ると、六桁位の数字が平気で沢山並んでいることがあるが、そういうものは大抵は、計算の途中に割算で沢山桁数を出したもので、此処ここでは問題とするまでもないものである。本当の意味で有効数字が六桁も並んでいる測定があったら、その数字には正に脱帽して接すべきである。

……(途中略)……

最後に、全く役には立たないが、ちょっと面白い一つの考察がある。 それは大抵の物理的性質は、三桁位の精度で分れば、それで充分であるということと、人智じんちの極致をつくした精密な測定が、殆んど例外なく六桁で止っているということである。 即ち観測の精度には、三桁と六桁とに何か意味があるらしく思われるのである。 もっとも六桁の方は前に注意した人もあって、10-6というのが極めて広い意味での 物理恒数こうすうであるというような珍説を出した人もある。 普通の物理は三桁程度というのは、それに輪をかけた迷説で、自分の実験の技術の程度を言っているのかも知れないが、その程度でも物理で生活が出来るところを見ると、何か意味があるらしくも思われるのである。

中谷宇吉郎、地球の丸い話より


測定の信頼性と用語

表   4 測定の信頼性と用語
用語 定義 備考
誤差 ( error )
偶然誤差 ( random error ) 反復測定において、予測が不可能な変化をする測定誤差の成分
系統誤差 ( systematic error ) 反復測定において、一定のままであるかまたは予測可能な変化をする測定誤差の成分
ばらつき ( dispersion ) 測定値がそろっていあいこと。また、ふぞろいの程度。 偶然誤差とほぼ同義。
かたより ( bias ) 測定値の期待値と真値の差 系統誤差とほぼ同義。
不確かさ ( uncertainty ) 測定値に付随する、合理的に測定対象量にむすびづけられる値の広がりを特徴づけるパラメータ 知識の曖昧さも含む
反復 ( replicate ) 同一の測定対象量に対する測定を複数回行うこと 測定条件が同一かどうかによらない。 実験計画法では、ブロック単位での実験を指す。
繰り返し ( replicate ) 同一の測定対象量に対する 測定手順、オペレータ、操作条件、場所が同一の、短期間での測定の反復 操作条件は、因子。 繰り返し数は、標本数に相当する。
再現性 ( reproducibility ) 測定の再現条件下での測定の精密さ
精密さ ( precision ) 精度。 ばらつきの小ささを表す。
精確さ ( accuracy ) 確度
測定値 規定された測定手順に実施によって得られる 量の 値 測定を反復するときは、個々の値、もしくは代表値(平均値や中央値など)のいずれも測定値と呼ぶ。
指示値 測定器が提示する 量の 値

7 )


数学の歴史

表   5 数学の 歴史
年号 出来事
B.C.300 アラビア数字
◇ 16世紀
デカルト、数と図形を結び付けた解析幾何学
ニュートン、微分積分学 8 )
パスカル、フェルマーが賭博に関する研究(確率論と統計学) 9 )

確率変数と確率分布

ある確定した確率の元で、偶然的に表れる変数を確率変数と呼ぶ。 特に、サイコロの目のような離散的な確率変数についての 確率分布を離散分布または離散確率分布と呼ぶ。 一方、実数で表される連続的な確率変数に対する 確率分布を連続分布あるいは連続確率分布と呼ぶ。

10 )

分布関数と確率密度関数

図   1 分布関数と確率密度関数
python (colab)→ png→ svg→ html

連続分布で、確率変数xがある値より小さい値である確率をxの関数を 分布関数(累積分布関数)と言います 11 ) 。


分布関数と確率密度関数

# ■■■ 分布関数と確率密度関数 ■■■
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt
import random

sm = 52.2 # 平均(母平均)
ss = 9.5 # 標準偏差(母標準偏差)

fig = plt.figure()

ax1 = fig.add_subplot(1, 2, 2)
ax2 = fig.add_subplot(1, 2, 1)

x = np.arange(start = sm - 3 * ss, stop = sm + 3 * ss, step = ss * 0.1)
ax1.plot(x, stats.norm.pdf(x = x, loc = sm, scale = ss))
ax2.plot(x, stats.norm.cdf(x = x, loc = sm, scale = ss))
plt.show()

# ■■■ 分布関数と確率密度関数 ■■■
©K.Tachibana

全数調査(悉皆(しっかい)調査)と標本調査(サンプル調査)

無限に実験を繰り返すことはできません。 実験や測定は有限回ですから、測定は、標本調査になります。 少なくともn=3ないと、自由度不足から、統計的手法は使えません。

非破壊試験では、全数調査もできますが、 破壊試験では、商品をダメにしてしまいますから、必然的に、標本調査(抜き取り試験)になります。


データ、データベース、ビッグデータ

表   6 データ、データベース、ビッグデータ
種類 説明 サイズ 例
データ 単レコード 紙
データベース 1000~10億レコード 内部ストレージ クラウド
データリボジトリ クラウド * データのオープンアクセスを目指す
ビッグデータ それ以上 クラウド
11.情報処理概論 品質管理 データ

ビッグデータは、人間では処理できず、コンピュータの助けを借りて処理するデジタルデータの集合です。 コンピュータの助けを借りるには、数学や プログラミング言語のスキルが必須です。数学は、特に集合論、代数、確率統計などのスキルが要求されます。

ビッグデータは、クラウド上に電子的あるいは磁気的な方法で 記録されており、すべてを紙に印刷することは不可能です。 つまり、すべてを見た人は、誰もいないということです。

人は、コンピュータの助けを借りて、ビッグデータの一部を選択して抽出したり(検索)、全体の傾向を抽象化してみたり(統計)することになります。 それを見て、はじめて人は、意思決定し、行動を起こします。

言い換えれば、ビッグデータは、そのままでは、 情報 ではありません。人がコンピュータにプログラムを与え、ビッグデータを処理してはじめて、人に有用な 情報 になるのです。

*

母平均と標本平均

確率分布 の代表値と用いられる値の一つに、確率変数の 期待値 ( expectation ) がある。

E[x]= σxiP(x)
E[x]= ∫xiP(x)

母集団を ある 確率分布 で表したとき、その 確率分布 に従う 確率変数の 期待値 ( expectation ) をその母集団の 母平均 と呼ぶ。

μ=E[x]
12 )

アプリ

表   7 アプリの種類
種類例説明
ワープロ 論文や 報告書、あるいはそれらの 要旨などの 文書を作成、印刷するアプリです。
表計算 数値を計算し、表や グラフなどの図表を作成するアプリです。 平均、 標準偏差などの統計量も計算できます。 データ の件数は 30件程度までが適切です。 それ以上の件数の場合、データベースアプリと連携して 抽出した データ を使う方が効率的です。
プレゼンテーション 講演スライドやポスターを作成できます。
グラフィックス 図形や 写真などの 画像の作成や編集をします。
CAD Solid works *
Webページ作成 HTML editor
データベース Microsoft Access Microsoft SQL Server
動画編集
プログラミング google colab
ビジネス ・グループウェア
  • メール
  • チャット
    • Slack
  • 会議 Zoom, Teams, Meet
  • カレンダー、連絡先、名刺交換

アプリ には、 オペレーティングシステム (OS) 上で動く、インストールアプリと、 Webブラウザ 上で動く Webアプリがあります。

アカウント を有効化して、サービスや アプリ を利用する(ログイン、ログオン、サインイン)には、 認証が必要です。

人気 プログラミング言語 は、java script、そしてpyton*と続きます。 *


無作為抽出

表   8 無作為抽出
アプリ& 言語 プログラム例
SQL * NEWID()を使って、乱数を生成し、ソートして上位をとる。 select top(1) * from contents order by NEWID()
Python * randomモジュールのsampleメソッドを使う。
offce365 /Excel * セルにRAND()を使って、乱数を生成し、ソートして上位をとる。 基本的にはSQLと同じ考え方。 Excel のような 表計算アプリの中で、無作為抽出をするのは現実的ではなく、 予めデータベースで抽出すると良い。
13 )

式の要素

表   9 式の要素
要素 数式 プログラミング言語
C Phthon
変数 x
public double x;
関数 f
double f(double x);
関数と従属変数 y = f ( x )
double f(double x) {
	return y;
}
定義域 x=0: y = f ( x )
x>0: y = g ( x )
Cでは、VBのselect構文のように switch構文では、定義域を指定することはできません。 結局if構文をネストさせることになります。 Pythonでは、switch構文はありませんが、 elif構文でネストさせずに定義域を指定できます。
if x == 0:
	print('0')
elif x < 0:
	print('è² ')
elif x > 1:
	print('æ­£')
else:
	print('発散') 
和 S = i = 1 n k i
for ( i = 1; i < n; i ++ ) {
	s += k[i];
}
for i in range(1, n):
	s = s + k[i]
*

Phthon (パイソン)は、多様なデータ構造が組み込まれているので、データ処理しやすい言語仕様です。 Anaconda(アナコンダ)や、Google Colaboratoyなどの開発環境があります。 Phthonには、数値計算ライブラリNumPyがあります。 NumPyは、CやふFORTRANで、実装されていて、高速で実行できます。 ほかにも、Matplotlib(グラフ描画ライブラリ) pandas(データ分析ライブラリ) TensorFlow(機械学習ライブラリ) OpenCV(画像処理ライブラリ) など便利なライブラリが多数あります。


図形と関数

表   10 図形と関数
名称 グラフ 説明
逆ネルンスト 電池の充放電曲線で現れます。
確率曲線
正規分布関数 確率統計で多用されます。 品質管理 でも大切です。

正規分布関数

図   2 正規分布
© K.Tachibana

表   11 数・数字・ 数値
概念種類例
数 自然数 1,2
有理数 -1(整数、負数),0.5(小数),1/3(分数)
無理数 √2(無理数)は、根号と数字で表現されます。 π(円周率)、e(ネーピアの底)は数を表現する文字ですが、数字ではありません。
数字 算用数字 1234567890 アラビア数字、インド数字と呼び名には歴史的経緯があります。 0という数字の発明により * 、数値に桁(デジット)の概念が導入され、計算が著しく早くなりました。
漢数字 一二三壱弐参
ローマ数字 ⅠⅡⅢⅣⅤ 11世紀 商人が計算に便利な算用数字を使おうとしていたところ、 ギルドが公文書でその使用を禁止しました * 。
数値 数量を数字で表現
(デジタル表示)
3.14,6.02×1023 量を数にするには、 単位 が必要です。 ただし、 単位 は、人が決めたものなので、物理の範疇にはありません *。 数値は、数式に代入することができます。 量と量との関係を表現した物理の関係式は、人が決めた 単位 に依存しないので、 単位 を書くべきではありません。

数を数字で表現する方法として、アラビア数字による位取り記数法があります。(新 情報技術基礎p.26) コンピュータの内部では、符号付き整数、 倍精度浮動小数点数型(FP64-64bit)、などとして表現されます。

データは、思想や感情を含まないメディアにデジタル記録可能な表現です。


正規乱数のヒストグラム

図   3 正規乱数のヒストグラム
©K.Tachibana
確率分布

正規乱数のヒストグラム

import numpy as np
import matplotlib.pyplot as plt

sm = 52.2 # 平均(母平均)
ss = 9.5 # 標準偏差(母標準偏差)
sn = 1000 # 母数
x = np.random.normal(loc=sm, scale=ss, size=sn)

plt.hist(x)
plt.show()

©K.Tachibana

体重

表   12 21才女性の体重データの例
番号 値 番号 値 番号 値 番号 値 番号 値
1  65.22 2  51.41 3  53.83 4  54.94 5  50.95
6  60.98 7  40.49 8  51.59 9  45.87 10  41.89
11  48.59 12  60.96 13  61.29 14  68.36 15  44.00
16  27.13 17  44.82 18  48.64 19  60.19 20  52.94
21  58.39 22  49.19 23  65.86 24  54.13 25  48.13
26  64.79 27  71.59 28  43.65 29  57.86 30  55.06
31  46.60 32  62.65 33  54.67 34  64.94 35  58.89
36  48.25 37  54.10 38  58.68 39  45.52 40  51.02
41  48.80 42  57.48 43  47.65 44  60.85 45  60.13
46  55.48 47  50.86 48  47.52 49  54.38 50  48.81
51  47.48 52  46.58 53  48.13 54  58.52 55  53.22
56  63.26 57  52.76 58  39.00 59  50.62 60  62.60
61  59.12 62  38.90 63  41.00 64  54.03 65  61.37
66  70.12 67  47.42 68  52.52 69  60.35 70  56.44
71  61.90 72  45.62 73  37.24 74  68.67 75  61.15
76  51.95 77  50.58 78  40.71 79  66.60 80  46.50
81  66.00 82  58.42 83  45.36 84  55.10 85  30.56
86  50.63 87  39.55 88  44.97 89  57.44 90  53.20
91  59.54 92  46.96 93  58.90 94  62.14 95  52.78
96  41.06 97  54.95 98  60.30 99  60.38 100  43.09
表   13 統計量
項目 全数検査(母集団) 抜き取り検査(標本)
数 母数n=100 標本数=12
平均 母平均 μ =53.16 標本平均=x_ 51.98
標準偏差 母標準偏差σ=8.58 標本標準偏差s=6.56
分散(Variance) 母分散σ2=73.65 不偏分散s2=42.98
偏差平方和 S=5,315.65 S=623.74

標本標準偏差は、母標準偏差の 不偏推定量ではないが、母標準偏差の推定は、 近似的に標本標準偏差で行うことが多い 14 ) 15 ) 。


正規乱数のヒストグラムと、そこから無作為抽出されたヒストグラム

図   4 正規乱数のヒストグラムと、そこから無作為抽出されたヒストグラム
©K.Tachibana
確率分布

正規乱数のヒストグラムと、そこから無作為抽出されたヒストグラムム

import numpy as np
import matplotlib.pyplot as plt
import random

sm = 52.2 # 平均(母平均)
ss = 9.5 # 標準偏差(母標準偏差)
sn = 10000 # 母数
en = 5 # 標本数
x = np.random.normal(loc=sm, scale=ss, size=sn)
sampled = random.sample(x.tolist(), en) #無作為抽出

fig = plt.figure()

ax1 = fig.add_subplot(2, 1, 1)
ax2 = fig.add_subplot(2, 1, 2)

ax1.hist(x)
ax2.hist(sampled)
plt.show()

average1 = np.mean(x)
stdev1 = np.std(x)

average2 = np.mean(sampled)
stdev2 = np.std(sampled)

print('inf',sm,ss)
print(sn,average1,stdev1)
print(en,average2,stdev2)

©K.Tachibana

よく使う分布

表   14 よく使う確率分布
種類 分布 例
連続分布 🖱 正規分布
t-分布 母平均の区間推定、 母平均の有意差検定 (t検定)
χ( カイ) 2-分布 * 標本標準偏差s
F-分布 分散の比、 母分散の有意差検定(F検定)
一様分布 一様乱数
対称三角分布
ワイブル分布
離散分布 超幾何分布
2項分布
ポアソン分布
力学 ボルツマン分布 マクスウェルボルツマン統計
フェルミ分布 フェルミディラック統計
ボーズ分布 ボーズアインシュタイン統計

偶然に現れる変数を確率変数と言います。 確率変数がどのような確率で現れるかを表現したものを確率分布といいます。

TRPG クトゥルフWEBダイス

情報量 (エントロピー) の単位

表   15 情報量 (エントロピー) の単位
対数の底 通常の単位 JISおよびISOが定めた単位 備考
2 ビット (bit) シャノン (shannon)
e ナット (nat) ナット (nat)
e ディット (dit) ハートレー (hartley)
01. 情報処理概論 15. エネルギー化学特論 09. 品質管理

◇ 参考文献

品質管理


QRコード
https://edu.yz.yamagata-u.ac.jp/Public/53225/53225_09.asp

山形大学 データベースアメニティ研究所
〒992-8510 山形県米沢市城南4丁目3-16
3号館(物質化学工学科棟) 3-3301
准教授 伊藤智博
0238-26-3573
http://amenity.yz.yamagata-u.ac.jp/

Copyright ©1996- 2023 Databese Amenity Laboratory of Virtual Research Institute,  Yamagata University All Rights Reserved.