🏠
令和6年11月21日 (木)
卒業研究 54299 Files C1

データ

データとは、 論文報告書 の論拠となる共有できる 情報です。

データ(data) : データム(datum)の複数形で、「論拠・ 基礎資料実験や観察などによって得られた事実や科学的 数値」などを意味する。「与える」意のラテン語ダーレ(dare)の受身形からでたもの。
『大日本百科事典』(小学館, 1980) *

デジタル回路計で、 11円電池 の起電力を測ろうとすると表示が一定になりません。 このようなとき、11円電池 の起電力をどうやって、データにすればよいでしょうか?

アナログ回路計では、目盛りのところを人が読みます。読み取り 誤差になります。 デジタル回路系では、一定時間ごとに AD変換された数値が直接表示されます。これが数値のばらつきになります。


単なるデータは、 著作物ではありません。 著作物である 論文報告書 とするには、著者の思想又は感情を表現しなければいけません。

単なる データ は、 結果 ではありません。 結果データ は違います。 結果 には、著者の思想又は感情が含まれており、 論文講演を構成します。


……能動的な作業によって データを作り出していく方法論と言えるでしょう。 自然科学や社会科学的分野、さらに人文科学でも 社会学・社会心理学・文化人類学・民俗学・考古学などの分野で盛んに用いられる手法です。 これらはかなり厳密な手順をふんでいかなければならいので……

山形大学基盤教育院,なせば成る!,山形大学出版会 1 )

  1 数・数字数値
概念種類
自然数 1,2
有理数 -1(整数、負数),0.5(小数),1/3(分数)
無理数 √2(無理数)は、根号と数字で表現されます。 π(円周率)、e(ネーピアの底)は数を表現する文字ですが、数字ではありません。
数字 算用数字 1234567890 アラビア数字、インド数字と呼び名には歴史的経緯があります。 0という数字の発明により * 、数値に桁(デジット)の概念が導入され、計算が著しく早くなりました。
漢数字 一二三壱弐参
ローマ数字 ⅠⅡⅢⅣⅤ 11世紀 商人が計算に便利な算用数字を使おうとしていたところ、 ギルドが公文書でその使用を禁止しました *
数値 数量を数字で表現
デジタル表示
3.14,6.02×1023 量を数にするには、 単位 が必要です。 ただし、 単位 は、人が決めたものなので、物理の範疇にはありません *。 数値は、数式に代入することができます。 量と量との関係を表現した物理の関係式は、人が決めた 単位 に依存しないので、 単位 を書くべきではありません。

数を数字で表現する方法として、アラビア数字による位取り記数法があります。(新 情報技術基礎p.26) コンピュータの内部では、符号付き整数、 倍精度浮動小数点数型(FP64-64bit)、などとして表現されます。

データは、思想や感情を含まないメディアにデジタル記録可能な表現です。


データのタイプ

  2 測定の仕組みと尺度
大分類 小分類
質的データ 1⃣ 名義尺度 整数 整数 名前、性別
2⃣ 順序尺度 (官能値、位相) 整数 整数 📆 日付、 帯電序列、イオン化傾向、 極性、 ランキング、満足度
量的データ 3⃣ 間隔尺度 (離散型、計数値) 整数 自然数、整数 年齢、金額、時刻
4⃣ 比例尺度 (連続型、物理量、計量値、距離) 浮動小数点 実数、複素数 温度液位 、 身長、 体重、組成、 電力電位、 インピーダンス

数値表現するために定めた規則、あるいはその規則で作られる目盛りを尺度と言います 2 )

比例尺度の の基準は 単位です 3 ) 4 ) 5 )

気温のような連続的なアナログ量は、数学では実数として取り扱います。 そのような実数を、数値データとして記録しようとすれば、 たとえ、人手で記録しようとしても有限桁の数字で表現するしかありません。 機械的にコンピュータに取り込もうとしても AD変換のビット深度で 確度が決まります。

データの集合を、データセット、データセットの関係がデータベースです。 集合の要素がおよそ30件を超えると、人の手に負えなくなり、コンピュータの助けが必要です。 ビッグデータは、 とくに大きなデータの集まりです。

量的なデータは、 平均値 や標準偏差を求めることができます。 しかし、あまりにデータが多いと、コンピュータといえども計算に時間がかかります。 無作為抽出 などを行い、抽出データから、 平均値 や標準偏差をを推定します。

*

オープンデータの例

  3 オープンデータの例
サイト名 url
DATA🇯🇵GO.JP https://www.data.go.jp/
日本の観光統計データ https://statistics.jnto.go.jp/
メディア芸術データベス・ラボ https://mediag.bunka.go.jp/madb_lab/

誤差と精度

  4  誤差の種類
数値 区分 細分 説明
測定値 系統誤差 反復測定において、一定のままであるか、または予測可能な変化をする測定誤差の成分。
機械的誤差 ノギス、天秤、メスシリンダーなど測定器の精度や 精確さ確度) による誤差
個人的誤差 測定者のくせによる誤差
理論的誤差 理論の省略などによる誤差
偶然誤差
random error
反復測定において、予測が不可能な変化をする測定誤差の成分。 誤差論(確率・統計)の対象
計算値 計算誤差 AD変換DA変換、丸め誤差や計算精度による誤差、 数値 データの格納方式による誤差。
設計値 公差
tolerance
製品の仕様図や設計図で、基準値から許容される値。 方向が指定されてより具体的なものは許容値と呼ばれる。

誤差(error)は、測定値から真値を引いた値です。特に、測定誤差と言うこともあります。 6 )

誤差が検査や測定にかかるのに対して、 公差は設計にかかります。 不適合を出さない設計をするには、研究開発段階から、公差の設計が大切です。

化学で使われる量・単位・記号 7 ) 誤差とノイズ 8 )
感量:検出限界。
感度:ゲイン、増幅率
秤量(ひょうりょう):フルスケール、最大計測可能重量
読み取り限度・目量:最小目盛りの1/10、精度 = 目量 / 秤量:分解能:ビット深度

研究不正

  5 研究不正(FFP)
項目 説明 事例
捏造 (fabrication) 実験していない データ を、でっちあげて、あたかも実験した データ のように表現してはいけません ディオパン事件 9 ) 10 )
改ざん (falsification)

データ情報を都合のいいように書き換えてはいけません。 で書かれた手書きの 文字は、改竄しづらいです。

盗用・剽窃 (plagiarism) 他人の 論文 やアイディアなどを無断でコピペしてはいけません。 デジタル技術の発達で、コピペが簡単になった分、盗用も簡単になりました。 たとえ、自分の既発表 論文でも、 引用 11 ) ではなくそのまま流用すると「自己剽窃」です。 図表 は、引用ではなく、転載なので原則として、転載許諾が必要です。
二重投稿 一度、公表した内容を使いまわしてはいけません。
不適切な オーサシップ 貢献していないのに、 著者として名を連ねてはいけません。 名義貸しです。名義借りはだめです。 他人の 論文や報告書を、代筆していけません。 *
査読不正 著者が、匿名査読者になりすまして査読してはいきません。 匿名査読者を特定し、査読に影響を与えてはいけません。 査読者が、査読中の論文の内容を、自分の内容として公表してはいけません。 ハゲタカジャーナル、ハゲタカ学会に投稿してはいけません。
不正行為の証拠隠滅 不正行為があったことの証拠を隠滅したり、立証を妨害してはいけません。

* *

実験していないデータを 捏造したり、 データを都合よく 改竄してはいけません。


科学の方法

  6 科学の方法
方法 説明
観察 天体のように規模が大きすぎる場合や、 人体のように倫理上の問題がある場合などは、積極的なアプローチを避け、あるがままを客観的にみて データとする。 目視、 顕微鏡、望遠鏡
定性観察 同じかどうかを判断する(同定)。 注目する尺度で序列をつけ、データとする。 比色分析、帯電序列、層別
定量観察 物理量と単位となる 基準数値で表現する(計測、測定)。 数値 データとする。 ノギスで 長さを測定する。 天秤で質量を測定する。
巡検 現地に趣きあるがままを観察する。 地学、生物の分野で、対象を実験室に持ち込めないときに使う手法。 火山に赴き地層や地質を観察する。 山や野を歩き毒草の分布を調査する。
実験 主に実験室内で条件を設定して、現象を観察し、仮説を検証する。 物理、化学の分野で、対象を実験室内に構築して検証する手法。
対照実験 コントロール(ブランク、比較対象)を設定して、現象を観察し、効果の有無を判定する。

表やグラフの活用

データは、表や グラフに表現して、 人間の思想や感情を伝える 情報と言えます。

表の例

  7 CSSで設定
testtest
testtesttest

データ、データベース、ビッグデータ

  8 データ、データベース、ビッグデータ
種類 説明 サイズ
データ 単レコード
データベース 1000~10億レコード 内部ストレージ クラウド
データリボジトリ クラウド * データのオープンアクセスを目指す
ビッグデータ それ以上 クラウド
11.情報処理概論 品質管理 データ

ビッグデータは、人間では処理できず、コンピュータの助けを借りて処理するデジタルデータの集合です。 コンピュータの助けを借りるには、数学や プログラミング言語のスキルが必須です。数学は、特に集合論、代数、確率統計などのスキルが要求されます。

ビッグデータは、クラウド上に電子的あるいは磁気的な方法で 記録されており、すべてを紙に印刷することは不可能です。 つまり、すべてを見た人は、誰もいないということです。

人は、コンピュータの助けを借りて、ビッグデータの一部を選択して抽出したり(検索)、全体の傾向を抽象化してみたり(統計)することになります。 それを見て、はじめて人は、意思決定し、行動を起こします。

言い換えれば、ビッグデータは、そのままでは、 情報 ではありません。人がコンピュータにプログラムを与え、ビッグデータを処理してはじめて、人に有用な 情報 になるのです。

*

個人情報と個人データ

個人を特定できる情報を個人情報、個人情報を記録したデータベースを個人データと言います。


参考文献


山形大学大学院 理工学研究科
〒992-8510 山形県米沢市城南4丁目3-16
3号館(物質化学工学科棟)3-3301
C1ラボラトリー
准教授 伊藤智博 0238-26-3753
http://c1.yz.yamagata-u.ac.jp/
c1@gp.yz.yamagata-u.ac.jp