본문 바로가기

전공/기기분석

1. 3 Basic statistics and data handling (기초 통계학과 데이터 처리)

1.3.2 Accuracy and Precision

 

 우리가 어떠한 샘플을 분석한다고 가정했을 때, 분석을 정확하게 하는 것이 중요합니다. 좀 더 자세히 얘기하면 정확하고 정밀하게 분석하는 것이 중요합니다. 그럼 정확과 정밀이 어떻게 다를까요?

 

Accuracy (정확)

 

분석방법으로 측정한 결과와 실제 답이 얼마나 가까운지 측정

 

Precision (정밀)

 

같은 샘플로 측정했을 때의 결과가 얼마나 가까운지 측정

 

 군필자들은 정말 쉽게 이해할 수 있습니다. 사격을 할 때, 우리는 영점조절이라는 것을 합니다. 표적판의 가운데를 노리고 총을 몇 발 쐈을 때, 영점조절이 되지 않은 총은 가운데에서 벗어난 곳을 맞추게 됩니다. 이는 accuracy(정확)이 낮은 것으로 판단할 수 있지만 어느 한 지점에 총알들이 몰려있다면 precision(정밀)은 높다고 판단됩니다. accuracy와precision이 모두 좋은 것이 가장 이상적인 분석이라고 할 수 있습니다.

 

1.3.3 Type of errors

 

 분석을 진행하면 error는 반드시 발생합니다. error의 종류는 크게 두 가지로 나눌 수 있습니다.

Determinate error는 analytical procedure 또는 분석에 사용한 기기의 결함으로 인해 발생한다.

Indeterminate error는 물리적 측정을 할 때 고유의 한계로부터 발생한다.

 

 Determinate error는 분석자가 없애야 하는 error입니다. 어떠한 분석 과정중의 결함으로 인해 발생해서는 안되는 error를 뜻합니다. 가장 빈번히 발생하는 determinate error는 분석자가 실험분석을 잘못하는 경우입니다. 예를 들어, 물을 사용해야 하는데 에탄올을 사용한다던지, 농도를 5 wt%로 사용해야 하는데 0.5 wt%로 분석을 진행한다던지 하는 것입니다. determinate error를 줄이는 것은 실험자의 가장 기본적인 소양이며 매우 중요한 일입니다. determinate error가 존재한다고 알 수 있는 방법은 크게 두 가지가 있습니다.

 

(1) 우리가 알고 있는 다른 분석 기기 사용 - 예를 들어 농도를 측정한다고 할 때, 분석기기의 문제가 있다고 생각되는 경우 determinate error가 없다고 생각 되는 다른 분석 기기를 사용하는 것으로 비교하여 분석기기의 error를 찾아내는 것입니다.

 

(2) 우리가 알고 있는 물질 사용 - 농도를 이미 알고 있는 용액을 분석하여 기기의 error를 찾아내는 방법입니다.

 

Indeterminate error는 고유의 한계로 인해 우리가 통제할 수 없는 error를 의미하기에 우리는 indeterminate error를 줄일 수는 없지만 항상 error는 존재한다는 사실을 기억하고 있어야 합니다.

 

1.3.4 Definitions for statistics (통계학을 위한 몇가지 단어 정의) 

 

 지금부터는 통계에 대해 잠깐 다루도록 하겠습니다. 통계는 많은 데이터를 다룰 때 유용하게 쓰입니다. 실제 세상은 이상과는 다르기 때문에 오차는 항상 발생합니다. 프로페셔널해지기 위해서는 통계를 사용해 데이터를 나타내고 불확실성을 표시할 수 있어야 합니다. 통계학에서 쓰이는 몇 가지 단어에 대한 정의를 적어보도록 하겠습니다.

 

True value T- 분석 샘플의 실제 값 (실제 값은 존재하지만 indeterminate error 때문에 측정할 수는 없습니다.)

 

Observed value $x_{i}$ - 분석 샘플의 관측된 값

 

 

Sample mean $\bar {x} = \frac{\sum_{i=1}^{n} x_i}{n}$ - 표본집단의 평균 값 ( 모집단에서 몇 개의 표본을 추출해 평균을 낸 값)

 

Population mean  $\bar {\mu} = \frac{\sum_{i=1}^{N} x_i}{N}$ - 모집단의 평균 값 (모집단 전체 데이터의 평균 값)

 

Error $E = x_i - T$ 실제 값 - 관측 값

 

Population standard deviation $\sigma$ = $\sqrt{\frac{\sum(x_i-\mu)^2}{N}}$

 

Sample standard deviation $s$ = $\sqrt{\frac{\sum(x_i-\bar{x})^2}{n-1}}$

 

 모집단의 표준 편차와 표본집단의 표준편차는 구하는 식이 다르다는 것을 아시는 것이 중요합니다. 모집단은 분석 대상 전체를 의미하며, 표본집단은 모집단에서 샘플링을 통해 일부만 가져온 집단을 의미합니다. 따라서 모집단과 표본집단의 표준편차를 구하는 식은 달라집니다. 특히 모집단과 달리 표본집단의 경우 분모에 n-1이 들어가는데 이는 degree of freedom이 달라지기 때문입니다. 이것까지 설명하기엔 좀 깊이있는 설명이 필요하기에 degree of freedom을 알고 싶으신 분은 따로 찾아보시길 바랍니다.

 

1.3.5 Quantifying random error

 

 우리가 측정한 값의 평균이 실제 값과 얼마나 가까울까? 에 대해 아는 것은 매우 중요합니다. 이를 알기 위해서 우리는 가우시안 분포와 신뢰수준을 이용해야 합니다. 이 부분에 대해서는 자세히 적지 않겠습니다. 통계학에 대한 개념이 많이 필요하기 때문입니다. 통계에 대해서 따로 포스팅할 기회가 있다면 거기에 작성하도록 하겠습니다. 

 

 이 글의 결론은 분석을 할 때 error는 항상 존재하며, 이 error를 나타내는 것은 신뢰성을 높이기 위해 매우 중요하다는 것입니다. 분석에 error를 나타내지 않는다면 보는 사람은 제대로 된 분석이 맞는지 의심할 수 밖에 없습니다. 완벽한 분석은 없기 때문입니다. 따라서 우리는 통계학을 이용해 표준편차와 신뢰수준을 표기하여 분석에 대한 신뢰성을 높여야 합니다. 열심히 분석해놓고 논문까지 썼는데 다른 사람들이 믿어주지 않는다면 너무 속상하겠죠?

'전공 > 기기분석' 카테고리의 다른 글

Chapter 2. Introduction to Spectroscopy (분광학 소개)  (0) 2020.11.10
1.2 Analytical approach (분석적 접근)  (0) 2020.10.12
기기분석-Introduction  (0) 2020.10.11
기기분석  (0) 2020.10.07