본문 바로가기

연구수첩/보건의료근거연구

[Vol.3 7월호] 알기 쉬운 EBM :: 자료추출(data extraction)




   글. 서혜선(건강보험심사평가원 연구조정실)



특정 연구주제에 대해서 PICO(patient, intervention, comparison, outcome)를 정하고 Medline, EMBASE 등 검색 데이터베이스에서 문헌을 검색한 이후 1차, 2차 선정과정을 통해 분석을 위한 문헌 선택과정이 모두 마무리 되면 그 다음에 할 일은 분석을 위한 자료추출(data extraction)이다.

 


자료추출(data extraction)이란?


자료추출은 ‘사전에(a priori)’에 정의된 형식을 이용하여 자료를 추출하는 과정이다. 이 과정은 문헌의 선정과정과 같이 최소 두 명의 연구자가 독립적으로 수행하여 같은 문헌에서 추출한 값에 대한 일치도와 정확도를 높여야 한다. 방법론 전문가와 해당분야 임상전문가가 짝을 이루어 상호보완적으로 자료추출을 하는 것이 이상적이다. 때로는 한 연구자가 추출을 하고 다른 연구자가 검토하는 방식으로 진행되기도 한다. 연구자에 따라 자료추출 과정에서 문헌분류, 비뚤림 위험평가를 동시에 수행하기도 한다. 

 

본격적인 자료추출 전에 예비추출(pilot test)을 5~10편 정도의 문헌을 대상으로 실시하는 것을 추천하며, 그 결과를 바탕으로 자료추출형식(data extraction form)을 최종화한다. 예비추출을 실시할 문헌은 다양한 종류의 연구디자인, 최근 문헌과 오래된 문헌 등 다양한 경우에 대해서 실시하여 자료추출 시 발생할 수 있는 여러 상황들에 대해 미리 대비하여 최종 자료추출 형식을 최종화한다. 


이때 모든 결과지표의 값을 추출하는 것 보다는 연구목적에 맞는 주요 결과지표 값을 추출하는 것이 중요하며, 이를 선정할 때에는 해당 분야의 임상 전문가와 충분한 상의를 거쳐야 한다.



자료추출에 포함되면 좋은 항목 


자료추출에 포함되면 좋은 항목은 서지정보(저자, 출판년도), 연구방법(연구설계, 수행기간 등), 연구대상(총 대상 수, 진단기준, 나이/성별/중증도/동반질환 등 대상의 특징 등), 중재군(대상 수, 중재방법, 중재방법의 특성, 중재의 강도, 동반약물 병용여부 등), 비교군(대상 수 등), 중재결과(정의, 단위, 자료수집 시기 등), 연구결과(효과측정치, 신뢰구간, 결측치 등), 기타사항(회사의 재정지원 여부 등) 등이다. 


자료추출 내용을 바탕으로 연구특성표와 결과제시표를 작성한다. 정량적인 분석(메타분석)을 할 경우에는 엑셀이나 분석 소프트웨어에 자료를 입력해야 하기 때문에 연구자에 따라 자료추출을 할 때에 연구특성표와 결과제시표를 처음부터 별도로 작성하고, 결과제시표는 엑셀에 직접 기입하기도 한다. 자료추출에 대한 예시는 [표 1]을 참고하기 바란다.


[표 1. 자료추출 예시] 




자료추출은 문헌들에서 제시하고 있는 자료들을 추출하는 과정이므로 편향되지 않고 재현성 있게 진행되어야 한다. 특히 메타분석을 위해 자료를 추출할 때는 통계적인 이해와 결과지표에 대한 이해, 해당분야에 대한 임상적 이해 등이 필요하고 주관적인 판단을 필요로 하는 경우도 있으므로 숙련된 방법론자와 임상 전문가에 의해 수행되는 것이 중요하다.


자료를 추출할 때 각 연구에서 보고하는 연구결과 형태가 다를 수 있으므로 메타분석을 위해서는 통일된 형식으로 자료를 변환할 필요가 있다. 예를 들면 어떤 연구에서는 95% 신뢰구간을 제시하였는데 다른 연구에서는 표준편차나 표준오차를 제시한 경우가 있다. 메타분석을 위해서는 모두 같은 형식으로 자료가 정리가 되어야 하기 때문에 일관성 있는 형태로 자료추출을 하는 것이 중요하며 이 단계에서 실수가 빈번히 발생하기 때문에 주의를 기울일 필요가 있다.

 


| 결과지표에 대한 자료종류 


결과지표에 대한 효과측정치 등의 요약통계량을 추출할 때는 결과지표의 자료종류를 잘 파악하고 이에 알맞은 형태로 자료추출을 실시하는 것이 중요하다. 결과지표의 자료종류는 크게 이분적 자료(dichotomous data), 연속적 자료(continuous data), 생존형 자료(survival data), 순서형 자료(ordinal data), 계수형 자료(count data) 등이 있는데 대부분 이분적 또는 연속적 자료의 형태를 띤다.

 

1) 이분적 자료 

이분적 자료인 경우 효과측정치는 상대위험도(risk ratio 또는 relative risk), 오즈비(odds ratio), 위험차(risk difference), number needed to treat(NNT) 등이 있는데 대부분 상대위험도 또는 오즈비를 사용하고 있다. 이분적 자료의 메타분석을 위해서는 중재군과 비교군의 사건이 일어난 환자 수와 일어나지 않은 환자 수, 즉 연구 당 총 네 개의 값이 추출되어야 한다. 만일 환자 수가 아닌 중재법의 효과측정치로만 자료가 제시된 경우는 효과측정치와 로그변환된 효과측정치에 대한 표준오차, 즉 총 연구 당 두 개의 값이 추출되어야 한다. 


모든 연구들에서 이렇게 일관성 있게 자료를 제시하고 있지 않으므로 통계적인 지식을 이용하여 자료의 변환이 필요하며 본고에서는 구체적인 공식들을 제시하기에 지면의 제한이 있기 때문에 구체적인 공식들은 NECA 체계적 문헌고찰 매뉴얼 Part 2. 메타분석을 참조하기 바란다.

 

2) 연속형 자료 

연속형 자료인 경우 효과측정치는 평균차(mean difference) 또는 표준화된 평균차(standardized mean difference)가 있다. 메타분석을 위해서는 중재군과 비교군의 평균, 표준편차, 환자 수에 대한 자료가 필요하다. 이때 각 군의 연구종료 시점에 나타난 최종값에 대한 평균과 표준편차를 사용할지, 기저(baseline)값에서 최종값 사이의 변화량에 대한 평균과 표준편차를 사용할지는 연구자가 결정하여 일관성 있게 자료를 추출하면 된다. 최종값 또는 변화량 중 어느 값을 사용해야 하는지에 대해서는 몇 개의 방법론적인 연구는 진행되었으나 명확한 지침은 없는 실정이다. 변화량 값을 사용한 경우 메타분석 결과가 기저치와 최종값 간의 상관관계에 영향을 많이 받는 것으로 나타났다. 코크란 핸드북에 의하면 최종값을 사용하는 것을 권유하고 있다.

 

메타분석을 위한 자료추출은 생각보다 시간이 다소 소요되며 대부분의 경우 자료변환을 통해 일정한 형식을 갖추는 과정을 거치게 되므로 다양한 통계학적인 지식이 필요하다. 이를 위해서는 자료변환에 대한 기본적인 통계적 지식을 갖추는 것이 필요한 한편, 다양한 경우에 대해서 방법론 문헌을 검색하고 찾아서 이해하고 적용할 수 있는 능력이 필요하다. 

 

 

 [참고문헌]

1. 김수영 등. NECA 체계적 문헌고찰 매뉴얼. 한국보건의료연구원. 2011.

2. Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane Collaboration, 2011. Available from www.cochrane-handbook.org.