안녕하세요. 보건의료에 대한 글을 올려드리는 여왕의심복입니다.
1월 13일 국내 제약사가 개발한 코로나 19 항체치료제 레그단비맙에 대한 결과 발표와 보도자료 공개가 있었습니다. 학회 발표를 바탕으로한 결과 해석을 작성해드렸습니다. 이후 인터넷사이트 등에서 자세한 치료결과에 대한 캡쳐 자료 등이 공개되었고, 결과에 대한 논란이 가중되고 있습니다. 이에 대해 비판적으로 해석하였습니다.
*저는 어떠한 국내 제약사, 바이오회사와도 경제적 관계가 없습니다.
저는 국내 제약사의 항체 치료제에 대해' 항체 치료제는 의료체계의 부담을 일부 경감시키고, 치료 수단이 있다는 안정감을 제공할 수 있습니다. 그러나 사회적거리두기, 백신 접종과 같은 방역정책의 근간에 변화는 없습니다. 결국 감염 후 치료보다는 걸리지 않는 것 자체가 더 중요하다는 의미입니다.' 라는 의견을 드린적이 있으며, 이 글의 내용과 무관하게 이러한 관점을 현재도 가지고 있습니다.
1. 개요아래 사항에 대해 주요 정보를 정리하고 제 의견을 말씀드리고자 합니다. 주요 논점은 세가지 입니다.
(1) 사전 정의된 연구 설계에 대한 의문 - 과연 연구 설계와 분석이 사전에 의도한 것이었는가?
(2) 추가적 결과 공개의 필요성 - 발표에 있어서 빠진 정보는 무엇인가?
(3) 회사의 행동에 대한 비판 - 신뢰받기 위해 필요한 것들
2. 선행지식오늘 제 글을 이해하시기 위해서는 몇가지 선행 지식이 필요합니다. 최대한 간결하게 정리하였습니다.
(1) 임상시험의 방식
- 현재 제약산업의 임상시험은 총 3단계 내지 4단계로 구성됩니다. 1상 임상시험은 사람에게 최초로 투약되는 연구로 안전성, 부작용, 최적용량, 용법을 결정하기 위한 연구입니다. 2상 임상시험은 효과를 본격적으로 측정하기 위한 연구로 300명 내외의 사람을 대상으로 무작위배정을 통해 시행됩니다. 3상 임상시험은 더 큰 규모로 신약의 임상적 가치를 측정하기 위해 현재 증명된 치료방법(이 없다면 위약) 대비 신약의 효과를 측정합니다. 4상 임상시험 또는 시판후 임상시험은 3상 시험과 허가 후 실제 의료현장에서의 효과와 안전성을 증명하는 연구입니다.
- 임상시험은 3상 임상시험이 가장 중요하게 여겨지는데, 이는 '무작위 배정', '이중 맹검', '큰 대상자수'의 3가지 조건을 만족하기 때문입니다.
(2) 무작위 배정과 이중 맹검
- 무작위 배정과 이중 맹검은 현대 의학 연구에서 가장 중요한 요소 중 하나입니다. 연구 결과는 우리가 예상하지 못한 여러 요인에 의해서 편향될 수 있는데, 이를 교란변수라고 합니다. 교란변수의 대표적인 예시는 '커피가 폐암을 일으킨다.'라는 주장입니다. 하지만 실제 인과관계를 보면 커피를 많이 마시는 사람은 담배를 많이 피게되고, 담배에 의해서 폐암이 발생하는 것이고, 커피는 그 원인이 아닙니다. 이러한 관계를 교란변수의 작용이라고 합니다.
- 임상시험에서 교란 변수를 통제하기 위한 여러방법이 있지만 가장 좋은 해결방법은 무작위 배정입니다. 무작위 배정(Randomization)은 말 그대로 어떤 의도가 아니라 무작위로 임상시험 대상자를 위약군과 투약군에 배정하는 방법입니다. 이렇게 무작위로 배정될 경우 충분한 연구 대상자 수가 되면 연령, 성별, 흡연, 중증도, 기저 질환 등의 교란요인으로 작용할 수 있는 변수들의 비율이 자연스럽게 맞춰집니다. 따라서 교란 변수가 대부분 통제될 수 있습니다. 그러나 무작위 배정도 확률적인 분포를 따라가므로, 숫자가 충분하지 않을 경우 일부 변수들에서는 큰 차이가 발생할 수 도 있습니다. 이는 의도하지 않지만 연구결과에 영향을 줄수 있기 때문에 연구자들은 가급적 연구대상자수를 많이 확보하기 위해서 노력합니다.
- 이중 맹검(Double blinding)은 환자와 의사 모두가 자신이 임상시험에서 위약군인지 실제 약을 투여받았는지를 모르게 하는 것입니다. 이는 환자가 어디에 배정받았는지 알게되어 생기는 교란요인은 차단하는 효과를 가집니다. 현대 임상시험에서는 맹검을 더 강화하여 시험결과를 분석하는 연구자도 어떤 군이 투약군인지 모르게 하는 삼중 맹검을 실시하기도 합니다.
(3) 통계적 이해
- 이해를 돕기 위해 임상연구에 사용되는 중요한 통계적 개념을 정리하였습니다. 엄밀하지는 않고 실용적인 설명입니다.
가. 연구대상자의 수와 기초 특성
- 무작위 배정이 이루어지더라도 연구대상자 수가 적으면 일부 변수들에서 분포가 달라질 수 있습니다. 간단한 예로 6명(남자 3, 여자 3)의 임상시험대상자가 있다고 가정하면 이를 두군씩 배정하게되면 남자 여자의 수는 1:2, 2:1, 3:0. 0:3으로 배정될 수 밖에없습니다. 아무래 노력해도 2배이상의 비율 차이가 나게되는것이지요. 따라서 연구대상자의 수는 크면 클수록 좋습니다.
- 그러나 임상시험에서 특히 1상, 2상시험에서는 무작정 연구대상자의 수를 늘릴 수 없습니다. 비용과 윤리적 문제가 있기 때문입니다. 따라서 임상 2상시험은 300명 정도의 대상자에게 수행됩니다.
- 임상 2상시험의 결과에 신뢰도에 문제가 되는 몇몇 경우가 있는데 (1) 원하는 결과의 발생률이 매우 낮은경우와 (2) 연령에 따라서 결과가 극단적으로 바뀌는 경우 두가지입니다. 코로나 19의 경우 경증확진자가 중증환자가 되는 비율이 낮은편이고, 연령에 따라서 중증도가 매우 크게 영향을 받으므로 이 경우에 해당됩니다. 따라서 일반적인 경우보다 연구대상자의 수가 더 중요해집니다.
나. P-value에 대한 이해
- P-value는 여러 학문의 분야에서 폭넓게 사용되는 만큼 심하게 오용되는 분야이고, 저도 완전히 이해하고 있다고 장담하기 어렵고 효용성도 의문이 있습니다. 그러나 현대 의학에서는 이미 폭넓게 활용되고 있습니다.
- 의학 연구는 대부분 한 가설에 대한 검증입니다. 즉 지금 상황에서는 '항체치료제가 코로나19확진자의 중증도 발생을 줄인다'라는 가설을 임상시험으로 확인하는 것입니다. 다른 말로는 '항체치료제가 코로나 19확진자의 중증도 발생과는 관계없다.'임을 부정하는 결과를 확인하면 치료제의 효용이 증명됩니다.
- 이 가설을 데이터로 증명하는데 두가지 오류가 있을 수 있습니다. (1) 치료제가 효과가 없는데 시험을 해보니 효과가 있게 나올 수도 있고(1종 오류), 치료제가 효과가 있는데, 시험을 해보니 효과가 없게 나올 수도 있습니다.(2종 오류) 두 오류는 사기꾼과 멍청이로 비유할 수 있습니다. 효과가 없는데 효과가 있다고 말하면 사기꾼이고, 효과가 있는 약을 효과가 없다고 말하면 사업에서 멍청이입니다.
- P-value는 치료제가 효과가 없는데 있다고 말할 1종오류의 확률을 의미합니다. 즉 결과가 사기일 확률을 정량화 한것입니다. 의학 등의 과학계에서는 P-value 5%를 기준으로 정했습니다. 왜 5%냐고 물어보면 여러 답변이 나옵니다만 저는 처음 이 값을 만드신분의 취향이 반영되었다고 생각합니다. 즉 5%가 왜 꼭 5%이냐에 대한 근거는 없습니다. (저는 P값의 기준은 최소 1%이하여야한다고 생각하는 편입니다.)
다. 'a priori'와 'ad hoc'
- 요즘은 P-value가 워낙 중요하게 여겨집니다. 5%이내이냐 아니냐에 따라 여러가지 경제적 이해관계가 걸려있기 때문입니다. 그래서 P-hacking이라는 단어가 등장하였는데, 여러가지 통계적 조건, 연구설계를 변경시켜가면서 5% 미만의 P-value를 찾아서 발표하는 행위입니다.
- P-hacking등의 문제도 그렇고 요즘은 한 연구 내에서도 여러 번 다양한 통계분석을 실시합니다. 따라서 P-value가 적게는 수십 번에서 많게는 수 백, 수 천번 등장합니다. 그렇다면 우연에 의해서 낮은 P-value가 나오는 사례도 늘어나게 됩니다. 독립적 통계검정의 횟수가 늘어나기 때문입니다. 이를 반복 비교(Multiple comparison)의 문제라고 하는데, 5%보다 더 낮은 P-value를 적용하거나 사전에 설계된 가설에 대한 검정만을 수행하는 형태로 이를 해결합니다. 여기서 나오는 개념이 'a priori'와 'ad hoc'의 개념입니다.
- 'a priori'는 '사전에 결정된'이라는 의미이고, 'ad hoc'은 '즉석에서 이후에 수행된'이라는 개념입니다. 즉 연구를 평가할때 P-hacking이라던지, 다중비교의 문제를 얼마나 미리 고려했고, 연구가 믿을만한지를 말하는것 인데 사전에 설정된 가설과 미리 설정된 프로토콜에 따른 분석으로 수행되었으면 'a priori'한 것이고, 나중에 원하는 결과가 나오지 않아 이리저리 다시 분석한 것이면 'ad hoc'한 것입니다. 당연히 임상시험은 'a priori'하게 결정되어 있어야합니다.
3. 국내 항체치료제의 연구결과는 'a priori'한 것인가?
- 연구결과의 신뢰도를 이야기할 때 중요한것이 사전에 설정된 가설과 분석방법에 따른 수행이라는 것을 위에서 설명드렸습니다. 국산 항체치료제의 연구결과에서는 'a priori'한지에 대한 우려가 있습니다.
가. 1차 목표를 달성하였는가?
- 국내 제약사의 2/3상 임상시험은 아래와 같은 1차 목표와 2차 목표를 가집니다.
(1) 1차 목표
* 투여 14일까지 확진자의 음전 여부 (PCR에서 음성으로 나오는)
* 투여 14일까지 임상적 회복
* 투여 28일까지 입원, 산소치료, 사망 등 중증화의 비율
(2) 2차 목표
* 투여 14/28일까지 산소치료 요구율, 중환자실 입실율
* 투여 14/28일까지 사망율
* 투여 14/28일까지 임상적 호전 비율
* 투여 14/28일까지 발열 기간
* 투여 14/28일까지 병원입원, 기계환기, 추가적 약물 투여
* 투여 후 음전까지의 기간
* 안전성
- 임상시험결과발표는 일부군에서의 중증화 감소, 임상적 회복에 걸리는 시간 단축, 체내 바이러스배출량, 안전성에 대한 결과가 발표되었습니다. 즉 1차 목표인 투여 14일까지 확진자 음전여부는 제시되지 않았고, 투여 14일까지의 임상적 회복은 기간 단축만 발표되었습니다.
- 발표된 결과는 대부분 1차, 2차 목표와는 어느정도 관련된 것이므로 임상적 목표는 어느정도 달성한 것입니다만 1차 목표의 첫번째인 음전율을 제시하지 않은 것은 추후 해결되어야합니다.
나. 연구분석은 사전에 설계된 것이었는가?
- 발표결과는 중등도 고위험군을 50세이상의 폐렴이 있는 확진자로 정의하였습니다. 대부분의 발표된 결과의 유의성은 여기서 나타났기 때문에, 왜 고위험군을 50세로 설정하였는지, 이는 의도된 것인지에 대한 의문은 해소되어야합니다.
- 그러나 공개된 결과만으로는 왜 50세 이상을 고위험군으로 정의하였는지는 알기 어렵습니다. 일반적으로 50세나 60세를 기준으로 코로나 19의 중증도가 급격히 증가하므로 미루어 이해는 할 수 있으나, 50세로 고위험군을 정의하였을 때 가장 좋은 결과가 나왔을 가능성을 배제할 수 없습니다
다. 통계 분석은 의도된 것이었는가?
- 제조사의 발표결과는 저용량군, 고용량군과 대조군의 비교를 각각 실시하고, 저용량군과 고용량군으로 합쳐서 분석한 결과를 제시하였습니다. 이는 당연히 제시될 수 있는 방법이긴 하나, 대부분의 유의성을 달성한 군이 저용량군이고, 고용량군에서는 통계적 유의성을 달성하지 못했다는 점에서 문제가 되고 있습니다.
- 주요 결과를 보면 저용량 투여군의 중증화율은 3/40(7.5%)이고, 고용량 군의 중증화율은 4/40(10%)로 대조군 9/38(23.7%)보다 낮습니다. 그러나 통계적 유의성은 두군 모두 5%에 미달하였습니다. 이후 두 군을 병합하여 분석하여 통계적 유의성을 달성했는데, 이는 사전에 설정되었는지의 여부가 중요합니다.(그러나저는 통계적 유의성보다 효과의 크기와 방향의 일관성으로 볼때 무의미한 결과까지는 아니라고 생각합니다.)
- 또한 이 연구결과는 경증과 중등증을 일부 부분에서만 분리되어 발표하였습니다. 바이러스 배출량은 경증과 중등증이 분리발표되지 않았습니다. 경증과 중등증을 분리하여 분석하는 것이 의도된 것인지 확인해야합니다. 발표대로라면 경증확진자에서는 대부분 효과를 보이지 못하는 것처럼 보이지만 경증에 대한 자료는 공개되어 있지 않습니다.
4. 추가적 결과 공개의 필요성 - 빠져있는 정보
(1) 기초 특성
- 학회발표는 매우 짧은 시간이며, 축약되어 발표됩니다. 따라서 여러 생략과 요약이 필요합니다. 그러나 이번 발표에서는 각 군의 기초특성이 발표되지 않았습니다. 대상자 수가 적은 연구는 한 두명의 군 변화만으로도 결과가 크게 변하므로 반드시 기초특성에 대한 결과가 제시되어야합니다. 예를 들어서 50세 이상 중등증 고위험군에서 투약군간에서 연령차이가 발생한다면 중증도는 연령에 크게 영향을 받으므로 무작위 배정 연구이지만 교란변수로 작용할 수 있습니다.
(2) 비균일한 결과 평가 기준
- 중증도의 기준은 입원 또는 산소치료 또는 사망입니다. 사망은 2상시험중 발생하지않았으므로 제외하더라도, 입원 또는 산소치료는 각 국가마다 경중이 매우 다릅니다. 임상시험에 포함된 해외의 경우는 재택치료를 하다 증상악화가 발견되면 입원하고 더 진행되면 산소치료를 하지만, 국내 확진자는 생활치료센터 또는 고위험군의 경우 입원을 하게되므로 기본적으로 고위험군은 입원을 하고 있을 가능성이 높습니다. 즉 결과변수가 임상시험의 각 국가별로 일정하지 않습니다. 국가별이나 중증화의 기준을 달리한 분석 결과 공개가 필요합니다.
(3) 양반응 관계의 부재
- 현재 발표결과는 고용량 투여군에서는 통계적 유의성 달성을 하지 못하거나, 분리된 결과가 발표되지않았습니다. 일반적인 논리는 용량이 늘어나면 최소한 동등한 효과는 보이는 것이 일반적이므로 이에 대한 설명이 필요합니다.
(4) 적은 대상자수와 관심이벤트의 비율
- 이 연구에서 중요한 관심이벤트는 사망, 인공호흡기 적용, 입원입니다. 그러나 실제 이런 경험을 한 환자가 10%가 되지않고 이는 결과를 판단하는데 큰 문제가 됩니다. 즉 2상 연구의 적은 대상자수가 그대로 문제가 되는 것입니다. 따라서 일반적인 상황에서는 3상 연구까지 수행한 후 사용을 하는 것입니다.
(5) 두군이 동일하다는 가정하에서 이루어지는 분석
- 현재 연구 결과는 대부분 2개 미만의 독립변수로 분석이 이루어지고 있습니다. 즉 중증화율, 시간에 따른 분석 등은 두 군이 통계적으로 균일하다는 가정을 하고 있습니다. 무작위 배정이 이루어진 경우 이 가정은 대부분 충족하게 되지만, 2상 임상시험 특히 군을 세분화한 분석에서는 투약군과 위약군이 균일한지 보여주고 분석을 시행하거나, 최소한 연령 등의 요인을 보정한 분석을 적용해야합니다.
5. 제조사의 정보공개와 의도의 투명성
- 국민적 관심사인 항체치료제는 모든 정보가 가급적 투명하게 공개되어야합니다. 일반적인 신약사용단계를 뛰어넘는 긴급승인 대상이며, 아직까지 3상 임상시험의 결과가 공개되지 않았기 때문입니다. 위에서 제기한 문제는 3상 임상시험이 끝나면 모두 증명이 됩니다만, 이 약은 2상 이후 긴급승인을 기다리고 있습니다. 따라서 더 투명한 정보가 필요합니다.
(1) 통계적 유의성이 담보되지 않은 결과 발표
- '경증 및 중등증 환자가 입원치료를 필요로 하는 중증으로 발전하는 발생률에서는 렉키로나주 확정용량(40㎎/㎏) 기준으로 위약군과 비교 시 전체 환자에서 54%, 50세 이상 중등증 환자군에서 68% 감소했다.' 등의 표현은 과학적으로 엄밀한 표현은 아닙니다.
(2) 전체 연구 결과 공개의 부재
- 결국 연구 성과를 증명하는 것은 연구결과를 학술지에 발표하는 것입니다. 위에서 제시한 의문에 대한 해답이 최소한 규제당국에는 전달되기 바랍니다.
(3) 지나친 표현
- 이 연구결과는 위약과 국산치료제를 비교한것으로 타 약제와의 우수성을 증명할 수 없습니다. 또한 보도자료에서 명시된 논문은 전임상단계의 논문으로 2상 연구결과가 아님에도 불구하고 오인될 수 있는 위치에 표기되고 있습니다.
6. 요약
- 국산 항체치료제의 결과 발표는 긍정적인 면이 일부 있습니다. 그러나 그 결과를 바탕으로 긴급승인하고 현장에서 사용하기 위해서는 더 투명한 추가정보 공개가 있어야합니다. 특히 몇몇 부분은 논란의 소지가 있어 과학적 접근을 통해 이를 해소하는 것이 필요합니다.