如何设计良好的前瞻性诊断准确性试验:意义篇

2018.11.30 15:52
1703 0 0

1.只有前瞻性前瞻连续招募才能保证研究对象的代表性

       作者在描述研究对象招募时,研究者写道::We prospectively enrolled 287 consecutive patients presenting to the ED of the University Hospital Basel with dyspnoea as the most prominent symptom from April 2006 to March 2007。在这句话中,prospective和consecutive是两个极为关键的词。可以毫不夸张地说,这两个词极大地提升了文章的档次。Prospective表示该研究为前瞻性研究,其说服力要强于回顾性研究。Consecutive则表示研究对象是连续招募的,或者说招募到的对象是来自真实世界的对象,因此研究结论具有较强的外推性。

       募集到真实世界的研究对象对于诊断试验来说至关重要,我们举一个例子进行说明:假定在真实世界中,每招募到1000个呼吸困难的患者,就会有200个患者是心衰,800个为非心衰,即心衰在呼吸困难人群中的患病率为20%。再假定MR-proANP在某一界值下诊断心衰的敏感性是0.85,特异性是0.90,则我们可以得到如下四格表(表1)。

MR-proANP诊断心衰的价值 (前瞻性研究).png

       根据表1可以计算出很多诊断性能指标,包括:敏感性、特异性、阳/阴性预测值、阳/阴性似然比、诊断比数比等。在临床实践中,由于敏感性、特异性这两个指标的临床解释较为繁琐,临床医师更喜欢阳性预测值和阴性预测值这两个指标,因为这两个指标直接告诉临床医师:当MR-proANP阳(阴)性时,患者患心衰(未患心衰)的概率是多少。假定一个患者的MR-proANP为阳性,根据表1的结果,我们可以推测中,患者患心衰的概率是170/(170+80)=0.68。这个0.68是基于真实世界人群得出的数据,所以可以在临床上推广。

       但如果一项研究是回顾性研究,由于真实世界已经一去不复返了,研究者去确定心衰发病率就会困难重重。由于部分患者在就诊期间可能没有接受MR-proANP检查,即便研究者采用“连续回顾”的方式回溯过去一段时间内所有因呼吸困难而就诊的患者的资料,也无法得知心衰真实的发病率。假定非心衰患者中会有部分人群因数据不全而被排除出研究,很有可能得到以下数据(表2)。

MR-proANP诊断心衰的价值 (回顾性研究).png

       由于敏感性和特异性不受发病率的影响,所以表2中MR-proANP的诊断敏感性仍然为0.85,特异性仍然为0.90。但如果再计算阳性预测值,则为170/(170+40)=0.81。也就是说,如果一个患者MR-proANP为阳性,其患心衰的可能性变成了81%。

在表1和表2中,敏感性和特异性均未发生变化,但是直接影响临床决策的阳性预测值却变化了。很显然,由表1中的阳性预测值要比表2中的阳性预测值可靠,因为表1中的样本代表性较好,心衰发病率的数据较为准确。

在诊断准确性试验中,前瞻性研究的论证强度要高于回顾性研究,原因之一就在于前瞻性研究:

①资料相对完整;

②可以连续招募病人确保研究对象具有代表性。

       需要说明的是,在国内杂志上刊登的诊断准确性论文,很多设立了健康对照,这是一种十分不严谨的试验设计。健康个体和疾病之间仅凭症状、体征就可以大致鉴别出来,根本不需要任何诊断实验。

2.双盲设计十分重要

       在材料和方法、摘要中,作者提到了一个十分重要的实验设计信息:患者在进行终诊断时并未参考NT-proBNP和MR-proANP的检测结果;负责检测NT-proBNP和MR-ProANP的检验师(待评价手段的执行者)也不知晓患者的临床资料。这是一个十分重要的试验设计细节,我们将其称之为诊断试验中的“双盲设计”,其意义在于保证实验结果的准确性。

       试想,如果坐诊医师在诊断疾病时参考了患者的NT-proBNP或MR-proANP检查结果,则很有可能会将一些“本不是心衰,但是NT-proBNP或MR-proANP水平较高”的受试对象误判为心衰;或者将一些本来是心衰,但是NT-proBNP或MR-proANP水平较低的患者误判为非心衰。这种设计会在一定程度上夸大NT-proBNP或MR-proANP的诊断价值。

       如果待评价手段的实验室标志物,临床资料是否对待评价手段执行者(检验师)设盲可能对结果的影响不是很大,毕竟终是靠仪器检测得出的客观结果,而不是靠待评价手段执行者的主观结论。但如果待评价实验室一些量表,或者需要主观判断的实验室测试(比如、免疫组化、免疫沉淀),那是否设盲的对结果的影响就十分大了。

       以免疫组化为例,如果报告免疫组化结果的实验室检验师预先知悉了患者的临床资料,则在进行组化结果判断的时候无法做到客观公正,会有意无意地将结果往疾病或方疾病方向判读,终夸大免疫组化的诊断性能。

       总之,双盲设计是诊断试验设计中为重要的一环。纵观国际上高水平的诊断准确性试验,不论待评价手段是主观检查还是客观检查,都采用了双盲的设计。

3.公平的比较环境才能得出可靠的结论

        在部分诊断准确性试验中,研究者的研究目的仅仅是比较两种或多种诊断手段的优劣。以本研究为例,其核心研究内容就是比较NT-proBNP和MR-proANP在呼吸困难人群中诊断心衰的性能。由于这是在同一队列人群中展开的比较,我们称之为 “头对头(head to head)”的比较,或者说直接比较。相应地,如果是在不同的人群中展开的比较,则为间接比较。

        值得注意的是,在本研究中,除了检测NT-proBNP和MR-proANP以外,研究者还检测了另一个心衰指标BNP。但为何作者不拿BNP与NT-proBNP或MR-proANP比较呢?这里牵涉到一个实验设计的问题。BNP的检测并未对负责诊断的临床医师设盲,而NT-proBNP以及MR-proANP是对临床医师设盲的,如果直接比较BNP与NT-proBNP或MR-proANP,这就是一种不“公平”的比较,因为BNP会先入为主地影响临床医师的诊断,但是NT-proBNP或MR-proANP不会。当然,NT-proBNP和MR-proANP都是对临床医师设盲的,所以他们之间的比较是可以进行的。

       两种诊断手段的比较类似于法庭上原告与被告的较量,一定要考虑“公平”,核心的问题就是:原告或被告绝对不能先入为主地影响法官的判断,换而言之,如果是比较两种诊断手段,那么任何一种诊断手段都不能先入为主地影响临床医师的终诊断。

       比如,有研究比较了类风湿因子(RF)和抗波形蛋白抗体(抗MCV抗体)对类风湿关节炎的诊断价值。众所周知,RF是十分成熟的类风湿关节炎诊断标记物,且早已被列入类风湿关节炎诊断标准。相比之下,MCV并不是类风湿关节炎的诊断标准之一。在此大背景下,比较RF与抗MCV抗体的诊断价值显然有悖公平原则,结果当然也是不可靠的。


投诉文章 ©著作权归作者所有
喜欢  |  0
0/200字
没有更多评论了~
悬赏问题
给科研问题设置一定金额,将更容易获得关注与回答哦~
  • 1元
  • 3元
  • 5元
  • 8元
  • 18元
  • 自定义
选择支付方式
  • 微信支付
  • 支付宝支付
  • 余额支付
Copyright © 2014-2019 晟斯医学 All Rights Reserved. 备案号:苏ICP备11037034号-5 版权所有:南京孜文信息咨询有限公司