如何设计良好的前瞻性诊断准确性试验：意义篇

2018.11.30 15:52

1703 0 0

1.只有前瞻性前瞻连续招募才能保证研究对象的代表性

作者在描述研究对象招募时，研究者写道：：We prospectively enrolled 287 consecutive patients presenting to the ED of the University Hospital Basel with dyspnoea as the most prominent symptom from April 2006 to March 2007。在这句话中，prospective和consecutive是两个极为关键的词。可以毫不夸张地说，这两个词极大地提升了文章的档次。Prospective表示该研究为前瞻性研究，其说服力要强于回顾性研究。Consecutive则表示研究对象是连续招募的，或者说招募到的对象是来自真实世界的对象，因此研究结论具有较强的外推性。

募集到真实世界的研究对象对于诊断试验来说至关重要，我们举一个例子进行说明：假定在真实世界中，每招募到1000个呼吸困难的患者，就会有200个患者是心衰，800个为非心衰，即心衰在呼吸困难人群中的患病率为20%。再假定MR-proANP在某一界值下诊断心衰的敏感性是0.85，特异性是0.90，则我们可以得到如下四格表（表1）。

MR-proANP诊断心衰的价值（前瞻性研究）.png

根据表1可以计算出很多诊断性能指标，包括：敏感性、特异性、阳/阴性预测值、阳/阴性似然比、诊断比数比等。在临床实践中，由于敏感性、特异性这两个指标的临床解释较为繁琐，临床医师更喜欢阳性预测值和阴性预测值这两个指标，因为这两个指标直接告诉临床医师：当MR-proANP阳(阴)性时，患者患心衰(未患心衰)的概率是多少。假定一个患者的MR-proANP为阳性，根据表1的结果，我们可以推测中，患者患心衰的概率是170/(170+80)=0.68。这个0.68是基于真实世界人群得出的数据，所以可以在临床上推广。

但如果一项研究是回顾性研究，由于真实世界已经一去不复返了，研究者去确定心衰发病率就会困难重重。由于部分患者在就诊期间可能没有接受MR-proANP检查，即便研究者采用“连续回顾”的方式回溯过去一段时间内所有因呼吸困难而就诊的患者的资料，也无法得知心衰真实的发病率。假定非心衰患者中会有部分人群因数据不全而被排除出研究，很有可能得到以下数据（表2）。

MR-proANP诊断心衰的价值（回顾性研究）.png

由于敏感性和特异性不受发病率的影响，所以表2中MR-proANP的诊断敏感性仍然为0.85，特异性仍然为0.90。但如果再计算阳性预测值，则为170/(170+40)=0.81。也就是说，如果一个患者MR-proANP为阳性，其患心衰的可能性变成了81%。

在表1和表2中，敏感性和特异性均未发生变化，但是直接影响临床决策的阳性预测值却变化了。很显然，由表1中的阳性预测值要比表2中的阳性预测值可靠，因为表1中的样本代表性较好，心衰发病率的数据较为准确。

在诊断准确性试验中，前瞻性研究的论证强度要高于回顾性研究，原因之一就在于前瞻性研究：

①资料相对完整；

②可以连续招募病人确保研究对象具有代表性。

需要说明的是，在国内杂志上刊登的诊断准确性论文，很多设立了健康对照，这是一种十分不严谨的试验设计。健康个体和疾病之间仅凭症状、体征就可以大致鉴别出来，根本不需要任何诊断实验。

2.双盲设计十分重要

在材料和方法、摘要中，作者提到了一个十分重要的实验设计信息：患者在进行终诊断时并未参考NT-proBNP和MR-proANP的检测结果；负责检测NT-proBNP和MR-ProANP的检验师(待评价手段的执行者)也不知晓患者的临床资料。这是一个十分重要的试验设计细节，我们将其称之为诊断试验中的“双盲设计”，其意义在于保证实验结果的准确性。

试想，如果坐诊医师在诊断疾病时参考了患者的NT-proBNP或MR-proANP检查结果，则很有可能会将一些“本不是心衰，但是NT-proBNP或MR-proANP水平较高”的受试对象误判为心衰；或者将一些本来是心衰，但是NT-proBNP或MR-proANP水平较低的患者误判为非心衰。这种设计会在一定程度上夸大NT-proBNP或MR-proANP的诊断价值。

如果待评价手段的实验室标志物，临床资料是否对待评价手段执行者(检验师)设盲可能对结果的影响不是很大，毕竟终是靠仪器检测得出的客观结果，而不是靠待评价手段执行者的主观结论。但如果待评价实验室一些量表，或者需要主观判断的实验室测试（比如、免疫组化、免疫沉淀），那是否设盲的对结果的影响就十分大了。

以免疫组化为例，如果报告免疫组化结果的实验室检验师预先知悉了患者的临床资料，则在进行组化结果判断的时候无法做到客观公正，会有意无意地将结果往疾病或方疾病方向判读，终夸大免疫组化的诊断性能。

总之，双盲设计是诊断试验设计中为重要的一环。纵观国际上高水平的诊断准确性试验，不论待评价手段是主观检查还是客观检查，都采用了双盲的设计。

3.公平的比较环境才能得出可靠的结论

在部分诊断准确性试验中，研究者的研究目的仅仅是比较两种或多种诊断手段的优劣。以本研究为例，其核心研究内容就是比较NT-proBNP和MR-proANP在呼吸困难人群中诊断心衰的性能。由于这是在同一队列人群中展开的比较，我们称之为 “头对头(head to head)”的比较，或者说直接比较。相应地，如果是在不同的人群中展开的比较，则为间接比较。

值得注意的是，在本研究中，除了检测NT-proBNP和MR-proANP以外，研究者还检测了另一个心衰指标BNP。但为何作者不拿BNP与NT-proBNP或MR-proANP比较呢？这里牵涉到一个实验设计的问题。BNP的检测并未对负责诊断的临床医师设盲，而NT-proBNP以及MR-proANP是对临床医师设盲的，如果直接比较BNP与NT-proBNP或MR-proANP，这就是一种不“公平”的比较，因为BNP会先入为主地影响临床医师的诊断，但是NT-proBNP或MR-proANP不会。当然，NT-proBNP和MR-proANP都是对临床医师设盲的，所以他们之间的比较是可以进行的。

两种诊断手段的比较类似于法庭上原告与被告的较量，一定要考虑“公平”，核心的问题就是：原告或被告绝对不能先入为主地影响法官的判断，换而言之，如果是比较两种诊断手段，那么任何一种诊断手段都不能先入为主地影响临床医师的终诊断。

比如，有研究比较了类风湿因子(RF)和抗波形蛋白抗体(抗MCV抗体)对类风湿关节炎的诊断价值。众所周知，RF是十分成熟的类风湿关节炎诊断标记物，且早已被列入类风湿关节炎诊断标准。相比之下，MCV并不是类风湿关节炎的诊断标准之一。在此大背景下，比较RF与抗MCV抗体的诊断价值显然有悖公平原则，结果当然也是不可靠的。

标签：设计前瞻性诊断准确性试验

投诉文章 ©著作权归作者所有

喜欢 | 0

快给朋友分享吧！

分享到微博

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

0/200字

更多评论没有更多评论了~

在线工具

如何设计良好的前瞻性诊断准确性试验：意义篇