为什么骨龄评价要进行“质量控制”?如何去做?
发布时间: 2023-08-16 预览次数:

和任何科学实验方法一样,骨龄评价方法也存在有系统误差和随机误差。检验骨龄评价的可靠性,不仅对评价的方法学有深入的了解,更重要的是能够对骨龄评价结果做出正确的估价,增强不同评价者之间评价结果的一致性,提高实践应用的工作质量。

一、国际间应用G-P图谱和TW法骨龄评价一致性的检验研究

骨龄评价方法的可靠性主要表现在两个的方面,一是评价者本人的读片重复性,称为评价者内的重复性;二是多名评价者之间的读片重复性,称为评价者间的重复性。

G-P图谱法和TW计分法是国际上应用非常广泛的骨龄评价方法。二十世纪六十年代,巴黎国际儿童中心在组织协调欧洲8个国家的儿童生长研究时,曾经对G-P法和TW1方法进行了系统的比较研究(Acheson et al., 1963, 1964, 1966)。来自不同国家的6名评价者,使用G-P图谱和TW1方法评价50名2~18岁儿童的手腕X线片,结果发现G-P方法的系统误差较小,TW1方法的随机误差较小;但如果排除了腕骨,则TW1方法的系统误差明显下降,与G-P方法的差异显著性消失。比较研究的结果引起了Tanner et al.的注意,在1975年对TW1方法进行了修改而提出TW2法。在TW2 法中取消了评价困难的发育等级(桡骨、尺骨和头状骨、三角骨、月骨、舟骨、大多角骨和小多角骨的最后一个发育等级),以提高读片可靠性。

TW2方法的原作者(Tanner et al., 1994),以及长期从事儿童生长发育研究的工作者(Beunen et al., 1980; Tarabger et al., 1976; Wenzwl and Melsen, 1982)以TW2-RUS方法重复读片,等级相同的例数在81%~94%左右,骨龄读数的95%置信区间为±0.5到±0.6岁;使用TW2–Carpal方法,评价者内等级相同的例数在80.6%~92.3%,骨龄读数的95%置信区间为±0.48岁至±0.72岁。评价者间的读片重复性较低,TW2-RUS和TW2-Carpal方法的评价者间的重复性分别在74.4%~80.5% 和74.1%~88.0%。但是,评价者间的重复性在不同个体间也有很大的差异,比利时的Beunen G.(1980)通过自学掌握TW2方法后,与TW2方法原作者Whitehouse R.H., Cameron N.进行了比较研究,以TW-20方法重复阅读112张X线片,评价者之间骨发育等级相同的例数在83%以上。但在Baughan et al.(1979)和Medicus et al.(1971)的研究中,2名或3名评价者间重复读片的一致性则较低,TW-RUS骨在76%~82%,腕骨在72%~74%之间。

二、《中国人手腕骨发育标准-中华05》 RUS-CHN法和TW3-C Carpal法的读片可靠性检验:

在国内,《中国人手腕骨发育标准-中华05》课题组首次对骨龄评价方法可靠性进行了较为全面的研究(张绍岩等,2006)。他们根据从事骨龄评价工作年限、是否参加过读片培训、以及每年阅读X线片的数量将11名评价者分为三类:

有经验者:从事骨龄评价工作在5年以上,曾经参加原《中国人骨发育标准-CHN法》培训1次以上,平均每年读片数量在1000例以上者。

较有经验者:从事骨龄评价工作在3年以上,曾经参加CHN法培训或有自学经历,平均每年读片数量在1000例以下者;

无经验者:无骨龄评价经历者;或使用G-P方法读片者;或虽然参加过原《中国人骨发育标准-CHN法》培训或自学,但日常读片数量较少者。

所有评价者集中培训3天,然后在不知儿童年龄、性别的情况下,11名评价者使用RUS-CHN法以随机顺序独自阅读75名正常儿童的左手腕部X线片,其中6名评价者同时评价TW3-C Carpal法的骨发育等级。20天后,所有评价者使用相同的评价方法,在一天时间内独自重复阅读同一组儿童的手腕部X线片。检验结果如下:

1、评价者内的可靠性:

(1)RUS-CHN法:

各评价者使用RUS-CHN法重复读片,等级相同例数的百分数平均在63.4%~82.2%之间。重复读片不一致的等级主要出现在相邻等级上,相差2个等级的例数很少,相差2个等级例数的百分数的平均数在1.3%~2.9%。根据重复率可将评价者分为三类:

有经验者、较有经验者和部分无经验者,等级相同的重复率相似,在78.0%~82.2%;

1名无经验者,等级相同的例数为74%;

2名无经验者等级相同的例数在63.4%~67.6%。

所有评价者骨龄读数的95%置信区间在±0.40岁~±0.76岁,除了几名无经验者外,大部分评价者本人重复读片的随机误差在±0.6岁以下的适当范围之内。

(2)TW3-C Carpal法:

6名评价者参加了TW3-C Carpal法的可靠性检验。也可将评价者分为三类:

有经验者的重复性较高,82.1%~83.2%;

较有经验者和部分无经验者的读片重复性在72.1%~74.4%;

2名无经验者等级相同的例数在65.6%~70.1%。

所有评价者骨龄读数的95%置信区间为±0.32~±0.71岁,有5名评价者的随机误差在±0.60岁以下,2名无经验者在±0.60岁以上,分别为±0.68和±0.72,分别有评价偏低和偏高的系统误差。

    2、评价者间的可靠性:

(1)RUS-CHN法:

各评价者与制订中华05标准的读片员相比,骨发育等级相同的例数平均在61.3%~77.3%。由此可见评价者间的等级重复性均低于评价者内的重复性。评价者间的重复性分为3类:

有经验者、较有经验者和1名无经验者,其评价者间的重复性在73%~77%;

部分无经验者评价者间的重复性在69%~70%;

部分无经验者评价者间的重复性在65%左右(61%~66%)。

在各评价者骨龄读数的95%置信区间为±0.42~±0.96岁。评价者间等级重复性在75%左右的5名评价者的随机误差在±0.60岁以下(±0.41~±0.58岁);评价者间等级重复性在61%~70%的评价者(无经验者)的随机误差大于±0.60岁(±0.64~±0.96岁)。

(2)TW3-C Carpal法:

各评价者与制订中华05标准的读片员相比,评价者间腕骨等级的重复率在77.4%~88.0%,普遍高于RUS-CHN方法:

有经验者和1名较有经验者,评价者间等级相同例数的平均数在86%~88%;

部分无经验者。等级相同例数平均在82%~84%;

一名无经验者,等级相同例数的平均数在77%。

有经验者、较有经验者以及1名无经验者骨龄读数的95%置信区间在±0.60岁以下,1名无经验者在±0.60岁以上。

    通过上述的检验说明,RUS-CHN法与TW3-C Carpal法的可靠性与TW3-RUS法基本相同。在有不同经验的评价者之间,骨龄评价的可靠性有显著性差异;有经验者读片可靠性水平较高,少数无经验者通过一次学习培训可以达到较有经验者的类似水平,但大部分无经验者可靠性水平较低。这些研究不经说明读片练习与经验是取得可靠骨龄结果的基础,而且也说明了通过可靠性检验,实行读片质量控制的重要性。

三、骨龄读片质量控制方法

(一)、评价者内的读片可靠性检验:

(1)计算重复率:应用者应选择、阅读一定数量的手腕骨部X线片(最好在50张以上),年龄范围应包括所欲应用年龄段。相隔一段时间后(应至少15天以上),重复读片,比较两次读片结果,统计相同等级例数的百分数,判断重复性。如果分别统计每块骨的重复率,还可以分析出那一块骨,或哪些发育等级的重复性较差,使用图谱法时,通过检验可发现重复读片差异较大的年龄范围,然后重点学习、练习,以提高重复性。

(2)计算骨龄读数95%的置信区间:该统计量说明了所评价骨龄的随机误差范围,计算公式为:

±t0.05√(∑d2/2n),

其中∑d2为两次读片骨龄差值的平方和,n为X线片的数量,t0.05为t检验中0.05水平上的t值。

(3)系统误差:分别计算两次读片骨龄的平均数和标准差,比较平均数的差异,观察系统误差的大小,并同时进行两相关样本的差异显著性检验。

(二)、评价者间的读片可靠性检验:

在不同评价者之间重复阅读一定数量的手腕部X线片,使用上述相同的统计方法计算,即可得出评价者间的随机误差和系统误差。评价者之间的读片可靠性检验也同样重要,但在施行起来,其难度大于评价者内的可靠性检验,最好是在应用领域内,定期组织、交流经验,讨论、统一评价尺度,是提高读片质量,保证临床和科研工作可比性的重要措施。


【金骨龄】专业骨龄及生长发育研究机构,中国骨龄行业标准制定者张绍岩教授任首席科学家,致力于提供适合中国当代少年儿童的骨龄评价技术和生长发育评价服务,独立研发了适用于医疗、体育、司法及母婴行业的骨龄软件

【热门文章】

为什么提出用于青少年活体年龄推测的RUS-CHN图谱骨龄评价方法?

为什么采用Box-Cox幂指数模型(Box-Cox power exponential distribution, BCPE)拟合生长百分位数曲线,制订生长图表(Growth Charts)