编者按:人类表皮生长因子受体2(HER2)的准确识别,对于乳腺癌患者治疗方案的制定具有重要价值。近期一项研究结果表明[1],基于人工智能的机器学习模型能够预测乳腺癌患者的HER2状态;并且多变量逻辑回归分析显示,年龄≤40岁、肿瘤多发、高肿瘤级别、高级别DCIS、N3期和ER阴性(P<0.05)与HER2阳性独立相关。研究分析的XGBoost ML模型的准确率较高(95%),并且对于外部队列同样具有较高灵敏度(90.5%)。未来,需要使用更大的数据集进行进一步研究以验证这些发现。
研究背景
HER2基因是一种原癌基因,位于17号染色体q12-21.32,负责细胞增殖、分化和修复[2]。HER2蛋白在多种类型的癌症中均有过表达,18%~30%的原发性乳腺癌患者存在HER2过表达,且与未接受辅助治疗患者的局部复发迅速、预后不良、无病生存期和总生存(OS)较短相关[3]。
准确的HER2状态评估对于筛选出可从HER2靶向治疗获益的乳腺癌患者至关重要[4]。根据美国临床肿瘤学会/美国病理学家协会(ASCO/CAP)指南,两种获批的HER2检测方法是:免疫组织化学法(IHC,用于检测HER2蛋白过表达)和原位杂交法(ISH,用于识别基因拷贝数增加)[5]。随着研究进展,HER2+状态的定义已发生多次变化。基于IHC,美国食品药品监督管理局(FDA)最初将HER2+状态定义为>10%的侵袭性乳腺癌细胞出现均匀强烈染色[6];为了限制假阳性结果,ASCO/CAP小组于2007年将该截止值更改为>30%[7]。新版指南恢复了10%的截止值,以最大限度地增加适合靶向治疗的患者,并最大限度地减少假阴性结果[8,9]。ISH中HER2阳性定义最初由FDA确定为HER2/染色体计数探针17比值≥2.0,无论HER2平均拷贝数是多少。2007年和2013年,ASCO/CAP小组进一步扩展为HER2基因平均拷贝数/细胞≥6,无论HER2/CEP17比值如何[7,8]。
开发准确可靠的机器学习模型可以更好地识别HER2阳性乳腺癌患者,尤其是HER2状态不明确的患者,有助于及时启动治疗[1]。这项研究旨在确定可预测HER2阳性乳腺癌患者的临床病理特征,同时也分析了新模型在预测乳腺癌HER2状态方面的准确程度。
研究方法
本研究回顾性分析了2018年9月至2022年1月期间报告的3324例浸润性乳腺癌病例。病例的诊断和肿瘤分级均通过镜检确认,并遵循相关指南。病理分期通过检查标本确定,采用AJCC第八版TNM分类[10]。在入选病例中,90例(占3324例患者的2.7%)接受了新辅助化疗。
通过回顾患者基线时的放射学检查结果,并将其与化疗后乳房切除术瘤床和淋巴结状态进行比较,评估了患者的初始肿瘤大小和淋巴结状态。ER、PR、HER2和SISH相关数据已根据指南进行审查和报告。ER阳性率为1%-10%的浸润性癌症被报告为ER低阳性。根据IHC观察到的阳性率,PR状态分为两组:1%-20%和超过20%。
研究采用监督分类机器学习模型来预测检索到的病例数据集中的HER2状态。该分类模型是一种监督学习算法,旨在根据训练过程中学习到的模式和关系来预测给定输入的类别。研究最初测试了文献中常用的几种机器学习模型的准确性[11],即:随机森林模型、XGBoost和决策树模型。使用包含3324个病例的数据集来训练模型,并将其分为80%的训练集和20%的测试集。训练数据集是构建和验证预测模型的基础,而测试数据集则用于评估模型的准确性和精确度。
研究结果
▌患者及病理特征
本研究共纳入3324例临床病理资料完整的患者。平均年龄为53.44±13.40岁,年龄范围为24-90岁。另取100例病例作为验证集。根据免疫组化和SISH染色对HER2阳性病例的定义标准,训练集中942例(28.3%)为阳性,验证集中42例(42%)为阳性。
△镜检结果及免疫组化/SISH染色结果的典型示例
肿瘤部位分布显示,51.9%(1725例)的病例位于左侧。组织学诊断方面,大多数(2710例,81.5%)被归类为浸润性乳腺癌,无特殊类型。其中69.8%(2316例)的病例为2级。相当一部分患者(68.3%,2143例)为单发肿瘤。60.4%的患者被确诊为导管原位癌(DCIS),且级别分布存在差异:大多数(1374例,59.2%)为中级,其次是高级(535例,23.1%),而低级别DCIS有412例(17.8%)。
淋巴结分期以N0期为主(1599例,48.1%),其次为N1期(1060例,31.9%)、N2期(397例,11.9%)和N3期(268例,8.1%)。肿瘤分期分布多样,以T2期为主(1639例,49.3%),其次为T1期(1294例,39%)、T3期(318例,9.6%)、T4期(56例,1.7%),T0期17例,占0.5%。
淋巴血管栓塞见于1479例,占51%。远处转移方面,大多数患者(2099例,63.4%)未见远处扩散征象。激素受体状态显示,大部分患者ER阳性(2652例,80.4%)和PR阳性(2384例,72.4%)。大多数病例可见轻度间质淋巴细胞浸润(1984例,57.1%)。
▌临床病理特征与HER2状态的关系
HER2阳性与一系列可识别的临床病理特征显著相关:年龄<40岁、浸润性肿瘤级别较高、存在多个肿瘤病灶、肿瘤主要成分为DCIS且包含高级DCIS成分的患者,HER2阳性的可能性显著升高(P<0.001)。
△乳腺癌患者临床病理特征与HER2状态之间的复杂关系
肿瘤分期较高(T3和T4)、初诊时仅有淋巴结转移(T0)以及淋巴结转移数量增多,与HER2阳性状态呈显著相关性(P<0.001)。此外,转移性疾病和瘤栓的存在也与HER2阳性相关(P<0.001)。
免疫浸润程度与HER2阳性乳腺癌之间存在显著关联。与免疫浸润程度较低(TIL<10%)的患者相比,中度或重度免疫浸润患者更容易罹患HER2阳性乳腺癌(P<0.001)。
ER的表达是HER2状态的另一个重要决定因素,ER阴性或弱阳性状态与HER2阳性显著相关(P<0.001)。同样,PR的状态也起着关键作用,肿瘤细胞中PR阳性<20%与HER2阳性显著相关(P<0.001)。
▌HER2阳性患者危险因素的Logistic回归分析
Logistic回归分析确定了几种与HER2阳性风险增加独立相关的侵袭性肿瘤特征。这些特征包括年龄≤40岁(P=0.04)、肿瘤分级较高(3级)(显著P值为0.006)、DCIS分级较高(P<0.001)、乳腺内存在多个病灶(P<0.001)以及N3分期(P<0.001)。
△HER2阳性乳腺癌危险因素的Logistic回归分析
▌基于AI的机器学习模型的预测价值
初始数据集包含3324例乳腺癌病例,用于模型训练,其中80%用于训练集,20%用于测试集。训练数据集在建立和验证预测模型中起着至关重要的作用,而测试数据集则用于评估模型的准确度和精确度。在测试的三个模型中,XGBoost准确度最高(94.5%)。
△3个机器学习模型的准确性和性能分析
▌机器学习模型中的变量重要性
简单来说,XGBoost模型中的变量重要性是指衡量每个输入特征(变量)在预测模型结果中的重要性或显著性。它有助于我们了解每个特征对模型整体预测能力的贡献程度。这种评估有助于辨别哪些特征对预测值的影响最大,例如HER2状态。
△XGBoost中预测乳腺癌患者HER2状态的因素重要性分析
DCIS的存在、DCIS成分(主要成分vs.次要成分)的百分比、DCIS分级、肿瘤多发以及ER状态是预测HER2状态的四大重要变量。对于该数据集,受试者工作特征曲线下面积(AUC)得分为0.95。
△AUC曲线显示所选XGBoost模型的性能优异
▌机器学习预测模型的灵敏度和特异度
研究者将100例乳腺癌样本的HER2盲测集引入机器学习模型,以预测其HER2状态。除HER2蛋白数据外,其余临床病理数据均用于模型。预测结果为:真阳性结果(42例HER2阳性病例中38例),真阴性结果(58例HER2阴性病例中49例)。随后计算灵敏度,结果显示灵敏度为90.48%(95%CI 80.5%-95.8%),特异度为84.4%(95%CI 72.66%-92.4%)。
▌机器学习模型的应用
研究者使用5例乳腺癌病例数据集评估了机器学习模型的实际效果。这些病例根据IHC分类明确HER2状态,其中2例为阳性,3例为阴性。模型预测结果与IHC结果非常吻合,证明了其准确性和可靠性。
研究结论
总体而言,这项研究结果强调了机器学习方法作为预测HER2状态的潜力,尤其是在HER2状态未知或盲测的情况下。高灵敏度和特异性是该模型在临床实践中有效性的有力指标,有望促进治疗决策并优化患者管理。值得注意的是,外部验证队列增强了研究结果的可靠性,并提高了结果的普遍性。
未来需要开展更大规模的队列研究,并纳入Oncotype DX检测数据,以验证和改进该模型在准确预测HER2状态方面的表现。
参考文献:
1.Mohamed G,Hamdy O,Alkallas A,et al.Role of artificial intelligence–based machine learning model in predicting HER2/neu gene status in breast cancer[J].Pathology-Research and Practice,2025,270:155927.
2.Moasser M M.The oncogene HER2:its signaling and transforming functions and its role in human cancer pathogenesis[J].Oncogene,2007,26(45):6469-6487.
3.Slamon D J,Godolphin W,Jones L A,et al.Studies of the HER-2/neu proto-oncogene in human breast and ovarian cancer[J].Science,1989,244(4905):707-712.
4.Ross J S,Slodkowska E A,Symmans W F,et al.The HER-2 receptor and breast cancer:ten years of targeted anti–HER-2 therapy and personalized medicine[J].The oncologist,2009,14(4):320-368.
5.Gordian-Arroyo A M,Zynger D L,Tozbikian G H.Impact of the 2018 ASCO/CAP HER2 guideline focused update[J].American Journal of Clinical Pathology,2019,152(1):17-26.
6.Ahn S,Woo J W,Lee K,et al.HER2 status in breast cancer:changes in guidelines and complicating factors for interpretation[J].Journal of pathology and translational medicine,2020,54(1):34-44.
7.Wolff A C,Hammond M E H,Schwartz J N,et al.American Society of Clinical Oncology/College of American Pathologists guideline recommendations for human epidermal growth factor receptor 2 testing in breast cancer[J].Journal of clinical oncology,2006,25(1):118-145.
8.Wolff A C,Hammond M E H,Hicks D G,et al.Recommendations for human epidermal growth factor receptor 2 testing in breast cancer:American Society of Clinical Oncology/College of American Pathologists clinical practice guideline update[J].Journal of clinical oncology,2013,31(31):3997-4013.
9.Wolff AC,Hammond MEH,Allison KH,et al.Human Epidermal Growth Factor Receptor 2 Testing in Breast Cancer:American Society of Clinical Oncology/College of American Pathologists Clinical Practice Guideline Focused Update.J Clin Oncol.2018;36(20):2105-2122.
10.Giuliano A E,Connolly J L,Edge S B,et al.Breast cancer—major changes in the American Joint Committee on Cancer eighth edition cancer staging manual[J].CA:a cancer journal for clinicians,2017,67(4):290-303.
11.Tarwidi D,Pudjaprasetya S R,Adytia D,et al.An optimized XGBoost-based machine learning method for predicting wave run-up on a sloping beach[J].MethodsX,2023,10:102119.