麻省理工学院研究揭示医学图像分析中的AI偏见

留学申请微信咨询

微信扫描左侧二维码

或点击下方按钮咨询

人工智能在医学图像分析中的偏见：麻省理工学院（2024USNews美国大学排名：2）研究揭示问题与解决方案

2024年6月28日，麻省理工学院（MIT）的一项研究揭示了分析医学图像的人工智能（AI）模型可能存在偏见的原因。这些模型在预测患者的种族、性别和年龄方面表现出色，但在进行医学诊断时似乎将这些特征作为捷径。研究人员发现，最擅长进行人口统计预测的模型也显示出最大的“公平差距”，即在准确诊断不同种族或性别人群的图像时存在差异。研究表明，这些模型可能在进行诊断评估时使用“人口统计捷径”，导致对女性、黑人等群体产生错误结果。通过重新训练模型的方式可以改善其公平性，但当模型在不同医院的患者上进行测试时，公平差距重新出现。研究结果表明，医院在使用这些类型的人工智能模型之前应该在自己的患者群体上对其进行评估，以确保不会给某些群体带来不准确的结果。

麻省理工学院研究揭示AI在医学图像分析中的偏见

麻省理工学院的研究指出，人工智能在处理医学图像时可能存在种族偏见。研究发现，AI模型在从医学图像中进行人口统计预测方面表现最佳，但在诊断不同种族或性别的人时存在最大的差异。尽管AI在医疗领域的应用存在诸多担忧，但美国食品和药物管理局（FDA）已批准了882款AI和机器学习医疗设备，其中大部分是在过去几年批准的。这些设备多用于放射学，即利用医学影像诊断疾病的医学专业。然而，研究显示这些AI系统容易受到偏见影响，在某些人口统计学方面（如妇女和有色人种）产生不准确的结果。

麻省理工学院的一项新研究旨在解释为何AI模型容易出现这些错误，并声称一些模型利用种族和性别预测来简化医学诊断。研究发现，AI模型能够通过胸部X光准确预测一个人的种族，这对人类专家来说是困难的。研究还指出，最准确进行人口统计预测的模型也显示出最大的“公平差距”，即这些模型在诊断不同种族或性别的人的医学图像时能力较弱。研究表明，这些模型可能在评估时使用人口统计学的简化方法，导致妇女和有色人种的不正确结果。研究人员表示，他们可以重新训练这些模型以提高公平性，但这种方法在模型在相同类型的患者上进行测试时效果最佳，例如来自同一家医院的患者。当这些模型应用于不同医院的患者时，偏见问题重新出现。

人工智能模型在医学诊断中的人口统计预测

2024年1月8日，Frontiers in Artificial Intelligence期刊发表了一篇题为《从电子健康记录预测疾病发作以进行人口健康管理：一种可扩展且可解释的深度学习方法》的研究文章。该研究由罗伯特·格劳特（Robert Grout）等人完成，主要探讨了利用深度学习（DL）方法从电子健康记录（EHR）中预测未来疾病诊断的能力，以实现人口健康管理（PHM）。

研究背景：随着老龄化人口的增加、慢性病的普遍存在以及医疗成本的上升，许多发达经济体的卫生系统面临巨大压力。为了应对这些挑战，卫生政策制定者正试图从被动的治疗模式转向主动的预防模式。PHM模型旨在通过数据识别未来可能出现不良健康结果的患者，从而实现改善人口健康、提高患者体验质量和降低人均医疗成本的“三重目标”。

研究方法：研究使用了Word2Vec算法创建的嵌入模型，并结合双向门控循环单元（GRU）模型，预测患者在未来三年内患上2型糖尿病、慢性阻塞性肺病（COPD）、高血压或急性心肌梗死的可能性。研究基于美国约5000万患者的纵向医疗数据，创新性地将分箱观察值和更广泛的健康决定因素纳入嵌入模型中。为了实现模型的可解释性，计算了SHapley Additive exPlanations（SHAP）值。

研究结果：扩大数据范围以包括分箱观察值和更广泛的健康决定因素，显著提高了预测性能。研究在糖尿病预测中达到了0.92的ROC曲线下面积（AUC），在COPD预测中达到了0.94，在高血压预测中达到了0.92，在心肌梗死预测中达到了0.94。SHAP值显示，模型学习到了与这些结果相关的特征。

讨论：研究表明，DL方法可以从大规模EHR数据中识别出临床相关特征，并利用这些特征预测未来的疾病结果。这种方法有助于识别未来有疾病风险的患者，并为临床医生提供理解和评估这些预测驱动因素的手段。

研究还探讨了特征选择、预训练和转移学习的效果。特征选择实验表明，增加实验室值、人口统计和生活方式特征的数据范围可以提高模型性能。预训练的Word2Vec嵌入在有限数据情况下表现更好，尤其是在数据有限的情况下。转移学习实验显示，预训练嵌入在不同人口子集中的应用也能提高性能。

研究的局限性包括：数据集仅包含一个国家，结果的普遍性尚未评估；模型训练的预测窗口与实际应用的预测窗口之间存在时间差异；极端类别不平衡可能影响SHAP值的解释性能。

结论：该研究展示了DL方法在PHM中的潜力，通过扩展数据范围和使用SHAP值提高了模型的预测性能和可解释性。这种方法为PHM从业者提供了一种识别高风险患者并采取预防措施的有效工具。

不同人口统计学特征下AI模型的公平性差距

2024年6月28日，《自然医学》发表了一篇题为《公平医疗影像AI在现实世界泛化中的局限性》的文章。文章探讨了人工智能（AI）在医疗影像中的应用，特别是其在不同人群中的公平性问题。研究发现，尽管AI在医疗影像任务中表现出色，但其在不同人群中的表现存在显著差异，可能加剧现有的医疗不平等。研究团队分析了放射学、皮肤病学和眼科学三个主要医疗影像领域，使用了六个全球胸部X光数据集，发现AI模型在疾病分类中利用了人口统计学信息作为捷径，导致不同人群间的预测不公平。尽管通过算法纠正这些捷径可以在原始数据分布中创建“局部最优”模型，但在新的测试环境中，这种最优性并不成立。研究表明，编码较少人口统计学属性的模型在新测试环境中表现更好，显示出更好的公平性。研究还提出了在不同数据分布下保持模型性能和公平性的最佳实践。文章强调了在实际临床部署中，评估AI模型的性能和公平性的重要性，特别是在数据分布发生变化时。研究团队来自麻省理工学院和埃默里大学，研究结果对AI在医疗中的应用具有重要意义，特别是在确保不同人群间的公平性方面。

通过重新训练AI模型提高公平性

2024年3月4日，《自然通讯》发表了一篇题为《通过准帕累托改进提高异质甲状腺结节人群中AI预测模型的公平性》的文章。该研究由上海交通大学的姚思琼、戴芳等人完成，旨在解决AI模型在医疗诊断中的公平性问题。研究指出，现有的AI模型在处理甲状腺超声数据时，存在显著的诊断性能差异，尤其是在样本量不平衡的情况下。为此，研究团队提出了准帕累托改进（QPI）方法，并设计了一个结合多任务学习和领域适应的深度学习框架（QP-Net），以提高弱势子群体的模型性能，同时保持整体人群的性能。实验结果表明，该方法显著减小了三个低发子群体的AUC差异，分别为0.213、0.112和0.173，同时保持了主要子群体的AUC。研究还在两个公共数据集（ISIC2019皮肤病数据集和CheXpert胸部X光数据集）上验证了该方法的普适性。研究表明，QPI方法在促进AI实现公平医疗结果方面具有广泛的应用前景。