人工智能,尤其是深度学习,已经通过给大数据打标签,以及计算能力的显著增强和云存储而得以在各领域应用。在医学领域,人工智能已经开始在三个层面产生影响:临床医生(主要是通过快速、准确的图像解读)、健康系统(通过改善工作流程和降低医疗错误的潜力)、病人(让他们能处理自己的数据,从而改善健康状况)。当前,“人工智能+医学”有哪些局限性(包括偏差/偏见、隐私和安全、缺乏透明)?二者的融合将来会怎样?随着时间的推移,准确度、生产力和工作流程方面很可能实现显著的提升,但这会被用于改善医患关系还是导致其恶化,这一点还有待观察。
医学正处在两大趋势的十字路口。第一种是失败的商业模式,增加了医疗支出,增加了医疗卫生工作岗位,但主要结果却在恶化,比如美国,他们的预期寿命缩短,婴儿、儿童和产妇死亡率高。这证明了一个悖论,这个悖论并不局限于美国医学界:投入更多的人力成本,却会导致更糟糕的人类健康结果。第二种是产生大量的数据,这些数据来自高分辨率医学成像、生物传感器和连续输出的生理指标、基因组测序和电子医疗记录。仅靠人类分析此类数据显然不行,因此有必要增加对机器的依赖。因此,在提供医疗保健方面,人们比以往任何时候都更迫切地需要算法的帮助。然而,在医学领域,人类与人工智能(artificial intelligence,AI)的融合才刚刚开始。
从更深层次看,医疗保健行业存在着一些值得注意的、长期存在的缺陷,其中包括大量严重的诊断错误、治疗中的错误、大量的资源浪费、工作流程的低效、不公平以及患者与临床医生之间沟通的时间不足。渴望改进的医疗行业领袖和计算机科学家断言,人工智能在解决所有这些问题方面可能将发挥作用。这最终可能会成为现实,但研究人员在使用神经网络来改善医学实践的弊病方面尚处于起步阶段。“人工智能+医药”领域有哪些机会和陷阱呢?下面将一一详述。
临床医生与人工智能
在未来,几乎所有类型的临床医生,从专科医生到护理人员,都将使用人工智能技术,尤其是深度学习。这主要涉及使用深层神经网络(deep neural networks,DNNs)的模式识别,它可以帮助解释医学扫描、病理切片、皮肤损伤、视网膜图像、心电图、内窥镜检查、面部和生命体征。神经网络的解释通常与医生的评估相比较,绘制真阳性与假阳性率的图表,称为受试者工作特征曲线(receiver operating characteristic,ROC),其曲线下的面积(area under the curve,AUC)用来表示准确性水平。
放射学是人工智能应用中特别受到关注的一个领域。胸部x光是最常见的医学扫描类型,每年全世界有超过20亿例。在一项研究中,科研人员将一种基于121层卷积神经网络的算法与4名放射科医生的算法进行了比较,结果表明,该算法在11.2万多张标记的正位胸片图像中检测肺炎的准确性优于放射科医生。然而,该算法的AUC为0.76,尽管比之前两种用于解释胸片的DNN算法稍好一些,但仍远非最优。
谷歌的一个团队使用了一种算法,分析了与上述研究相同的图像集,做出了14种不同的诊断,得出AUC的分数范围从0.63(肺炎)到0.87(心脏增大或肺萎陷)不等。最近,在另一项相关研究中,研究表明,目前在印度医院使用的一种DNN对四种不同的胸片主要特征进行解释,其准确性至少与四名放射科医生相同。对于胸部x光检查中肺癌结节的检测,DNN回顾性评估了3.4万多名患者的扫描结果,与18位放射学家相比,DNN的准确度超过了他们中的17位。急诊室医生很难准确诊断手腕骨折,但是DNN带来了显著的改善,敏感性从81%提高到92%,误诊率降低了47%。
同样,DNNs也被广泛应用于各种医学扫描中,包括骨折的骨片、年龄评估、结核病的分类和椎体压缩性骨折;CT扫描肺结节、肝脏肿块、胰腺癌和冠状动脉钙化分数;脑部扫描是否有出血、颅脑外伤和急性转诊的迹象;磁共振成像;超声心动图;乳腺钼靶检查。一项前瞻、双盲、随机对照试验使用了真实病例,结果表明,深度学习算法解释扫描结果的速度比放射科医生快150倍(1.2秒 vs 177秒),但得出的结论是,该算法的诊断准确性低于人类的表现,这令人清醒,表明还有很多工作要做。
对于每一项研究,研究者都使用了大量的标记扫描来进行训练和随后的评估,AUC的范围从髋部骨折的0.99,到颅内出血和肝包块的0.84,再到急性神经系统病例筛选的0.56。但由于研究方法的显著差异,无法比较不同研究之间DNN的准确性。此外,ROC和AUC指标不一定代表临床效用,甚至也不一定是表现模型准确性的最佳方式。就算法的准确性而言,验证其性能并不等同于证明其临床疗效。这就是研究者所说的“人工智能鸿沟”,也就是说,一个AUC为0.99的算法如果没有被证明可以改善临床结果,那么它就没有多大价值。在经过同行评议的研究中(表1中进行了总结),唯一的前瞻性验证研究在真实世界已经对糖尿病性视网膜病变、手腕骨折、乳腺癌转移、结肠息肉、先天性白内障进行了验证,很明显,这一领域还远远没有显示出非常高的精度,更不用说临床应用。
病理学
病理学家在采用数字化扫描方面要比放射学家慢得多——他们没有常规地将玻片转换成数字图像,也没有使用全玻片数字扫描(whole-slide imaging,WSI)来看数字切片。而对数字化病理切片的深度学习有助于提高解释的准确性和速度。在一项关于乳腺癌WSI的研究中,11名病理学家的表现与多种算法的表现进行比较,结果各不相同,在某种程度上受到病理学家查看病理片时间长短的影响。有些算法的表现比病理学家要好。病理学家得到了129张测试病理片,每张病理片只有不到1分钟的时间进行检查,这可能反映不了正常的工作节奏。另一方面,当一个病理学专家没有时间限制,花30个小时来检查相同的病理片集时,其结果与算法相当。
还有一些研究评估了深度学习算法用于分类乳腺癌和肺癌的表现。脑肿瘤极具挑战性,和病理学家使用传统的组织学数据相比,通过测序使用肿瘤DNA甲基化信息的机器学习可以显著改善分类。DNA甲基化产生了大量的数据,目前在临床上很少用于肿瘤的分类,但这项研究表明人工智能在未来提高诊断准确性的另一个潜力。一种用于肺癌数字病理切片的深度学习算法不仅能够准确地对肿瘤进行分类,而且经过训练,还能够检测一些病理学家无法识别的特定驱动性基因突变的模式。
皮肤病学
在利用图像分析对皮肤癌进行分类的算法中,将深度学习网络的诊断精度与皮肤科医生的诊断精度进行了比较研究。在一项使用了近13万张摄影和皮肤镜数字化图像的大型训练数据集的研究中,21名美国委员会认证的皮肤科医生的表现至少与一种算法相匹配,该算法对恶性肿瘤的AUC为0.96,对黑色素瘤的AUC为0.94。随后,58名国际皮肤科医生对黑色素瘤皮肤癌诊断的准确性与卷积神经网络进行了比较;平均的ROCs分别是0.79和0.86,这反映了与大多数医生相比,该算法的性能更好。第三项研究对12种皮肤病进行了算法评估,包括基底细胞癌、鳞状细胞癌和黑色素瘤,并与16名皮肤科医生进行了比较,算法对黑色素瘤的AUC为0.96。这些研究都不是在临床情景中进行的,在临床,医生会进行身体检查,并承担做出准确诊断的责任。如果人工智能能够可靠地模拟有经验的皮肤科医生,那将是一个巨大进步。
眼科学
已有许多研究比较算法和眼科医生在诊断不同眼病方面的性能。在一项使用视网膜眼底图片诊断年龄相关黄斑变性(age-related macular degeneration,AMD)的研究中,DNN算法的准确率在88%到92%之间,几乎与眼科专家的准确率一样高。研究人员将一种用于解释视网膜光学相干断层扫描(optical coherence tomography,OCT)的深度学习算法的性能与眼科医生进行比较,以诊断两种最常见的视力丧失原因:糖尿病视网膜病变或AMD。在超过10万张OCT图像的数据集上对算法进行训练后,对其中的1000张图像进行验证,并与6名眼科医生的性能进行比较,算法的AUC为0.999。
虽然目前对视网膜OCT和眼底图像的研究主要集中在眼病上,但最近的研究表明,这些图像还可以为大脑提供一个早期诊断痴呆(包括阿尔茨海默病)的窗口。
视网膜照片的潜在用途似乎也已超越了眼疾本身。DNN对28多万名患者的图像进行了心血管危险因素的评估,包括年龄、性别、收缩压、吸烟情况、糖化血红蛋白和发生重大心脏不良事件的可能性,并在两个独立的数据集进行了验证。AUC为0.97表明该算法能准确识别。
其他经神经网络用于不太常见的眼病包括新生儿先天性白内障和早产儿视网膜病变的评估表明,算法的准确性可与眼科专家相媲美。
心脏病学
心脏病学家使用的主要图像是心电图(electrocardiograms,ECG)和超声心动图,这两种图像都用DNNs进行了评估。使用机器读ECGs已有近40年的历史,但其准确性非常低。当使用深度学习在含549个心电图的数据集里诊断心脏病时,报告的敏感性为93%,特异性为90%,与心脏病学家相当。对于超声心动图,一组267例患者的83万多张静态图像被DNN和心脏病学家分成15个标准视图(如心尖4腔或肋下)。对于单张静止图像,算法的整体准确率为92%,4名超声心动图专业医师的准确率为79%,但这并不能反映真实世界的结果。一项囊括超过8000例超声心动图的更大的回顾性研究显示:算法对肥厚性心肌病(AUC, 0.93)、心脏淀粉样变(AUC, 0.87)和肺动脉高压(AUC, 0.85)的分类准确率很高。
胃肠病学
在结肠镜检查中发现小于5毫米的腺瘤性息肉或无蒂息肉对胃肠病学家来说是非常困难的。对325例微小息肉患者进行的首个人工智能前瞻性临床试验证实,常规结肠镜检查的准确率为94%,阴性预测值为96%;人工智能诊断的速度是35秒,而且该算法对新手和胃肠病学专家都同样有效,不需要注射染料。在另一项独立研究中也证实了这一结果。这样的结果表明:机器视觉,在高倍放大下,可以准确和快速地解释特定的医学图像,优于人类。
心理健康
全世界有3.5亿人在与抑郁作斗争,精神健康的巨大负担值得注意,而人工智能有能力为患者和数量远远不足的临床医生提供支持。正在开发的各种工具包括通过语音、面部识别、传感器和交互式聊天机器人的使用,对抑郁和情绪进行数字跟踪。脸书上的帖子已经被证明可以预测抑郁症的诊断,这些诊断后来被记录在电子医疗记录中。
机器学习已被探索用于预测哪种抗抑郁药物可能成功、抑郁的特征、预测自杀的发生,以及预测精神分裂症患者的精神病发作。
人工智能算法在许多其他临床科室也得到了广泛使用,如促进脑卒中、自闭症、心脏病的诊断,帮助麻醉医师在手术过程中避免低氧合等。图2展示了人工智能在医学中应用的广度。许多初创公司和老牌科技公司都在努力开发自然语言处理技术,以取代诊所就诊时对键盘和抄写人员的需求。活跃在这个领域的公司包括微软、谷歌等。
人工智能和健康系统
从理论上讲,能够预测关键结果可以使医院姑息治疗资源的使用更加有效和精确。例如,如果可以使用一种算法来估计病人重新入院的风险,那么就可以采取步骤来避免出院,并将资源调拨到潜在的问题上。而根据常规的临床出院标准,这种风险是无法检测到的。对于危重病人,对生存期的预测极有可能会帮助这个病人及其家人和医生做出关于复苏、气管插管、机械通气,和其他侵入性措施的决定。同样,人工智能预测工具也可以判断哪些患者可能受益于姑息治疗,以及判断谁有发展为败血症或感染性休克的风险。使用电子健康记录数据,机器和深度学习算法已经能够预测从阿尔茨海默病到死亡的许多重要临床参数 (表2)。例如,在最近的一项研究中,深度学习在为脓毒症患者选择治疗方案时,比如升压、静脉输液、药物和剂量的选择,由“人工智能医生”选择的治疗方法比由人类医生选择的治疗方法更有效。但这一结果还没有在真实的临床情景下得到验证。尽管如此,仍有许多公司已经在推广这类算法,比如Careskore,它为卫生系统提供基于EHR数据的再入院风险和死亡率评估。
目前,还不清楚人工智能在医疗情景中预测关键结果的能力有多强,这要等到未来在真实临床环境下通过严格的统计方法和分析得到强有力的验证后才能确定。
机器视觉
机器视觉(也称为计算机视觉),它使用来自环境传感器的数据,通过监测诸如临床医生正确洗手、重症监护病房的危重病人和病人跌倒的风险等活动来促进安全,在卫生系统中引起了相当大的关注。重症监护病房的病人使用机械通气往往是偶然和低效的;在这方面,一种使用机器视觉的强化学习算法显示出了相当大的潜力。还有正在进行的数字化手术,包括机器视觉观察、手术室的设备和外科医生的表现;实时、高分辨率、AI处理的患者相关解剖图像;整合病人术前的所有数据,包括完整的病史、实验室检查和扫描。极其精细的显微外科手术,比如眼睛内部的手术,现在已经在人工智能的帮助下进行了。通过使用图像重建的深度学习算法和生成的对抗网络来提高医学扫描的质量,可以显著减少在准备放射治疗时的图像采集和分析所需时间、减少辐射暴露。这些改进如果得到广泛实施,将让医疗更安全、便利,成本也得到降低。
可穿戴设备
可穿戴传感器可以持续监测机体所有重要信号——包括血压、心率和心律、血氧饱和度、呼吸频率和体温——未来有可能抢占先机,被大量住院患者所采用。目前还没有针对远程监控的算法开发和预期测试,但这值得大力研究,因为它可以在不牺牲患者和家人便利和舒适的情况下降低护理成本。
提高效率
据估计,人工智能每天要处理2.5亿多张图像,而成本仅约为1000美元,这意味着可以节省数十亿美元。除了可以从人工智能辅助的图像解释和临床支持中提升生产力和改进工作流之外,还有可能减少许多后勤、行政工作的劳动力,如编码和计费、手术室和诊所预约的调度以及人员配备。在宾夕法尼亚州的盖辛格健康中心,超过10万名患者接受了外显子组测序,结果是通过人工智能聊天机器人(Clear Genetics)提供的,它受到大多数患者的欢迎,减少了对遗传顾问的需求。这证明了卫生系统如何能够利用人工智能工具提供复杂的信息,而不必依赖于训练有素的人员的扩充。
人工智能和病人
2017年底,一种智能手表算法通过了FDA的检测,能检测出心房纤颤,随后在2018年,苹果公司的算法获得了FDA的批准,将该算法用于Apple Watch系列4。光学体积学描述和加速计传感器能够获知用户在休息和体育活动时的心率,当偏离参考范围,就会触发警报,这种算法的广泛使用,尤其是在低风险的年轻人群中——他们戴着苹果手表——将导致大量的假阳性心房纤颤诊断,并引发不必要的医疗检查。相比之下,智能手表上的深度学习,可以准确地检测血液中是否有高钾,可能对肾病患者特别有用。通过智能手表算法读取血钾水平(表3)的概念,体现了一种算法的前景,这种算法能够提供在没有该技术的情况下无法获得或识别的信息。
人工智能手机监测到的数据正被用于多种医学诊断目的,包括皮损和皮疹、耳部感染、偏头痛,以及糖尿病视网膜病变和老年黄斑变性等视网膜疾病。一些智能手机应用程序正在使用人工智能来监控医疗依从性,比如AiCure (NCT02243670),它让患者在吞下处方药的同时拍下自拍照。其他应用程序使用图像识别食物的热量和营养含量。最近的一项研究实现了连续两周的血糖检测,同时还评估了肠道微生物群、体力活动、睡眠、药物、所有食物和饮料的摄入量,以及各种实验室检查的监测,这种多模式的数据收集和分析已经能够预测一个人对特定食物的血糖反应,这种生理模式在人群中非常不均匀,并受到肠道微生物群的驱动。连续血糖传感器的使用表明,餐后血糖峰值通常会出现,即使在没有糖尿病的健康人身上也是如此。目前还不确定葡萄糖峰值是否意味着患糖尿病的风险更高,但有数据表明,在实验模型中,这种可能性与胃肠屏障功能障碍存在联系。尽管如此,人工智能和多模态数据的应用来指导个性化的饮食仍是未来虚拟医疗的一个方向。目前,简单的算法已被用于糖尿病患者的血糖管理,虽然这有助于避免低血糖发作,但整合个人综合数据的智能算法可能会提供更多的信息和帮助。通过这种方式,大多数常见的慢性疾病,如高血压、抑郁症和哮喘,理论上可以通过虚拟医生得到更好的管理。随着人工智能语音识别准确性的显著提高和智能音箱的日益普及,很容易想象通过语音平台来实现疾病管理。最终,当一个人的所有数据和医学文献的资料库可以结合,将得到一个整体的预防方案。
人工智能和数据分析
利用人工智能,Christiansen等人开发了硅标记,用计算机直接识别未被标记的图像中细胞的特征。与常规的荧光染色显微成像不同,这种机器学习算法能预测荧光标签,从而引入了“无图像”显微技术,不再像荧光染色那样会伤害和杀死细胞,也不需要复杂的准备工作。此后不久,Ota等人报道了另一种无图像流人工智能分析方法,他们称之为“幽灵细胞检测”,以准确识别罕见细胞。机器学习的这种应用解决了一个棘手的问题,即通过快速、高通量和精确的细胞形态分类来识别和分离稀有细胞,而不需要使用生物标记。除此之外,计算机视觉技术已经使单细胞内40-对蛋白质和细胞器的高通量评估成为可能。
机器和深度学习面临的另一个挑战是对基因组和其他组学生物数据集的分析。开源代码的算法已被开发用于分类或分析全基因组序列的致病性变异、体细胞癌突变、基因-基因相互作用、RNA测序数据、甲基化、蛋白质结构和蛋白质-蛋白质相互作用的预测、微生物组和单细胞。虽然这些报告通常只针对单一组学,但现在正在开发集成数据集的多组算法。CRISPR引导RNA活性和脱靶活性的算法预测也促进了基因组编辑的应用。
值得注意的是,通过将转移学习算法应用于多区域肿瘤测序数据,以及通过微流体分离以单细胞分辨率分析癌细胞的机器视觉,人工智能的使用增强了对癌症演变的理解。这两种新的方法可能最终有助于患者的风险分层和指导治疗。
可以说,生物神经科学影响着人工智能,反之亦然。果蝇中的几个例子是值得注意的。Robie等人拍摄了4万只果蝇的视频,并使用机器学习和机器视觉来绘制表型与基因表达和神经解剖学的关系图。绘制了活动、雌性攻击性,以及其他很多特征的全脑图图谱。在另一项研究中,使用最近邻算法来了解苍蝇是如何感知气味的,也就是它们的嗅觉算法
人工智能带来的最令人印象深刻的进步之一,是在理解人类大脑的网格细胞方面——网格细胞能够感知人体运动的速度和方向,例如机体在空间中的位置。神经形态计算,或者说是通过对大脑进行逆向工程来制造计算机芯片,不仅能提高计算效率,还能帮助研究人员理解大脑回路,构建脑机接口。机器视觉用迁移学习算法追踪人类和动物的行为也是另一个例子。
药物发现正在因多层面地使用人工智能而在被改进,包括用先进的自然语言处理技术搜索生物医学文献、用数据挖掘得到数以百万计的分子结构、设计和制造新分子、预测脱靶效果和毒性、预测试验药物的剂量,开发大规模细胞检测。通过机器学习预测毒性来减少临床前动物试验是有希望的。人工智能密码学已被用于整合大型制药公司的数据集,并发现以前未知的药物相互作用。剑桥大学和曼彻斯特大学的机器人“伊芙”(eve)的故事,以及它如何自主发现了一种牙膏成分中含有的抗疟药物,激发了人们利用人工智能加速这一过程的兴趣。
限制和挑战
尽管人工智能技术前景光明,但也存在巨大的障碍和陷阱。人工智能的炒作程度已经远远超过了人工智能的科学水平,特别是当它涉及到病人的护理时。最近的一个例子是IBM Watson Health的癌症AI算法(在肿瘤学中称为Watson)。该算法被全球数百家医院用于给癌症患者推荐治疗方法,但它只是基于少量的非真实病例诞生的,来自肿瘤学家输入的真实数据非常有限。许多Watson所建议的治疗被证明是错误的,比如建议给严重出血的病人使用贝伐珠单抗,而这是该药明确的禁忌症,已被标为“黑框”警告。这个例子还凸显了一个有缺陷的算法可能对病人造成重大伤害,从而导致医疗事故。机器算法诱发医源性风险的潜力是巨大的。因此,当人工智能算法在临床实践中得到应用时,就需要进行系统的调试、审核、大量的模拟、验证和前瞻性的审查。
不平等是当今医疗保健中最重要的问题之一,尤其是在美国,它没有为所有公民提供医疗保障。由于社会经济地位低是早亡的主要风险因素,在“富人”而不是“穷人”中过多地使用人工智能可能会扩大目前在健康结局方面的差距。与这一问题交织在一起的是,由于数据集中没有包含少数群体,许多算法中都存在固有的偏见,加剧了本就存在的不公平现象。例如,皮肤科诊断黑色素瘤的算法,由于缺乏某些肤色和基因组数据,以至很难代表少数族裔。
人工智能在医学领域的未来,一个压倒一切的问题在于如何保障数据的隐私和安全。考虑到黑客攻击和数据泄露的普遍问题,人们不太愿意使用可能泄露病人病史细节的算法。此外,还存在蓄意入侵算法以大规模伤害人类的风险,比如糖尿病患者服用过量的胰岛素或刺激除颤器工作。个人身份越来越有可能通过面部识别或基因组序列信息来确定,这进一步妨碍了隐私保护。需要建立个人健康数据所有权、使用高度安全的数据平台,以应对若隐若现的安全问题,否则这些问题将阻碍或毁掉人工智能在医学领域发展的机会。
未来的考虑
将人工智能引入医学的过程才刚刚开始,这个领域的前景广阔,但数据和证据相对较少。错误算法的风险比单个医患交互的风险要高得多,但是好的算法回报是巨大的——减少错误、低效和成本。因此,人工智能在医学上无一例外需要严格的研究,在同行评议的期刊上发表结果,在真实世界中进行临床验证,然后才能在病人诊治中推出和实施(图4)。
如今,人们普遍认为医生将被机器取代,这一观点说穿了与自动驾驶汽车模型类似。大多数人会同意,自动驾驶汽车代表了人工智能迄今为止的最高技术成就,但“自动驾驶”这个词有误导性。汽车工程师协会(SAE)定义了5个级别的自主权,5级表示汽车完全自主控制,没有任何可能被人类控制 (图5)。现在认识到,这种充分的自治可能永远不会实现。出于同样的原因,医学不太可能超过3级,3级是一种有条件的自动化,人类确实需要对图像和数据的算法解释进行监督。人类健康太宝贵了,把它交给机器,除了那些风险极小的日常事务,似乎特别牵强。
令人兴奋的是,软件已经能够快速、准确、低成本地消化和处理大量数据,而机器能够看到并做一些人类不可能做的事情。这种能力最终将为高性能医学奠定基础,这是真正的数据驱动,减轻我们对人力资源的依赖。
免责声明
本文来源为其他媒体的内容转载,转载仅作观点分享,版权归原作者所有,如有侵犯版权,请及时联系我们。
下一篇:首款医疗级手表获批FDA