林强接受了一整套的身体检查,检查内容甚至包括了全身CT扫描和mNGS测序。检查价格高昂,耗时也颇久。但对于一个4U机箱里满满当当塞进去八张TESLA V100加速卡的实验组来说,这部分的花费其实并不算难以承受。
严格来说,林强是老东西第一次进行实际操作实验的对象。虽然组内的研究员们对于是否有必要第一次实验就把老东西应用在这种疑难杂症上有些意见不太统一,但既然已经决定了,那大家还是希望全力以赴,尽量为老东西搜集到更多的资料。
资料越多,老东西能做出的诊断理论上就会越精确。
要想知道他们的AI算法设计到底有没有问题,光凭提前得出答案的那些病例报告肯定是不够的——在人工总结记录病例的时候,人们总是会不自觉地去除一些不够“直接”的数据,以保证报告本身的简单易读。
而这些用来保证其他人阅读顺畅的处理方法,事实上给老东西省了不少麻烦——人体症状表现实在是太多了点,能否排除这些多余变量,准确找到病因,这才是老东西目前需要面临的最大考验。
而让这群实验人员感觉抓狂的是,哪怕他们尽心尽力,想尽一切办法给老东西搞来了所有的资料,他们却不能马上验证老东西的计算是否正确——没有人知道林强到底得了什么病,就连吴友谦院长和三军医大的专家们得出的诊断结论也有着相当的模糊空间。
AI设计人员和运行管理人员不是医生,他们是标准的理科生。计算结果要么是明确的A或者B,要么是在某些明确范围内有多个结果。结果现在可好,计算出来的答案和标准答案对不上。要是完全对不上也就算了,那至少有个明确的“你们做错了,需要重新检查流程”的信号。有明确的结果,但是参考答案却模糊不清——这还怎么做参考?
吴友谦看着面前一脸急色的众多运营人员,浑不在意的摆了摆手,“看看你们这个样子,太没城府了。”他笑眯眯的喝了一口茶水,“医生在临床上遇到诊断不明的患者,也要用些手段排除一下才行。你们这就像是要求医生第一个念头就得正中靶心,找到疾病问题一样。别说他孙立恩了,你找哪个医生来都做不到。老东西这才修正了一年不到,正确率不是已经快赶上他了?”
“孙医生的误诊率太低了,要不是每个诊断都有视频作证,我肯定要怀疑他是做了弊的。”带头的实验员员擦了一把脸上的汗,“他的平均误诊率还不到18%,急诊相关的诊断误诊率才10%左右。老东西现在的平均误诊率在25%。要不是孙医生妇科和产科误诊率比较高,那可真就成了妖怪了。”
“老东西的设计方向就是‘医生临床诊断的参考’,它一开始的设计就不是为了代替医生。”吴友谦看着面前神色不一的研究员们,笑眯眯的解释道,“我能理解你们这个想要把自己的成果完善到尽善尽美地步的想法,但是搞科研也要尊重客观事实——无论你们怎么努力,治疗和诊断这始终是医生的专业工作。想要替代他们是不可能的,能够把一个它做成一个好用的,可以依赖的工具,这就是你们现阶段的工作。”
误诊率这个话题虽然很多从业人员都不愿提起,但必须承认的是,国内外的医疗活动中,误诊现象普遍存在。抛去需要被转交司法部门处理的故意误诊不谈,医生们平均的误诊率大约在30%左右。这些误诊可能是由于疾病的不同表现特征,不典型表现,或者医生们经验不足,甚至患者隐瞒病史,导致诊断依据信息出错等等。
而在中国,导致医生们误诊的除了以上原因之外,工作压力和疲劳所占比例也非常巨大。孙立恩能够达到18%的平均误诊率,其主要原因并不是因为本身能力多么出众,而是因为每日处理的病例有限,而且在不直接接触患者的前提下,他能够花更多时间,更多精力在每一个个案中。并且几乎可以不受限制的对每一个病例进行任何他想做的检查,完全不用考虑患者家属是否能够承担的起检查费用,或者他们愿不愿意配合。
孙立恩的情况属于特例,毫不夸张的说,在实验楼的“第九诊室”中,孙立恩绝对是全国乃至全世界里过的最滋润的医生。而现实情况却和这种理想状况天差地别。
项目组会提出AI诊断的目的也在于此,如果能够通过一套基于云服务的AI算法,给医生们提供一个不会有任何怨言,也不会因为疲劳和工作压力出现失误的“第二意见”,那么必然能够显著降低误诊率。
然而目前看来,老东西似乎还有很长的路要走。
·
·