华盛顿人 发表于 2020-3-6 20:06:55

该怎么看拐点?数据科学在突发公共卫生事件中的应用

本帖最后由 华盛顿人 于 2020-3-6 20:16 编辑

  来源:除了确诊率、疑似病患人数、死亡率等疫情指标,还有很多信息能带来帮助。我们也要冷静思考拐点过后的工作。   

            
https://thumbor.ftacademy.cn/unsafe/670x377/http://i.ftimg.net/picture/4/000092764_piclink.jpg

   





  2020年3月6日 01:29 麻省理工学院讲师 来源 为英国《金融时报》中文网撰稿








  当前新型冠状病毒肺炎(COVID-19)疫情牵动着全球关注。随着中国初步呈现疫情防控形势持续向好、生产生活秩序正在加快重回轨道,大家开始谈论起“拐点”。那么,拐点到底是什么?数据科学还可以如何助力全国以及全球抗击疫情?


  从学术的角度来看,“拐点”(Inflection Point)也称“反曲点”,字面含义即为一条连续曲线上改变凹凸性的点。随着拐点的到来,曲线的曲率将发生实质性变化。所以在明确什么是拐点以前,我们需要理解什么是曲线,以及绘制曲线时所采纳的一些假设。在数学中,曲线是从区间到拓扑空间的连续函数的图像。如果我们已知一个描述曲线的基本函数,就可以论证该曲线是否存在拐点并估算它在曲线上的位置。然而在现实世界中,几乎没有任何事物发展会严格遵循已知的函数和它所代表的曲线。因此,我们通常利用已知数据来绘制曲线,并通过观测到的拐点来进一步理解曲线的外形和预测未来曲线的形态。


  不同学科研究都会广泛应用曲线来分析理解复杂现象、非线性关系与事物长期的演变发展,例如自然环境资源承载力(生态学)和经济增长动能(经济学)都是,流行病学研究也常采用曲线以显示新发病例随疾病发生的时间而增减的变化频率。在流行病暴发期间,医疗单位会定期(每日或每周)发布新感染病例(即确诊病例),而新报告病例的趋势表明疫情是恶化还是在改善。通过实际采集的数据,我们可以绘制连续而平滑的曲线,并通过观测曲线的曲率来估算疫情的变化并大致预测未来趋势。同时,配合过往的流行病案例(例如2002年中国非典疫情与2009年H1N1流感疫情),以及其对应的历史数据,也能辅助我们理解不同类型的疫病的发展形态。


  谈论拐点时,我们也需要明确该拐点位于什么样的曲线。以疫情的“累积确诊”案例曲线为例,假设当该曲线经过拐点发生拐弯时,这一天是一个重要的转折点,即累积确诊人数由快速增长转变为慢速增长。这天之后,每日确诊人数会逐渐减少,反应了疾病的传播开始下降。另一个曲线是“住院患者总人数”,随着控制病毒传播、提升检测能力,与增加治疗效果等多种作用下,我们还会在这个曲线上再经历一个拐点。而当住院患者总人数曲线经过拐点发生拐弯时,则代表着由于实行多种努力后,患病人数负增长(即每日治愈出院人数大于当日确诊入院人数)。


  我们还可以如何利用数据科学更好的找到拐点?前面已指出,拐点是基于对现有数据进行的观测分析并结合预测模型估算的,因此,更加全面与精确的数据将帮助流行病学家更快更准地预测拐点。如果说流行病学家对疫病的传播机制,诊断监测,与防治管理有着深厚的经验知识,那么数据科学家应发挥其在数据采集,分析,与应用方面的专业技术。目前数据科学急需的工作是为信息采集以及数据录入工作提供一些具体明确,易于理解,和可操作强的指导原则与规范方法。疫情当下,很多人都在关注确诊率、疑似病患人数、以及死亡人数等指标。然而除此之外,还有很多其他的信息可能会带来帮助,这就需要数据科学的专业人士以跨学科的角度来指导数据挖掘和录入流程,以确保其他辅助信息能够得到合理有效的利用。


  近年来,市政信息化平台和手机应用产生了海量的信息, 然而大多数共享信息并不直接产生可直接分析的数据,还需要数据科学的人士来指导并优化数据的采集与录入。比方说,在这次疫情事件中,许多防疫信息在最快的速度以图表的形式通过社交媒体传达给广大百姓的手中。然而如何录入该类信息并转化为可用来进行运算的数据仍然是一个尚未规范化的问题。一些查找带有疑似病例人员的高铁班次与飞机航班的信息是以文字结合图片形式发送的,例如 “查找1月18日 火车 KXXX 次 X号 车厢 某市至某市的乘客”,此类信息虽然浅显易懂,却无法直接为数据科学家们提供可以进行运算分析的数据资源。 例如,假设我们希望通过查找列车的信息并结合其线路依次停靠的城市来量化潜在风险,需要如何整理此类数据?假设我们希望将此类已公开信息转化成公开数据,并提供一个实时数据库或是应用程序接口, 数据科学家如何与信息收的集发布机构进行对接? 在解决了以上问题后,运算团队才能获得可靠的数据资源用以统计分析、空间建模、或是机器学习。因此,数据科学专业人士应结合专业常识和可借鉴的以往研究来解读数据,并与从事应用开发以及可视化的团队进行沟通,以确保相关数据的合理解读。


  在期待拐点到来的同时,数据科学家也应该要冷静思考拐点过后需要做的工作。


  随着疫情不断得到有效控制,我们需要在不放松应急措施的同时,对数据进行更加深入而全面的研究。我们需要意识到不仅仅有疫病曲线,还有经济与民生曲线。我们应该探索如何利用数据帮助经济恢复、公共健康、与社区服务,以帮助经济生产与百姓生活回到正轨。具体而言,数据科学家需要在短期内对当前城市中医疗人员设备,物资物流,交通,与社区管理进行数据收集分析,并结合此次疫情优化提升其在紧急事件中的应对能力。在宏观方面,数据科学家需要考虑如何在区域尺度进行数据分析作为未来的一个长期研究,包括对市际,省际人口迁徙的量化与预测,以及基于模拟假设情景中的区域风险评估。此外,随着越来越多的治愈患者出院和城市恢复生产,数据科学家需要探索如何利用城市大数据来完善我们当前城市管理的信息盲点,优化信息共享,尤其是在小尺度下如何利用数据帮助社区服务,涉及到病患康复,心理创伤恢复,以及居民生活质量的保证。近年来的研究与实践证明,新的数据采集可以支持城市管理、公共政策,与社区服务,例如,美国纽约市将城市中的行道树进行地理信息数据采集,或是剑桥市对所有宠物狗进行数据化管理。此类新数据的收集管理亦可应用在公共卫生健康与应对突发公共卫生事件。在保护信息安全与尊重个人隐私的前提下,新数据可指导相关城市服务系统与社会机构以及社区组织提供定点到位的个性化服务,例如跟进出院病患康复情况、医护人员及家属心理支援、独居老人生活服务、留守儿童看护等需要精准地区信息且关注于具体人群的服务。


  数据科学作为一门新兴的交叉学科,能为疫情防治与经济恢复带来帮助。此次疫情不仅警示了全球面临的新风险与挑战,也引发对新数据与新科技应用的思考。在拐点到来之际,我们应更加重视数据科学在应对全球性突发公共卫生事件中的重要作用,并不断探索未来可行的应用。


页: [1]
查看完整版本: 该怎么看拐点?数据科学在突发公共卫生事件中的应用