• 元宇宙:本站分享元宇宙相关资讯,资讯仅代表作者观点与网站立场无关,仅供参考。

专访锘崴科技:被低估的隐私计算硅谷精英战队

  • 2022-04-27 09:00:22


来源| 零壹财经

作者 | 温泉 刘霁雯


“一拍即合!”


回忆起与创始人、董事长王爽的相遇,锘崴科技创始人、CEO郑灏的语气中带着兴奋。


2018年,郑灏被研究中的一个问题困住了。彼时,他正在全球液体活检最领先的企业Golden Health负责辅助临床诊断的算法开发工作,带领团队为罕见病做早期预测模型。做模型的首要条件是获得足够有价值的数据,而罕见病数据获取难度极大。每家医院一般只有五六个病例,要获得足够的研究数据必须连接几十家甚至几百家医院数据进行联合建模。而当时欧盟通过的史上最严的数据保护法案GDPR刚刚生效不久,美国的CCPA也刚刚公布,个人数据严监管的趋势已经明晰。个人医疗数据是隐私中的隐私,要从上百家医院获取这些数据,看上去变成了一个不可能完成的任务。


不久后的一个活动让他茅塞顿开。当时,郑灏应邀参加斯坦福大学组织的中国学者联合会。在这场聚会中,一个演讲主题吸引了他的注意。这个演讲介绍的是隐私计算技术在医疗领域的应用探索,运用隐私计算技术,可以打破医疗数据孤岛,让数据可用不可见,为许多疾病的研究提供更广泛的数据支持。——这让郑灏面临的问题一下子找到了解决方案。当时的演讲者正是王爽,彼时他正在加州大学圣迭戈分校担任生物信息学教授。


2018年,是数据安全发展历程中的关键一年。这一年,数据严监管在全球成为大势所趋。除了欧盟的GDPR和美国的CCPA之外,在中国,关乎数据安全的两部基础法律——《数据安全法》和《个人信息保护法》也被纳入人大常委会立法规划。


看准了趋势,2019年底,郑灏和王爽发动了在美国硅谷的同事、学生,连同他们两人在内,一共7人回到中国。他们的目标是,建立一家专注隐私计算服务的公司,运用科技来实现数据的“可用不可见”,支持解决数据利用与数据保护之间的矛盾,服务于正在腾飞的中国数字经济。

锘崴科技创始人、董事长王爽(左)与锘崴科技创始人、CEO郑灏(右)


开创医疗应用



他们带回来的,是已经在医疗领域经过实践检验的隐私计算技术。王爽本人,正是隐私计算技术在全球医疗领域应用的开创者之一,其对联邦学习原理的探索和应用甚至早于目前公认的联邦学习的开创者谷歌。

王爽最早接触隐私计算相关技术是在2007年。当时他正在美国攻读电子与计算机工程博士学位,在此期间参与了美国国家科学基金会的一个研究项目,研究传感器网络的通信问题。当时传感器之间的通信并不容易,不但受制于网络带宽,还受制于电池的电量。王爽所在的项目组提出了运用分布式编码来优化传感器之间的通信效果,即相邻传感器之间在不需要交换数据的前提下,也可以利用彼此采集到信号中的相关冗余信息,来减少通信量,从而节省带宽、延长电池寿命。当时的分布式编码原理与今天的联邦学习相似,即多个数据源在数据“可用不可见”的前提下合作,只不过解决的问题不局限于数据隐私保护。

之后很快,美国电网出现了对这项技术的需求。2009年美国开始大力发展智能电网。智能电网的有效运行,需要每家每户的智能电表每15分钟上传一次用电量数据,这样电网可以根据用电量来调度电力,减少浪费。但是,人们很快发现,用电量的频繁上传,会使得个人隐私暴露,应用一些特定的算法很容易就可以根据一个家庭的每15分钟的用电量模式推算出屋里的活动情况。这使得智能电网的推行遇到巨大的阻力。很快,王爽找到了这个问题的办法。他发现,电网需要的只是统计数据,而不需要每家每户的具体用电数据。他研究出一套方案,可以做到既让电厂拿到各项统计数据,又不暴露单个用户的用电量。他所用的方法,与此前解决传感器通信问题的方法原理相通。

这两个项目过后,一个偶然的机会,让王爽有机会尝试将隐私计算技术应用在医疗领域。

在一次学术活动上,王爽遇到一位加州大学圣迭戈分校医学院的师兄。对方听说他在研究隐私保护技术,又临近博毕业,正在找实习,便盛情邀请他去医学院实习,帮助解决棘手的医疗数据共享使用中的隐私问题。

实习结束后,王爽进入加州大学圣迭戈分校(简称UCSD)工作。美国一共有8个国家级的生物医学计算中心,其中坐落于UCSD的iDASH中心,也就是王爽所在的中心,是负责全美医疗领域数据安全和隐私保护的国家级中心。

2011年底,王爽加入了一个项目——研究如何利用多中心数据联合分析来来提高心脏病治疗有效性的研究。当时,项目遇到一个难题:加州大学体系下有5家医院,每一家都有一些心脏病人,单独做分析,样本数量都不够,可医院之间又不敢贸然直接交换病人的数据。

在解决这个问题的过程中,王爽应用了之前解决智能电网问题时所用的思路,当时命名为“隐私保护下的分布式机器学习”方案。应用这个方案,医院不需要把数据分享出来、不需要集中在一起训练模型。而是反过来,先用每家医院自有的数据训练一个“小模型”,再把几家医院分别训练出的“小模型”加密后放到一起,训练出一个更准确的加密的“大模型”。整个过程中谁也不会暴露自己的原始数据,却又用到所有数据,从而做到数据的“可用而不可见”。

这个项目大获成功。从2011年底到2014年,用了大约三年时间,王爽所在的项目组应用“隐私保护下的分布式机器学习”方案打通了加州大学旗下5家医院的数据。现在回过头来看,这可能是全球范围内隐私计算技术在医疗领域的第一例应用。

此后,隐私计算在美国医疗领域的应用一发不可收拾。在接下来的2014年至2017年的三年时间里,美国西海岸医共体也应用了隐私计算技术,形成了国家级数据网络。这个网络覆盖了几百家医院、大约3000万患者,相当于覆盖了美国人口的十分之一。之后,美国中部和东海岸等地也开始建立类似的网络。

在此过程中,王爽牵头发起了目前全球隐私保护和安全计算方面最早也是影响力最大的国际竞赛iDASH竞赛。

最初,隐私计算在医疗领域的应用难点重重。其中最大的问题是跨学科的沟通问题,密码学的专家不懂医学,医学专家不懂密码学,双方很难对话。为了促进跨学科的交流,2014年王爽主持创办了一个讨论社区“iDASH 隐私安全研习大会(iDASH Privacy & Security Workshop)”,其初衷就是让密码学研究者能够真正接触医学界,用技术来解决医疗中的实际问题,而不是闭门造车。

之所以叫iDASH,是因为iDASH是当时全美唯一一个负责医疗数据隐私保护的国家级计算中心的简称。后来iDASH成为医疗数据隐私保护的代名词,同时王爽作为相关项目负责人(PI)获得美国国立卫生研究院(NIH)的资助,所以王爽就把这个项目冠名为iDASH。之所以采用“竞赛”的形式,是想要将实际的医学问题转化成计算机、密码学领域专家能够理解的算法问题,从而拉动更多的专业学者参与到隐私计算的具体应用场景中,促进问题的快速解决。

后来iDASH的发展大大超出预期。许多国际顶尖的学者和公司都开始加入到这个比赛当中,目前它已经发展成为隐私保护和安全计算方面最高规格的国际竞赛。

由此,可以确定的是,谷歌在2015年发表关于联邦学习的论文时,隐私计算技术已经在许多领域有了应用探索和落地。

根据王爽的了解,联邦学习的原理最早可以追溯到1996年对分布式数据库的规则挖掘,其原理就是各个数据源不分享个体数据的情况下可以联合分析。当时,不同数据库有不同的用户使用规则,如何能够在不分享每个数据库规则的同时,联合训练出一个满足所有人要求的规则,这是联邦学习技术最原始的应用场景和需求。

王爽总结,自己的项目组所做的工作和谷歌所做的工作,其实是基于同一原理,在不同的应用场景中、为了解决不同的具体问题而形成的两套技术解决方案。

根据他的了解,这两套方案有如下差异:

其一,应用场景不同。谷歌方案基于安卓系统,计算节点是不同个体的手机,应用场景更多地与自然语言处理相关;而王爽方案侧重医疗场景,着重于对多个医院、多个数据源之间的多中心联合分析。

其二,技术路线不同。谷歌方案涉及到的计算节点都是个人的手机,而每个手机的通信宽带和算力是有限的,在技术方面,谷歌会集中地做一些通信和算力的优化,虽然有上千万或者上亿个“个人级”终端,但是对每个终端只做非常简单的计算;而在王爽的项目中,每个大型数据中心都有大量的算力和相对较高的带宽,可以支持大规模计算,每个中心可能有几千或上万的病人,每个病人可能有几百G的数据需要分析,因此王爽更多地集中于对“企业级”数据的跨中心联合计算。

其三,精度要求不同。谷歌方案要解决的问题是在移动终端对用户行为进行预测,通过用户输入的文字信息预测用户的需求,这个过程对模型的精度要求并不高,带有隐私保护的模型得到的结果只要和传统把数据汇集后的中心化计算结果差不多就行;而在医疗场景下,因为医疗数据和模型是需要可解释的,且所得到的结果和病人的生命安全息息相关,任何偏差都有可能导致严重的后果,损害患者的生命安全。所以要求在分布式计算下得到的结果完全等价于把数据汇总后得到的结果,在这个过程中,如果联邦学习或者隐私计算技术的应用影响了最后的精度,那么这个解决方案就不可用,因此对精度的要求非常高。

其四,安全性要求不同。谷歌拥有上亿个安卓用户的信息,所以个体用户的作恶掺假对于整体的模型影响并不大,因此通常采取半诚实模型。而在医疗场景中,用户规模没有那么大,往往牵涉到十几个中心或者几十个中心联合计算,每个中心会有几千个病人,如果其中一个计算中心作假或者产生一些恶意行为,对于整个结果的影响会非常严重,带来的伤害是不堪设想的,不仅会导致病人的隐私泄露还可能损害到他们的生命安全。所以,在医疗方面往往使用恶意模型,但同时这也对隐私计算服务提供商的技术实力提出更高的要求。

在一次接受访谈时,来访者问王爽,“你当时看到谷歌那篇博客文章,有觉得谷歌抢走了本该属于你的荣誉吗?”

王爽坦然道:“当时我还在学术界,对这些词汇上的东西不是很在意,而且解决的问题也不一样。当时谷歌解决的问题集中在2C(面向消费者)领域,我所关注解决的问题主要在2B(面向企业级用户)领域,虽然理念上很相近。”

十年攻坚



从将大量精力投入到隐私计算在医疗领域应用中的2011年算起,王爽至今已经在这个领域深耕十年。在这十年间,王爽和他的团队不断地进行技术的探索和迭代,解决了许多隐私计算在医疗领域应用中面临的关键问题。

2011年,王爽的“隐私保护下的分布式机器学习”方案在加州大学体系下5家医院落地的时候,技术与后来相比要简单得多。当时这个方案有隐私保护的功能、能够连接的数据源只有5个、可以对数据进行的分析只有逻辑回归。

与其他领域相比,医疗领域的数据处理复杂度较高。

从对数据源的要求来说,要进行医学研究,数据源越多越好,大多数问题都不是5个数据源能解决的。不像金融领域,两方或者三方数据联合分析,就能够取得很明显的业务效果。

从数据结构来看,医疗数据类型丰富,处理难度较大。医疗领域除了结构化的数据,还有非结构化数据。比如,医生的医嘱就是一种很常见的医疗非结构化数据,需要通过运用自然语言处理技术,对医嘱进行语义识别,然后转化为结构化数据进行处理,这其中有诸多技术问题需要解决。再比如影像数据的处理,涉及到病灶的勾画、识别,这都是非医疗领域的研究者没有触及的问题,在实际操作中需要专业的隐私计算工具的支持。

从数据量来看,医疗领域需要处理的数据量也极大。比如基因数据体量非常大。一个个体的全基因组数据大约为300个GB,如果要做一个疾病的研究,即使样本只有1000个患者,需要处理的数据量也有300TB,更别说研究需要更多的样本、更大量的数据。

从数据的分析处理上来看,医疗领域需要运用的数据分析模型也比较复杂。比如,在医疗领域,相似病人的比较,就是一个比较复杂的问题。在金融领域,如果要定位多个数据源的用户,只需要运用隐私求交的技术(Private Set Intersection,简称PSI)找到两个机构重叠的客户就可以。但是,在医疗领域,要找到相似的患者来进行比较的话就复杂了,这个“相似”的定义非常广泛,需要进一步明确,是按照基因序列的相似性来寻找,还是按照病理数据的相似性来寻找,这其中要结合医学知识和需要解决的问题来处理。

在过去的十年间,王爽和他的团队在实际场景的应用中将这些问题一一解决。系统从最初只能接入5个数据源,到后来可以接入上百家医院数千万人;从最初只能进行简单的逻辑回归分析,到后来可以支持不同的统计、假设检验、生成率、基因数据分析、影像数据分析等复杂多样的分析;从最初只能处理结构化数据,到后来可以处理各种非结构化数据;从最初只能进行横向联邦学习,到后来也可以进行纵向联邦学习等分析;从最初应用多方安全计算,到后来引入同态加密、可信执行环境等多种技术来确保安全。

对于锘崴科技来说,这是一道由时间铸就的护城河。如今,锘崴科技可以提供多种技术,针对不同场景的特定需求,基于底层技术模块的自动化组合,提供特定的技术应用。王爽告诉零壹财经,要对多种技术进行恰当的组合,不仅要对每一种技术路线的能力以及它的保护范围要比较了解,而且对于每一个技术路线的理解要比较深入。

过去十年,在运用隐私计算技术解决医疗场景的问题方面,王爽和他的团队实现了两次“全球首创”:2015年,实现全球首次将同态加密技术应用到联邦式多中心罕见病研究中;2016年,实现全球首次基于可信执行环境技术进行跨国且联邦式的多中心罕见病研究,这也是可信执行环境在全球首次进入商用场景。

在这两个“全球首创”里,王爽和他的团队都解决了关键难题,作出了开创性的贡献。

所谓“同态加密”,就是这个技术可以使得在密文下的加法和乘法计算,等价于在明文上的计算。态加密的概念虽然在1978年就已经提出,但是直到2009年才找到了能够将同态加密实现的具体算法。这是一种比较理想的加密计算技术。但是即使这样,同态加密在进入真实应用场景方面仍有难题:第一,它只支持密文下的加法和乘法的运算,而且由于每次计算会加入噪音,所以累计的密文运算次数受限,在不使用全同态算法下(一种计算复杂度非常高的算法),不可以做任意次的计算;第二,它的计算代价比较大,2015年同态加密技术在密文下的计算要比在明文下的计算慢百万倍。这两个限制条件,使得同态加密当时很难应用到真实场景中。

2015年,在将同态加密技术应用到罕见病研究的过程中,王爽和他的团队解决了三个关键问题:

第一,通过算法优化,使得同态加密技术在有限次的计算中能够完成真实场景中的任务。当时王爽通过算法优化,使得同态加密技术在更少次乘法计算之内,完成了罕见病研究中的统计假设检验的计算。

第二,基于具体计算任务,通过对数据结构的改造,大大加快了同态加密的计算速度。当时王爽通过巧妙的数据结构,使得数据可以实现在密文下的并行计算,从而使得在密文下的一次计算,可以等价于在明文下的成千上万次的计算,将计算性能提升了一个数量级。

第三,通过算法构建使得数据在密文下可以进行比较。以往,数据加密以后没办法比较大小。王爽通过应用巧妙的算法,使得数据在同态加密的密文状态下可以比较大小。

这项研究成功之后, 2017年王爽牵头,与美国国家标准与技术研究院(National Institute of Standards and Technology,简称NIST)和国际标准化组织ISO,以及一些国际大厂,如IBM、微软等,一起成立了国际同态加密标准委员会,并且制定了同态加密应用标准。

“两个首创”中的另一个,是首次将可信执行环境应用到医疗场景中。

所谓可信执行环境(TEE),就是通过结合软硬件方法,在CPU中构建一个安全区域,保证其内部的程序和数据的机密性和完整性。这个概念虽然在2009年由国际组织Open Mobile Terminal Platform (OMTP)提出,但是一直没有找到在通用数据安全计算领域的商业化应用的可行性,这是因为TEE在实际应用中面临一些问题:第一,是对TEE的认证问题,为了保护数据隐私,不同数据源间的可信计算模块需要实现互信,而当时缺乏一份公认的认证协议;第二,当时TEE的内存很小,而要处理的数据量级很大,TEE难以处理海量数据。2015年,英特尔提出对TEE大规模商用的可行性环境。在当时,英特尔的可信执行环境还处于内部测试阶段,硬件已经支持,软件还没有对外公布,英特尔需要在全球范围内寻找合作伙伴,来测试TEE的实际应用。第一批授权,英特尔全球范围内只授权了两个机构,其中一个,就是王爽团队。

王爽将可信执行环境技术应用到了对全球跨国的罕见病研究中。他联系了美国、英国和新加坡的多个医院,通过在不同医院部署本地的计算节点,在TEE加联邦学习的保护下,实现了跨国的多中心研究。这项研究成果获得了英特尔的杰出贡献奖。

这是可信执行环境在医学领域的第一次应用,王爽团队在其中做出了三项开创性贡献,解决了可信执行环境从有初步的产品到真正在实际场景中落地所面临的技术瓶颈:

第一,通过设计协议,满足医疗数据交互的安全性。可信执行环境只是CPU的硬件模块,是需要一些算法和协议才能保证传入到安全计算模块之前和计算过程当中的,在涉及跨多个国家的计算时,需要跨多个国家的安全互认。王爽开发了一套协议,通过这套协议,可以在不同数据源实现对可信执行环境模块的认证,密钥的动态分发以及互信,建立一个安全计算的网络。

第二,通过压缩通信算法,优化数据传输问题。跨国研究面临着数据延时、体量大的问题,王爽进行了通信上的压缩算法,能够在秒级实现跨太平洋大西洋之间的数据传输以及计算。

第三,通过优化与编排算法,实现了对海量数据的高效计算。第一代可信执行环境内存只有128MB,而要处理的数据却是GB级或TB级的,如何在内存有限的情况下处理海量的数据是个问题。王爽通过对算法层面的编排和优化,同时结合联邦学习的思想,实现了海量数据在有限内存下的高效计算。

深耕医疗场景



此前,隐私计算在医疗领域的发展前景被低估了。

2021年,隐私计算技术开始在真实商业场景中大规模落地。但是,这似乎与医疗领域关系不大,最热闹的是金融。在业内,更多人认为医疗领域进展缓慢。曾有一位创业者向零壹财经回忆,在公司创办之初,去医院做调研,医院还在用光盘存储数据。这样的数字化程度,让该创业者放弃了进军医疗领域的计划。

但是,王爽向零壹财经透露,到目前为止,锘崴科技落地的场景(包括POC在内)却已经超过50个——从零壹财经调研的横向对比来看,这个数量与2021年在金融领域落地应用较多的隐私计算厂商所落地的场景数量相当。

通过在实际医疗场景中的探索,锘崴科技看到,未来隐私计算将给医疗领域带来极大的变革,疾病治疗、药物研究、医疗保险、营销等许多领域都会因之发生变化。

隐私计算技术的应用,将为许多疾病的治疗带来新的突破。

比如,锘崴曾参与过“川崎病”的研究,隐私计算技术在对这种疾病的研究上起到了巨大的推动作用。“川崎病”是一种儿童罕见病,且至今找不到发病原因,每家医院的样本量也非常有限。在这种情况下,就必须实现不同样本中心的数据连接,找到足够多的病例来进行研究。锘崴通过与全球多个医院合作,找到了250个家庭的750个个体,开展了多中心样本研究。通过研究,医院可以分析与川崎病相关的基因位点,这在单中心的研究中是无法实现的,因为样本量不够。根据锘崴科技的比较,在这项研究中,统计效果比之前的单中心研究提升了20%—30%。这种相关性的发现,对“川崎病”的早期诊断和治疗至关重要,它可以进一步用来指导临床诊断和药物研发。许多罕见病的痛点就是早期很难诊断或预警,因为很少有医生有机会了解这些疾病。这些疾病在早期的症状与普通疾病差别很小,难以识别,很容易被误诊。如果能够实现早期诊断,就有可能实现早期干预,避免病情恶化。

隐私计算技术在疾病治疗方面的研究不仅限于对罕见病的研究,而是对所有疾病的研究都可能有所帮助。目前,锘崴科技正在与医疗机构合作,将隐私计算技术应用在消化外科结直肠癌的研究当中,希望能够在这种发病率在全球排名第三的癌症的研究中有所贡献。

不仅如此,锘崴科技还在尝试与医疗机构合作,运用隐私计算平台支持建立疾病的查询网络,从而建立临床辅助诊断的指南。如果这个网络能够建成,未来这将极大改变疾病的治疗方式和效果。目前,疾病的诊断更多依靠医生的个人经验,但是个人经验的积累非常缓慢。如果未来网络建成,医生在处理临床案例时就可以参考全国甚至全球相似的案例,了解治疗路径,采取最佳治疗方式,其前景令人期待。

类似的效应还体现在药物研究方面。比如,锘崴科技参与了静脉血栓的预测和防治项目。很多手术完成后,手术过程或者药物治疗会导致静脉产生血栓,这是一种在临床上有可能会致命的并发症。为了防止静脉血栓的出现,需要手术方法与药物进行配合,这里就涉及到药厂对外科手术的研究。锘崴科技为药厂提供隐私计算技术,在全国范围内收集数据,结合药厂的需求,通过联邦学习实现多中心分析,可以比较在用某种药和不用某种药的情况下,病人的生存率或者是否得了静脉血栓,从而为药物的研究提供依据。

在医疗保险领域,锘崴科技进行了在营销与预核保场景的探索。

在保险营销场景中,锘崴科技的合作伙伴以保险经代公司居多。这里涉及到三方信息的匹配,即保险产品、保险经代公司的销售代表和客户。不同保险产品的定位不同,产品的受众也不同,这里涉及到保险产品和目标用户的匹配,而产品是需要销售代表推销的,不同销售代表的专业程度不同,因此也需要保险产品匹配合适保险销售人员。锘崴科技提供的隐私计算平台,可以结合保险公司数据、保险经代公司数据、移动运营商数据、体检中心数据,建立精准的匹配模型,实现更精准的用户触达。

预核保场景则与保险营销场景稍有差别。核保,指的是保险人在对投保的标的信息全面掌握、核实的基础上,对可保风险进行评判与分类,进而决定是否承保、以什么样的条件承保的过程。保险代理公司如果花了大量成本去对客户进行营销推广,最后发现这个客户患有相关疾病,不在保险产品提供服务的范围内,这对双方来说都是巨大的浪费。与锘崴科技合作,保险代理公司可以提前进行预核保工作,在对客户进行深度营销之前,在用户授权的前提下,能够提前排除不在保险范围内的客户,提前规避风险。而在此前,一般缺乏关于客户的更多维度的数据,这一点无法做到。

这两个场景之外,锘崴科技看到,未来隐私计算在保险方面的应用还有向上下游延伸的巨大潜力和空间。目前锘崴科技看到的主要有两个方向,一个是在保险产品的设计方面,一个是在健康管理方面。

在保险产品的设计方面,隐私计算平台通过与更多医疗数据源的连接,可以支持保险公司运用更多维的数据来进行保险产品的风控和定价,从而推动更多更好的保险产品出现。

在健康管理方面,保险公司为客户承保之后,为了降低理赔风险,有动力为客户提供后续的增值服务,以降低客户的患病风险,从而实现保险公司的收益最大化。在这其中,要为客户提供健康管理的增值服务,就涉及到通过对客户各类数据的精准跟踪,来预判客户的健康风险、采取有效的干预措施。这并不是遥不可及的畅想,美国的健康管理市场已经形成。

在保险之外的健康营销领域,锘崴科技目前也有落地案例。

比如,锘崴科技曾与一家跨国营养品公司展开合作,帮助该公司实现了基于基因数据的营销。跨国营养品公司受限于国家法律的规定,不能直接碰触中国公民的数据。一方面,跨国营养品公司本身不愿把客户信息和模型数据给基因检测公司;另一方面,基因检测公司也不能把中国公民的基因数据给跨国营养品公司。在这个案例中,锘崴基于自身的锘崴信云计算平台提供了解决方案,该平台可以为双方提供相关接口,在加密状态下完成用户与产品之间的匹配计算,然后将结果同样以加密的形式传回到公司与客户的手机端。这就实现了医疗数据的可用不可见,利用隐私计算对医疗用户数据进行价值转换,刻画用户画像,帮助营养品公司实现了精准营销。

拓展金融、政务版图



基于在医疗领域的应用探索和技术积累,锘崴科技发现自身的平台在其他领域亦有应用前景,比如金融和政务领域。

先看金融领域。投保风控和征信,就是锘崴科技在金融领域具有应用优势的两个典型场景。

在投保风控这个金融应用中,特定场景下,专注于医疗领域的锘崴科技反而更有优势。在健康险场景中就是这样。健康险主要关注用户的健康状况和经济状况,产品类型和定价需要考虑用户的收入水平,理赔和风控需要考虑用户的健康状况,这个场景横跨了“健康”与“金融”两个板块。而要了解到用户的这些信息,就需要保险公司综合相关的医疗数据和移动运营商数据,锘崴科技的隐私计算平台,能够连接这些数据源,帮助保险公司基于这些医疗、金融数据了解用户的疾病信息,进行更加合理的定价,同时,锘崴凭借自身对于医疗疾病模型的积累和理解,也能够帮助保险公司进行潜在用户的分析。

锘崴科技也在支持金融征信服务方面发现了需求。征信机构往往需要综合多个数据源进行数据分析,对多数据源进行联合分析,正是锘崴科技的优势。目前在金融和政务领域,2—3方的数据联合分析比较常见,而锘崴科技已经可以在医疗领域将上百家医院的数据进行联合分析,对于连接多中心数据源有着丰富的经验。在这方面,锘崴科技已经初步有了落地案例的探索,比如锘崴科技曾与某省的大数据中心在普惠金融方面合作,基于锘崴的隐私计算平台,该省大数据中心可以打通多个不同部门的政务数据,使得银行自有的标签信息能够与政务数据结合,刻画出更精准的小微企业画像,以辅助银行进行企业贷款发放。

再看政务领域。通过和一些政府的大数据中心或数据交易所进行合作,锘崴科技致力于帮助政务数据实现价值转换,这一领域的应用与锘崴科技在其他领域的应用还可以相互关联。目前,锘崴科技可以帮助政务数据在智慧城市、金融、医疗等领域进行价值转换。

在智慧城市建设中,辅助安防是锘崴科技探索的重点。传统模式下的城市监控都是采集明文人像数据,在情况允许下可以对这些数据进行收集和人像比对,这其中涉及到生物可识别信息的保存问题。随着对隐私数据保护的要求越来越严格,利用隐私计算改善这种传统监控逐渐成为大势所趋。基于锘崴科技提供的隐私计算平台,公安机关可以实现在人像数据处于加密状态下完成对人像的识别比对以及对嫌疑犯的追踪。

普惠金融也是政务数据可以实现价值转换的领域。锘崴提供的隐私计算平台,能够将水电、社保等政务数据进行结合,精准构建模型,对小微企业进行综合分析,并服务于这些企业,解决贷前征信问题。

甚至医疗领域也是政务数据价值转换的重要领域。部分医疗数据是政务层面的数据,如卫健委掌握的数据。保险公司或者经纪代理公司在推销保险产品时,可能会涉及到健康评估预核保相关的应用,而这些与用户健康相关的数据可能来自政务部门,锘崴通过提供隐私计算平台,可以连接政务部门的数据源,来满足保险公司在预核保阶段的需求。

确定的未来



问题来了,现在即使医疗领域有落地场景,但是要真正大规模应用,产生商业回报,锘崴科技是否需要经历漫长的时间。

在中国科技创业领域,医疗科技是进展相对缓慢的领域。并不是技术水平不行,而是医疗产业链长、生态复杂,医疗领域的发展不仅取决于业务,还取决于政策和体制。因此,科技要想改变医疗领域,需要相对较长的时间。

但是,作为CEO,郑灏已经对此问题进行过深入且周详的考虑,他成竹在胸。

这是一个先慢后快的过程。类似的过程,王爽在美国已经经历过一遍。从2011年到2014年的三年间,王爽和他的团队仅仅在加州大学旗下5家医院完成隐私计算平台的搭建。但是在接下来的三年间,也就是在2014年至2017年间,隐私计算平台的搭建就已经拓展到美国西海岸医共体当中的几百家医院,初步形成网络效应,服务的患者达到3000万,这相当于美国人口的十分之一。

因此,对于隐私计算在中国医疗领域的发展前景,郑灏是充满信心的。这主要是基于四个方面的原因:

第一,由于有此前在美国的应用探索,锘崴科技在中国的创业之路无需再经历完全的从无到有,而是已经有经过实践检验的核心技术在手,这会大大节省在技术方面的摸索时间。

第二,中国的医疗信息化水平与美国相比虽然有差距,但是目前的中国与隐私计算技术刚刚开始在医疗领域应用探索的2011年时的美国相比,却并没有太大差距,而且中国的医疗信息化还正在突飞猛进。

美国的优势是医疗信息化起步较早。上个世纪90年代,美国颁布HIPAA法案,正式对医疗信息化建设进行政策支持,在2000至2010的十年间,美国开始推行电子病历系统,并在2015年实现普及。期间,美国通过HITECH法案,推广EHR(即电子健康档案,Electronic Healthcare Records),标志着美国的医疗信息化自此走向成熟。

而在中国,医疗信息化建设正在快速推进。国家卫健委、国家中医药管理局于2020年12月联合发布《全国公共卫生信息化建设标准与规范(试行)》,明确了对各级医疗机构信息化建设的要求。到了2022年2月,全国二级以上医院已经基本完成HIS等基础信息系统建设,大多数三级医院也建立了远程医疗、区域影像诊断等信息系统。

在这方面,一个增加了挑战的问题在于,中国的医疗信息化系统复杂度更高。全美只有3—4个医院管理系统提供商,但中国却不止。中国头部的医院管理系统提供商只有几家,但是头部的厂商之外,还有更多的位于中尾部的厂商。除了医院管理系统之外,针对不同的业务需求,每家医院都在使用更多种类的医疗信息系统。

但这个问题是可以被解决的。它带来的操作难度主要在于数据互联互通前期的数据清洗的工作量的增加,这会把时间拉长。但是,同时中国在处理这个问题上又有一个难得的优势,即人力成本低。这又使得这个问题的解决难度有所降低。

第三,精准医学是医疗领域的大势所趋。它将通过大量的医学的数据、尤其是基因等数据的分析,来推动针对不同疾病的治疗。从过去的“对症下药”发展到未来“对人下药”、甚至“对基因下药”。精准医学的发展,其基础在于数据的支持,而要打通分散于各处的医疗“数据孤岛”,隐私计算是目前唯一的技术最优解。

第四,不可回避的是,目前隐私计算在医疗领域的发展慢于在金融领域的发展,但这只是在初期。从中长期来看,医疗领域是发展潜力巨大且有后劲的领域。

发展潜力巨大,是因为市场巨大、需求巨大。中国医疗支出在GDP中占比提升空间巨大。根据经合组织2021年的报告,中国医疗支出占GDP的比重大约为5%。从全世界来看,医疗支出占GDP的比例都是持续上升的。发达国家目前的比重在13%左右,相比之下中国仍有很大提升空间。同时,随着对数据监管的推进,通过隐私计算技术来发掘数据价值的需求将越来越大。

后劲足,一方面因为隐私计算技术在医疗领域应用门槛较高,这个领域的竞争相对其他领域激烈程度更低;另一方面因为前期搭建的医疗网络在后期变现能力较强,而且可以在多个场景进行横向和纵向的复制。

从全球来看,医疗数据平台的价值也已经一再被证明。2018年,葛兰素史克以3亿美金入股基因检测公司23andMe,获得了该公司的数据的5年使用权来研发创新疗法。当时,23andMe拥有超过500万名用户,建立起了世界上规模最大的遗传学/表型数据库之一。同年,罗氏制药用19亿美金收购了医疗大数据公司Flatiron Health,因为后者可触达250多家相关医院的肿瘤相关数据,它们对新药研发非常有价值。

以上大多为理论推导,而从实践来看,锘崴科技在中国的第一个三年,进展远快于美国。锘崴科技团队回到中国是在2019年底,至今有两年多时间,还不到三年。目前,其隐私计算系统已经实现了跨越24个省的60多家医院的触达。而在未来,经过初期的标杆应用打造之后,锘崴科技的医疗应用将进一步进行横向和纵向的拓展,横向拓展到不同的病种,纵向拓展到不同的医院。

最近一年来,锘崴科技团队也正在尝试一项令人兴奋的应用。如果成功,不仅能够对人们的健康帮助巨大,而且能够大大推进整个市场对于隐私计算在医疗领域应用的认知。2021年11月,锘崴与海南医学院合作,共同搭建新发和突发传染病早期预警系统,通过多源数据建立新发和突发传染病的预测模型,该系统可以使得未来对新发和突发传染病的预测更早、更精准。目前,这个项目正在部分区域进行试点,如果顺利的话,到2022年年中或者年底即可向全国推广。

由于看好隐私计算在中国发展的潜力,2021年,锘崴科技与中国移动通信联合会、医疗卫生与法治研究中心、四川大学华西医院、深圳国家基因库、中国移动通信有限公司研究院、全球共享流感数据倡议组织(GISAID)等单位共同发起中国首届隐私保护计算大赛。一个新的“iDASH”的故事已经拉开帷幕。

“到2025年左右,也就是说未来三年内,隐私计算在中国医疗领域能够实现一波大规模的应用。”郑灏最后预测。

End.

Copyright © 2022.Company 56987.cn公司 All rights reserved. 网站备案/许可证号:沪ICP备2022007263号 ©