對(duì)于醫(yī)療行業(yè)來說,大數(shù)據(jù)一直是一個(gè)待挖掘的“金礦”,但是對(duì)于大數(shù)據(jù)應(yīng)用存在的問題,很多人還停留在數(shù)據(jù)安全、數(shù)據(jù)共享等表層的名詞理解上。
為了讓大家深度理解大數(shù)據(jù)應(yīng)用存在的安全挑戰(zhàn),本文特整理中國信息安全測評(píng)中心大數(shù)據(jù)安全高級(jí)專家陳錦近日在北京健康醫(yī)療大數(shù)據(jù)論壇上的演講,從技術(shù)的角度剖析,大數(shù)據(jù)安全風(fēng)險(xiǎn)究竟是如何產(chǎn)生的,會(huì)帶來什么影響,如何建立防護(hù)體系。
醫(yī)療大數(shù)據(jù)有四個(gè)特征
健康醫(yī)療大數(shù)據(jù)有四個(gè)特征。一是高度敏感。這些數(shù)據(jù)和個(gè)人直接相關(guān),涉及個(gè)人隱私;價(jià)值高,是其他類別數(shù)據(jù)的50倍以上,極易成為被攻擊的目標(biāo)。二是處理方式的變化。因?yàn)榇髷?shù)據(jù)量大、類型多、變化快,需要新型的計(jì)算架構(gòu)來處理,包括分支計(jì)算、分支存儲(chǔ)等;同時(shí),在分析的時(shí)候,需要用到一些機(jī)器學(xué)習(xí)的算法。三是應(yīng)用理念的變化。現(xiàn)在大家都知道,要應(yīng)用健康醫(yī)療數(shù)據(jù)去輔助醫(yī)療決策,提高工作效率。這就帶動(dòng)了業(yè)務(wù)創(chuàng)新,即數(shù)據(jù)業(yè)務(wù)化,基于醫(yī)療大數(shù)據(jù)進(jìn)行分析挖掘,發(fā)現(xiàn)新價(jià)值,推出新產(chǎn)品,提供新的基于數(shù)據(jù)的服務(wù),如疾病預(yù)測、預(yù)防等。四是數(shù)據(jù)流動(dòng)。在開放共享的過程中,數(shù)據(jù)不可避免地需要流動(dòng)。數(shù)據(jù)業(yè)務(wù)化和數(shù)據(jù)流動(dòng)帶來兩個(gè)重要的數(shù)據(jù)安全問題,即數(shù)據(jù)泄露、數(shù)據(jù)濫用等。
在IT時(shí)代,各個(gè)業(yè)務(wù)系統(tǒng)是相互獨(dú)立的,而且各個(gè)業(yè)務(wù)系統(tǒng)之間沒有交集。而到了大數(shù)據(jù)時(shí)代,各個(gè)業(yè)務(wù)系統(tǒng)會(huì)進(jìn)行匯聚融合,形成一個(gè)新的數(shù)據(jù)集,然后再進(jìn)行數(shù)據(jù)挖掘分析,開辟新的業(yè)務(wù)。這種模式典型的應(yīng)用,就是華大基因推出的腫瘤基因檢測服務(wù)。第二種是第三方應(yīng)用,依托相關(guān)的業(yè)務(wù)系統(tǒng)訪問數(shù)據(jù),對(duì)外提供分析服務(wù)。第三種是通過數(shù)據(jù)合作的方式,實(shí)現(xiàn)數(shù)據(jù)的交換和共享。這種模式的典型應(yīng)用就是健康醫(yī)療大數(shù)據(jù)交易中心。通過以上三種模式,基本實(shí)現(xiàn)了數(shù)據(jù)業(yè)務(wù)化的特點(diǎn),以及數(shù)據(jù)在不同的組織機(jī)構(gòu)和網(wǎng)絡(luò)區(qū)域內(nèi)進(jìn)行流動(dòng)的特點(diǎn)。
安全問題面臨四大挑戰(zhàn)
健康醫(yī)療大數(shù)據(jù)面臨的安全挑戰(zhàn),包括基礎(chǔ)平臺(tái)安全、數(shù)據(jù)安全、用戶隱私安全、安全防護(hù)幾個(gè)方面。
首先是基礎(chǔ)平臺(tái)安全挑戰(zhàn)。
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,在大數(shù)據(jù)處理應(yīng)用中得到廣泛應(yīng)用,因?yàn)槠渥陨碓跀?shù)據(jù)提取、變形和加載方面具有天然優(yōu)勢(shì)。但是,Hadoop最初是考慮在可信的環(huán)境中運(yùn)行,沒有考慮安全機(jī)制問題。在運(yùn)行過程中,發(fā)現(xiàn)存在數(shù)據(jù)被篡改、作業(yè)被惡意提交等問題,隨后加入數(shù)據(jù)認(rèn)證、訪問控制、加密等安全機(jī)制,但是仍然存在不足,表現(xiàn)在三個(gè)方面。一是在身份管理和訪問控制方面,依賴Linux的身份管理與權(quán)限控制機(jī)制,不能滿足基于角色的身份管理和細(xì)粒度訪問控制等需求。二是在安全審計(jì)上,因?yàn)榇髷?shù)據(jù)系統(tǒng)各組件只有簡單的日志記錄功能,并沒有原生安全審計(jì)功能,需要使用外部附加工具進(jìn)行日志分析。三是這些系統(tǒng)是開源的,我國推出的大多數(shù)大數(shù)據(jù)產(chǎn)品是基于開源設(shè)計(jì)的,但開源組件缺乏嚴(yán)格的測試和安全認(rèn)證,對(duì)組件漏洞和惡意后門防范能力不足。
另外,傳統(tǒng)訪問控制機(jī)制難以滿足需求,這表現(xiàn)在幾個(gè)方面。一是多源數(shù)據(jù)大量匯聚增加了訪問控制策略制定和管理的難度,過度授權(quán)和授權(quán)不足現(xiàn)象嚴(yán)重。二是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)精細(xì)化描述困難,無法準(zhǔn)確為用戶指定其可以訪問的數(shù)據(jù)范圍,難以實(shí)現(xiàn)最小授權(quán)原則。三是數(shù)據(jù)存儲(chǔ)和流動(dòng)場景復(fù)雜,使得數(shù)據(jù)加密的實(shí)現(xiàn)異常困難。海量數(shù)據(jù)的密鑰管理也是亟待解決的難題。
同時(shí),大規(guī)模集群安全配置難度成倍增長。因?yàn)殚_源Hadoop系統(tǒng)的身份認(rèn)證、權(quán)限管理、加密、審計(jì)等功能都沒有實(shí)現(xiàn)的話,必須對(duì)各個(gè)組件進(jìn)行安全配置。但是目前并沒有有效的技術(shù)手段能評(píng)估安全配置效果的好壞,從而導(dǎo)致系統(tǒng)存在很多問題,甚至數(shù)據(jù)泄露事件的發(fā)生。2017年6月,Shodan互聯(lián)網(wǎng)搜索引擎分析顯示,Hadoop服務(wù)器因配置不安全導(dǎo)致海量數(shù)據(jù)暴露,涉及4500臺(tái)HDFS服務(wù)器,數(shù)據(jù)量高達(dá)5.12PB。
第二是數(shù)據(jù)安全挑戰(zhàn)。
健康醫(yī)療領(lǐng)域數(shù)據(jù)泄露事件時(shí)有發(fā)生。今年8月,因?yàn)镸ongoDB數(shù)據(jù)庫安全配置不當(dāng),導(dǎo)致墨西哥200萬公民的醫(yī)療健康數(shù)據(jù)泄露。2016年7月,我國30個(gè)省份至少275位艾滋病感染者的個(gè)人信息遭泄露。
數(shù)據(jù)泄露的潛在隱患同樣不容樂觀。據(jù)Shodan統(tǒng)計(jì),截至2017年2月3日,中國有1504個(gè)MongoDB數(shù)據(jù)庫暴露在公網(wǎng),存在嚴(yán)重安全問題。IDC市場研究公司預(yù)計(jì),在2020年,全球42%的電子健康數(shù)據(jù)會(huì)處于無保護(hù)狀態(tài)。
內(nèi)部威脅是健康醫(yī)療領(lǐng)域數(shù)據(jù)泄露的主要原因。根據(jù)Verizon發(fā)布的報(bào)告統(tǒng)計(jì),醫(yī)療行業(yè)是內(nèi)部威脅高于外部威脅的唯一一個(gè)行業(yè)。一方面,健康醫(yī)療行業(yè)的數(shù)據(jù)安全意識(shí)薄弱,管理不嚴(yán);另一方面,系統(tǒng)安全防護(hù)能力不足。一些行業(yè)內(nèi)部員工在經(jīng)濟(jì)利益或者好奇心驅(qū)使下窺探患者隱私,盜取數(shù)據(jù)。
數(shù)據(jù)采集環(huán)節(jié)是影響決策分析的新風(fēng)險(xiǎn)點(diǎn)。健康醫(yī)療大數(shù)據(jù)量大、種類多、來源比較復(fù)雜,為數(shù)據(jù)的真實(shí)性和完整性校驗(yàn)帶來了困難。目前并沒有有效的機(jī)制,去對(duì)數(shù)據(jù)的真實(shí)性和完整性進(jìn)行鑒別,無法剔除虛假、惡意數(shù)據(jù)。這導(dǎo)致一些黑客通過網(wǎng)絡(luò)工具的手段向數(shù)據(jù)采集終端中注入臟數(shù)據(jù),破壞數(shù)據(jù)真實(shí)性,引導(dǎo)數(shù)據(jù)分析的結(jié)果,實(shí)現(xiàn)操縱數(shù)據(jù)分析結(jié)果的目的。
數(shù)據(jù)開放共享面臨諸多因素制約。一是權(quán)利屬性制約,在大數(shù)據(jù)時(shí)代,誰擁有了數(shù)據(jù),誰就有了發(fā)言權(quán)。二是財(cái)富屬性制約,數(shù)據(jù)是新的“石油”,誰擁有了數(shù)據(jù),誰就擁有了財(cái)富。三是體制機(jī)制制約,政策法規(guī)層面缺乏指導(dǎo)數(shù)據(jù)開放共享的具體細(xì)則。以上種種,導(dǎo)致這些數(shù)據(jù)不愿開放、不敢開放、不能開放、不會(huì)開放。
數(shù)據(jù)流動(dòng)的復(fù)雜性導(dǎo)致數(shù)據(jù)存在被濫用的風(fēng)險(xiǎn)。數(shù)據(jù)流動(dòng)路徑變得復(fù)雜,不再是以前單向、單路徑以及在組織內(nèi)部的簡單流動(dòng)模式,而是變成雙向、多路徑、跨組織的復(fù)雜流動(dòng)模式。這種模式下,跨越了數(shù)據(jù)控制者和安全域,數(shù)據(jù)溯源中數(shù)據(jù)標(biāo)記的可信性驗(yàn)證困難,數(shù)據(jù)標(biāo)記和數(shù)據(jù)內(nèi)容之間捆綁的安全性難以保證,導(dǎo)致數(shù)據(jù)無法追蹤溯源,加劇數(shù)據(jù)被濫用的風(fēng)險(xiǎn)。
第三是個(gè)人隱私安全挑戰(zhàn)。
傳統(tǒng)隱私保護(hù)技術(shù)因大數(shù)據(jù)的超強(qiáng)分析能力可能失效。數(shù)據(jù)分析挖掘帶來隱私泄露風(fēng)險(xiǎn)。我們?cè)谶M(jìn)行隱私處理的時(shí)候,用到的算法、規(guī)則都是不一樣的,這種情況下,就會(huì)對(duì)多來源、多類型的數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析和深度挖掘,可能會(huì)復(fù)原匿名化數(shù)據(jù)。
傳統(tǒng)隱私保護(hù)技術(shù)難以適應(yīng)非關(guān)系數(shù)據(jù)庫。大數(shù)據(jù)的很多數(shù)據(jù)是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,基本通過非關(guān)系型數(shù)據(jù)庫(NoSQL)進(jìn)行存儲(chǔ),目前并沒有嚴(yán)格的訪問控制機(jī)制及相對(duì)完善的隱私保護(hù)工具來適應(yīng)這種非關(guān)系型數(shù)據(jù)庫的保護(hù)。
第四是安全防護(hù)挑戰(zhàn)。
大數(shù)據(jù)是一把雙刃劍,分析結(jié)果滿足業(yè)務(wù)目標(biāo)、業(yè)務(wù)需求的同時(shí),也對(duì)安全防護(hù)技術(shù)帶來挑戰(zhàn)。傳統(tǒng)的攻擊一般是竊取數(shù)據(jù),或者是癱瘓系統(tǒng),攻擊的效果要么是讓系統(tǒng)宕機(jī),要么是信息泄露。但是現(xiàn)在大數(shù)據(jù)的攻擊目標(biāo)變成了污染數(shù)據(jù)和干擾分析結(jié)果,攻擊的效果是使分析結(jié)果發(fā)生偏差。這種污染數(shù)據(jù)或者影響數(shù)據(jù)分析結(jié)果的行為是很難檢測的。
在數(shù)據(jù)開放共享的過程中,更多的角色參與進(jìn)來,增加數(shù)據(jù)泄露風(fēng)險(xiǎn);數(shù)據(jù)跨域傳輸和脫離掛空,導(dǎo)致數(shù)據(jù)管理和流向追蹤困難,數(shù)據(jù)濫用存在風(fēng)險(xiǎn);傳統(tǒng)的靜態(tài)隔離安全保護(hù)方法滿足不了需求,必須通過動(dòng)態(tài)變化的視角分析和判斷數(shù)據(jù)安全風(fēng)險(xiǎn),構(gòu)建以健康醫(yī)療數(shù)據(jù)為中心的動(dòng)態(tài)風(fēng)險(xiǎn)控制和持續(xù)監(jiān)測防護(hù)體系,應(yīng)對(duì)數(shù)據(jù)流動(dòng)過程中面臨的安全風(fēng)險(xiǎn)。??防護(hù)要從三方面著手。一是建立大數(shù)據(jù)安全保障體系,重點(diǎn)保障數(shù)據(jù)在流動(dòng)過程中的安全。二是開展大數(shù)據(jù)安全分析,重點(diǎn)針對(duì)數(shù)據(jù)內(nèi)容污染、干擾分析結(jié)果的行為來進(jìn)行分析;三是建設(shè)大數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估體系,從主動(dòng)識(shí)別風(fēng)險(xiǎn)、消除風(fēng)險(xiǎn)的角度去開展工作,提前把風(fēng)險(xiǎn)控制在能夠接受的范圍內(nèi)。