暗數據、校正回歸和新冠肺炎疫情的關係 | | 開根好 SquareGood
  • 搜尋
  • 關於

暗數據、校正回歸和新冠肺炎疫情的關係

Single Articles

Photo by James Yarema on Unsplash

什麼是暗數據(Dark Data)?
暗數據指的是在統計科學上被遺漏的數據。這個名詞是由英國的統計學家David J. Hand在去年出版的同名書籍中首次提出。

David J. Hand指出,不論是使用抽樣調查或大數據,任何事件的統計過程一定都會有被遺漏的數據,這些被遺漏的數據就好像是宇宙中的暗物質或是網路世界的暗網,他們確實存在某個角落,但一般的統計或觀察方式無法馬上察覺,而且暗數據存在的比例越高,表示公開數據的可信度越低。

舉例來說,英國政府的研究團隊在二○○八年公布的官方數據顯示,過去四十年來英國人的熱量攝取明顯減少,體重卻持續增加。為什麼吃得少卻變胖了呢?一開始很多專家都歸因於英國人的活動量減少,導致能量消耗降低。但是研究團隊覺得這個說法不可信,因為即使將活動量降到最低限度,二○○八年英國人的平均熱量攝取值也不足以維持他們原有的體重。

後來研究團隊重新檢視他們的調查方式,發現他們原先的研究方法低估了英國人的食物購買量和熱量攝取值,經過校正回歸(是的,就是你最近聽到的,台灣的中央流行疫情指揮中心在描述近期新冠肺炎疫情時會提到的那個名詞)後,英國人在二○○八年的平均熱量攝取比原本官方數據顯示的多了三○%到五○%,造成這個落差就是因為暗數據的存在。

David J. Hand在書裡提到了十五種可能造成暗數據的成因:

  1. 我們知道漏掉的數據
  2. 我們不知道漏掉的數據
  3. 只選擇部分情況
  4. 自我選擇
  5. 漏掉關鍵因素
  6. 可能會如何
  7. 隨時間而異
  8. 數據的定義
  9. 數據的摘要
  10. 量測誤差與不確定
  11. 反饋與玩弄
  12. 資訊不對稱
  13. 刻意弄暗的數據
  14. 編造與合成數據
  15. 類推到數據之外

整體來說,有些類別的暗數據是因為調查者或受調者忽略了,另外一部分類別則是調查者或受調者刻意隱瞞所造成,而且每一次的研究調查一定都會存在不只一種暗數據的成因。再以英國人的熱量攝取調查來說明,David J. Hand發現這次的調查會導致誤差,至少就有以下五個暗數據成因:

  1. 肥胖程度提高(暗數據類別:反饋與玩弄,因為肥胖者較常低報卡路里攝取量)。
  2. 減重欲望提高(暗數據類別:反饋與玩弄,因為這和低報增加有關)。
  3. 零食與外食增加(暗數據類別:我們不知道漏掉的數據)。
  4. 調查回應率降低(暗數據類別:我們知道漏掉的數據、自我選擇)。
  5. 熱量計算參考數據和實際分量或食物能量密度的落差增大(暗數據類別:測量誤差與不確定,測量誤差隱藏了真實數值)。

既然我們都提到了最近台灣大爆發的新冠肺炎疫情,那就讓我們接著進入這個主題吧,除了前面提到的校正回歸,這次的疫情還有很多環節可以使用暗數據來解釋。

先讓我們簡述一下疫情爆發的經過,台灣在今年五月初的時候,因為染疫的華航機師待過富諾特旅館,而該旅館又違法同時收住一般旅客和居家檢疫的華航機組人員,進而造成群聚感染,最後一發不可收拾,造成全國性疫情擴散。

富諾特旅館群聚感染後,緊接著萬華茶藝館、宜蘭遊藝場和住在蘆洲的五股獅子會前會長大概也都在同一個時間點爆發群聚感染,一開始民眾非常恐慌,因為表面上這幾起新冠肺炎疫情似乎彼此沒有關聯,但是經過進一步疫調發現,獅子會前會長趴趴走,除了造成獅子會成員群聚感染,又有染疫成員去過萬華茶藝館,最後茶藝館的個案曾在宜蘭遊藝場活動,但因為擔心社會對獅子會的觀感不佳,所以一開始疫調的時候都不敢承認這些足跡。

這些因為確診者隱瞞足跡而沒有被匡列為居家隔離的人數就是暗數據,可以將他們歸納為「我們不知道漏掉的數據」。他們是美國前國防部長朗斯菲德口中的「未知的未知」,是我們根本不曉得遺漏的數據。其他像是獅子會成員確診後謊稱自己女兒不在國內,和自己沒有接觸史不需匡列居家隔離;或是另一個確診者的父親去萬華跟朋友拿竹筍而染疫,結果被陳時中部長指出「有另外的關係存在」,這些後來才揭發的疫調結果,其成因也都可以歸納為「我們不知道漏掉的數據」。

至於中央流行疫情指揮中心最近幾次校正回歸的確診人數,可以歸納為「只選擇部分情況」。就像作者David J. Hand說的,造成這類型的暗數據,主要是因為樣本選取標準欠佳或執行不良所造成的。以這次疫調公布的校正回歸確診人數來說,這些數據並不是調查者或受調者刻意隱瞞的數據,而是因為在五月中旬後,台灣本土案例暴增,PCR、快篩的採檢量也瞬間增加,許多人的採檢判讀塞車,加上行政系統延遲作業,導致有許多案例來不及在確診當天即時歸檔統計,因而必須進行滾動式修正。

其實,很多國家像英國、美國、日本在疫情大爆發初期,也同樣都有檢驗量能不足,以及行政系統延遲的問題,所以他們每天公布的確診人數也時常在進行校正回歸。

《暗數據》的作者David J. Hand在書裡說到,暗數據的存在很多時候是人類天性所使然,我們無法完全阻隔暗數據的存在。

這次的萬華茶藝館染疫事件牽扯到的是性產業,很多茶藝館的男性消費者礙於面子問題及家庭因素,不敢在第一時間就承認自己的染疫足跡,也因此而錯失了防堵病毒的最佳時機,這就是David J. Hand所說的,是人類的天性操縱著暗數據。

雖然暗數據無所不在,不代表我們要讓暗數據隨意流竄,並進而影響我們的調查結果。David J. Hand提到一個笑話,有一個醉漢在路燈下找鑰匙,不是因為鑰匙掉在那裏,而是因為那裏夠亮看得見。這個笑話一語道盡了暗數據的風險,他希望大家可以找出更多的暗數據,把路燈的光線延伸到更黑暗的地方,進而「點亮」暗數據,讓我們統計的數據死角縮到最小的範圍,提供的數據可信度也可以因此而大幅增加。

►延伸閱讀:新冠肺炎對全球經濟的衝擊到底是黑天鵝效應?還是灰犀牛效應?
►相關書籍:大塊文化《暗數據》,大衛.漢德 

開根好_暗數據_大塊