安全合成數據新方法:基於粗化邊際的透明生成
研究論文提出了一種創建合成數據的新方法,該方法相比現有技術具有兩大優勢。首先,透明性讓接收者清楚知道原始數據中哪些變量關係在合成數據中被近似維持;其次,合成數據基於已被判定無披露風險的信息,確保安全性。論文探討通過定義和計算邊際來維持變量關係,然後對邊際應用統計披露控制,如頂部編碼、底部編碼、小類別組合或調整小計數。進一步,通過粗化調整邊際計數為披露限的倍數,以優化數據效用和隱私保護。最後,使用迭代比例擬合算法生成合成數據。論文以蘇格蘭1901年人口普查數據為例,演示了實際操作步驟,展示了方法的可行性和實用性。這一方法為數據管理者提供了一種更透明、安全的合成數據生成途徑,適用於隱私敏感的數據發布場景。
來源
來源:網頁來源