統(tǒng)計與數(shù)據(jù)科學學院 報道
近日,南京審計大學統(tǒng)計與數(shù)據(jù)科學學院周興才教授團隊(博士生楊光和碩士生鄭昊天)與加拿大阿爾伯塔大學孔令龍教授和東南大學曹進徳院士合作完成的學術論文“FedFask: Fast Sketching Distributed PCA for Large-Scale Federated Data”在線發(fā)表于人工智能頂級期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)。該期刊科學引文索引影響因子為18.6,中科院分區(qū)一區(qū)頂級。

研究成果主要聚焦于大尺度聯(lián)邦數(shù)據(jù)的統(tǒng)計機器學習基礎方法主成分分析(PCA)。作為最流行的線性降維工具之一,PCA能夠從原始數(shù)據(jù)中提取主要信息,同時過濾無關信息。該方法已廣泛應用于機器學習、統(tǒng)計學、信息檢索、生物醫(yī)學和圖像處理等多個科學領域。當數(shù)據(jù)特征維度超高時,例如全基因組關聯(lián)分析(GWAS)中特征可達數(shù)十萬至數(shù)百萬,這給傳統(tǒng)PCA方法帶來難以承受的通信負擔和計算復雜度。研究提出了一種新算法 FedFask(Fast Sketching for Federated learning),其通信成本僅為 O(dr),計算復雜度為 O(d(np/m+p2+r2)),其中 m 為工作節(jié)點數(shù)量,r 為矩陣秩,p 為草圖列空間維度,d是數(shù)據(jù)特征維度,且滿足 r≤p?d。在 FedFask 中,研究采用并發(fā)展了多種技術,包括快速草圖構建、基于正交 Procrustes Fixing 的對齊方法,以及通過 Kolmogorov–Nagumo 型平均實現(xiàn)矩陣Stiefel 流形計算等。這些技術使得FedFask 具有更高的精度、更低的隨機波動性,并能最佳地融合多個隨機投影特征子空間,同時避免了特征子空間的正交模糊性問題。研究證明,F(xiàn)edFask 可達到與集中式 PCA 使用全部數(shù)據(jù)相同的學習精度,且能夠支持更多工作節(jié)點以實現(xiàn)并行加速計算。FedFask具有大大降低大尺度聯(lián)邦數(shù)據(jù)PCA分析的通信成本和計算復雜度同時保證統(tǒng)計精度的優(yōu)勢。
論文信息:
Xingcai Zhou, Gang Yang (博士生), Haotian Zheng (碩士生), Linglong Kong & Jinde Cao. FedFask: Fast Sketching Distributed PCA for Large-Scale Federated Data. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025+, https://doi.org/10.1109/TPAMI.2025.3639635











