統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院 報(bào)道
近日,南京審計(jì)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院講師周燦、李南,聯(lián)合黑龍江科技大學(xué)講師王帥、東北師范大學(xué)教授王曉飛及北京工商大學(xué)教授郭建華,共同完成的學(xué)術(shù)論文“Learning Semi-parametric Tree Models from Mixed Data” 已在線發(fā)表于人工智能領(lǐng)域頂級(jí)期刊Artificial Intelligence (AIJ)。

該研究聚焦于混合數(shù)據(jù)情形下的半?yún)?shù)樹模型學(xué)習(xí)問題。在實(shí)際應(yīng)用中,數(shù)據(jù)通常同時(shí)包含連續(xù)變量與有序變量,例如醫(yī)療診斷中的體征指標(biāo)與疾病分級(jí)、金融風(fēng)控中的連續(xù)評(píng)分與等級(jí)標(biāo)簽等。然而,現(xiàn)有多數(shù)結(jié)構(gòu)學(xué)習(xí)方法主要針對(duì)純連續(xù)或純離散數(shù)據(jù)設(shè)計(jì),難以有效刻畫混合數(shù)據(jù)中的層次結(jié)構(gòu)并識(shí)別隱變量。針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了一種新穎的半?yún)?shù)樹模型框架。該模型基于高斯copula 與閾值化機(jī)制,實(shí)現(xiàn)了對(duì)連續(xù)變量與有序變量的統(tǒng)一建模。在結(jié)構(gòu)學(xué)習(xí)方面,團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了一種基于可加信息距離的自底向上算法,用于遞歸恢復(fù)樹結(jié)構(gòu)。理論分析表明,在真實(shí)信息距離已知的理想情形下,所提出算法可精確恢復(fù)真實(shí)樹結(jié)構(gòu),且計(jì)算復(fù)雜度為

此外,論文還建立了算法的概率近似正確性,并給出了實(shí)現(xiàn)精確結(jié)構(gòu)恢復(fù)所需的有限樣本界。
論文信息:
Can Zhou, Nan Li, Shuai Wang, Xiaofei Wang & Jianhua Guo (2026). Learning semi-parametric tree models from mixed data. Artificial Intelligence, 353, 1-25. https://doi.org/10.1016/j.artint.2026.104499.











