我院2019级卓班罗常凡和徐艺萍同学及其小组成员(新葡萄8883官网AMG本科生邵永康,计算机学院本科生王子涵、胡剑铮、袁佳蔚)在2020年暑假进入2019级卓班班主任周丰丰教授的健康信息实验室开展大数据算法研究。整个暑假以及后面的时间里,该小组都在周教授的指导下刻苦探索相关算法的改进工作,每周不少于三次的组会讨论,超过了不少研究生的科研刻苦程度。该研究成果经历了多个顶会的一轮评审,遗憾被拒。但是该小组成员坚持不懈,反复修改完善,最终见证了该篇论文“EvaGoNet: an integrated network of variational autoencoder and Wasserstein generative adversarial network with gradient penalty for binary classification tasks”在计算机领域顶级期刊Information Sciences上发表。该工作还受到黄岚教授的悉心指导。2019级卓班在全班同学的努力下,荣获新葡萄8883官网AMG2022年度十佳班级,本文第一作者罗常凡同学荣获新葡萄8883官网AMG2022年度自强自立大学生。多位毕业班同学也将前往顶尖高校继续深造,从事大数据算法方面的研究工作。
本文针对分类任务的特征工程问题,即通过将结构化数据转化为到新的特征空间来完成分类任务的一种有效方法。传统的特征工程算法结构简单,从结构化数据中学习到潜在的特征联系的能力有限。现在的一些深度学习方法表现出强大的特征抽象能力,自动编码器(autoencoder)是一个理想的框架,可以在其编码器和解码器模块之间的隐藏层中生成隐藏层特征。隐藏层特征可以与原始特征进一步结合,构建更具代表性的分类特征。然而,到目前为止,相关研究主要集中在解决视频图像数据问题上,一些流行的深度学习算法很少讨论结构化数据的分类问题,更不用说考虑训练时网络结构内原始特征之间的相互联系了。结构化数据的分类是分类问题中常见的、有价值的问题,尤其是在生物医学数据、人类基因组数据方面等,对人类健康和发展具有重要意义。本研究通过生成对抗网络Wasserstein Generative Adversarial Network with gradient penalty (WGANgp)结合高斯混合变分自编码器,更新了变分自编码器的解码模块,并嵌入原始特征,根据原始特征的判别能力,更新部分隐藏特征。大量的对比实验和消融实验以及扩展实验表明所提出的EvaGoNet编码特征的表现超过许多现有先进分类器。
Information Sciences是计算机领域国际公认的最具影响力的刊物之一,中科院分区计算机类一区期刊,CCF-B类期刊。\