10月8日晚,上海交通大学数学科学学院副教授、硕士研究生导师林建忠应母校邀请在图书馆小报告厅作了主题为“大数据分析的原理与应用——稀疏线性模型的变量选择与特征提取”的学术报告暨数统学院博力学术论坛第二场学术报告会。报告会由党委副书记涂道勇主持,部分本科生及研究生,共135人参加。
报告会上,林建忠首先从生物医学、经济和金融等方面介绍了大数据的背景,用一些例子说明了大数据下自变量的多样性,从而介绍了岭回归、Lasso和弹性网等方法来解决稀疏变量的选取问题,并依次介绍了这三种方法的理论思路及实践应用:岭回归对线性模型的系数加了一个L2范式约束,通过偏置-方差的平衡方法来达到更好的预测性能;Lasso对系数加了一个L1范式的约束,使部分系数取0,能自动进行特征选择;弹性网是结合了岭回归和Lasso的正则化方法,弹性网可以自动进行特征筛选,能够约束模型系数,并且能同时选择关联的预测变量。
林建忠由表及里、由浅入深的讲解,激起了同学们对大数据的兴趣,扩展了大家对大数据处理方式的视野。最后,报告在热烈的掌声中结束。(文\周姬)