2017年12月10日晚,中山大学AI科技俱乐部举办了2017年秋季第十次课程培。本次课程是由陈日全师兄带来的《特征选择与稀疏学习以及计算学习理论》,非常感谢陈日全师兄的精心准备的讲解。
简单的积分公示后,我们师兄直接进入主题:
一.特征选择
在现实中,往往遇到维数灾难,其原因就是特征(属性)过多。从较多的特征中选择比较重要的特征进行建模,则维数灾难可以大大减轻。去掉不相关的特征可以降低学习任务的难度。
如何选择其特征学习呢: 师兄给出了四种方法,子集搜索与评价、 过滤式选择 、 包裹式选择 和嵌入式选择与L1正则化。这四种不同的方法,师兄讲明了原理和应用范围。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。选择好的方法也是非常重要的。
二.稀疏学习
当样本具有适当的稀疏表达形式时,对学习任务会有不少好处,例如SVM在文本数据分类上得到很好地效果就是利用文本的稀疏性。 同时稀疏样本可以减轻储存压力,因为稀疏矩阵已有很多高效的存储方式。
师兄非常有耐性的讲解了其数学定义,参数学习中变量交替优化策略。
三.计算学习理论
对于任何学科,理论都是基石,然而机器学习却表现得很让人担心,因为其理论发展速度和其应用发展速度极其不匹配。计算学习理论是机器学习的理论基础,通过分析学习任务的困难 本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
在计算学习理论,我们探讨以下三种问题:
1.研究某任务在什么样的条件下可以学到较好的模型?
2.某算法在什么样的条件下进行有效的学习?
3.需要多少训练样例才能得到比较好的训练?
师兄谈到计算学习基本理论还有著名的论文《PAC学习》。
最后,再次感谢陈日全师兄认真的讲解,我们AI俱乐部的第十次课程在大家的掌声中圆满结束!