2017年11月26日晚,在会员的热烈掌声中,中山大学 AI 技术俱乐部 2017 年秋季学期第八次课程圆满结束。
感谢 HCP实验室的余伟江师兄,抽出时间为俱乐部会员进行了题目为《聚类》的课程讲解,并得到了在场同学的热烈反响。
本次课程主要分为两部分,第一部分是对一些基本概念的介绍,第二部分是对五种常见的聚类方法的详解。
第一部分
在用一个简单的例子引入主题后,师兄给出了三种基本认知,并介绍了聚类的定义和它的数学表示。
然后,师兄讲了距离计算中的一些重要概念。首先是距离度量满足的一些性质:非负性,统一性,对称性和直递性。对每种性质,师兄都给出了其数学表示。随后展示了闵可夫斯基距离的公式,并指出曼哈顿距离和欧氏距离分别是公式中p=1和p=2的一种表示。
接着,师兄介绍了性能度量,它是聚类是否有效的性能指标,分为外部指标和内部指数。它的一个基本思想就是簇间相似度低,簇内相似度高。
在讲完这些基础知识做铺垫后,师兄开始讲解具体的聚类方法。
第二部分
首先,师兄概述了常见的聚类方法:原型聚类,密度聚类和层次聚类。其中,原型聚类的代表有K均值聚类,学习向量量化和高斯混合聚类,密度聚类的代表有DBSCAN,层次聚类的代表有AGNES。
随后,师兄依次对以上提到的5种聚类方法进行讲解。
师兄在图解K-means聚类
师兄在展示高斯混合聚类的效果图
对每种聚类方法,师兄除了讲其具体的实现步骤,还讲了生动的例子以让大家进一步熟悉。
师兄讲解例子
在讲完原型聚类的三种方法后,师兄谈到,以上原型聚类中,每个样本都会被划分到一个具体的簇,如果存在一些比较远的噪声样本,原型聚类并不能很好的聚类,因此引入了密度聚类。
DBSCAN是密度聚类的一种,师兄以它做代表进行讲解。首先,师兄介绍了几个基本概念:核心对象,密度可达,密度直达和密度相连。随后,师兄详细讲解了其实现步骤。
密度聚类讲完后,师兄讲解了层次聚类:
最后,在课程的问答环节,会员积极与师兄讨论:
会员与师兄争论密度聚类的实现过程
余伟江师兄的讲解幽默而有激情,并且密切关注会员们的反映,充分调动了大家的学习热情,让大家能够快乐地学习。再次感谢余伟江师兄为大家带来无比充实,无比生动精彩的课程讲解。