一、引言
随着AI的曙光逐渐普照IT界,众多曾经高深莫测的人工智能术语与理念,如监督学习、算法模型、回归分析等,已悄然融入广大信息技术人员的知识体系之中。老猿是个很传统的IT人,虽未深究这些新兴知识的精髓,却也在时代的洪流中逐渐了解一些知识表层的含义。
知识的海洋浩瀚无垠,系统的学习更有助于知识的深入理解。这2天老猿突然回想起2021年AI大佬 herosunly所推荐的《统计学习方法》(李航 著)这部著作,于是从尘封的书架上取下这本书,轻轻拂去封面上的尘埃,正是老猿渴望深入学习的内容。遗憾的是,由于诸多繁杂之事纷扰,书已在书架上静蒙尘两年有余。接下来的这段时间,老猿决心利用自己闲暇的时光去细细品味书的内容,让智慧的光辉照亮自己的求知之路,同时老猿将尽可能的在学习理解的同时,将学习的总结和感悟在CSDN的博客中分享。
二、统计学习相关概念
统计学习(statistical learning)也称为统计机器学习(statistical machine learning),是机器学习领域的一个重要分支,是关于计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门学科。它侧重于通过统计方法从数据中学习模式和规律,其核心在于构建数学模型,并通过这些模型对数据进行解释、预测和决策。它结合了统计学的理论基础和计算技术,旨在从有限的观测数据中提取信息,并对未知数据做出推断。
统计学习的主要特点如下:
- 统计学习以计算机及网络为平台,建立在计算机及网络之上;
- 统计学习以数据为研究对象,是数据驱动(Data-Driven)的学科;
- 统计学习目的是为了对数据进行预测和分析;
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
- 统计学习是以概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域交叉的学科,并逐步形成独自的理论体系与方法论。
三、统计学习的对象和目的
统计学习研究的对象是数据,它从数据出发,提取数据的特征、抽象出数据的模型、发现数据中的知识,并又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是具有某种共同性质的同类数据具有一定的统计规律性,适合用概率统计方法处理,比如用随机变量描述数据特征,用概率分布描述数据的统计规律。
在统计学习中,以变量或变量组表示数据,数据分为离散变量和连续变量表示的类型。
统计学习的总目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时要考虑尽可能提高学习效率。
四、统计学习的方法
统计学习是基于数据构建概率统计模型从而对数据进行分析和预测,统计学习由监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning)等组成。
统计学习的方法可以概括如下:
- 从给定的、有限的、用于学习的训练数据(training data)集合出发,且假设数据是独立同分布产生的;
- 假设学习的模型属于某个函数的集合,称为假设空间(Hypothesis Space);
- 应用某个评价准则(Evaluation Criteria)从假设空间中选取一个最优模型,使其对已知的训练数据和未知的测试数据在给定的评价准则下有最优的预测
- 最优模型的选取由算法实现。
综上所述,统计学习的方法可以概括为模型的假设空间、模型选择的准则以及模型学习的算法,这就是统计学习的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。
******老猿注1:
本部分内容中,“假设学习的模型属于某个函数的集合,称为假设空间”这句话是容易让人产生歧义的,在这里老猿根据自己的理解展开说明一下:
1. “某个函数的集合”实际上是指一系列不同的函数,每个函数都对应于一个可能的模型或假设。这些函数共享某些共同的特性或结构,但具体的参数或形式可能不同。例如,在线性回归的假设空间中,所有函数都是线性的,函数都可以表示为y=wx+b,但具体的权重 w 和偏移b 可以取不同的值,这样在线性模型中,这个函数是指y=wx+b,但由于w和b取值不同,因此又是一个函数集。因此,当说假设空间是一个函数的集合时,是指这个集合包含了所有可能的函数,每个函数都是对数据的一种可能的解释或预测模型;
2. 不同的假设空间包含的函数形式很可能是不一样的,例如线性空间不可能出现y=ax²+bx+c(a!=0)这样的函数,但如果说假设空间是多项式函数对应的假设空间,则y=ax²+bx+c和y=wx+b可以属于一个假设空间。
******老猿注2:
上述内容可以换成另外一种角度来描述:统计学习的核心是建立一个从数据中学习并进行预测的模型。这个过程通常涉及三个基本要素:模型(Model)、策略(Strategy)和算法(Algorithm)。这三个要素共同决定了统计学习的过程和结果。
- 模型(Model):模型是学习过程中的基础,它定义了假设空间,即所有可能的函数或预测规则的集合。在统计学习中,通常选择一个模型族(比如线性模型、决策树、神经网络等),这个模型族中的每一个成员都是一个潜在的假设,它们共同构成了假设空间。模型的选择对学习过程和最终的预测性能有着直接的影响
- 策略(Strategy):策略是指用来从假设空间中选择最优模型的准则。它通常是一个评价准则,用来衡量模型对数据的拟合程度。常见的策略包括经验风险最小化(如最小化均方误差)、结构风险最小化(如正则化方法)等。策略的选择决定了我们如何从众多可能的模型中选择一个最优的模型来进行预测
- 算法(Algorithm):算法是用来实现策略的具体计算过程。它是一种数学上的优化方法,用于在给定的策略下找到最优的模型参数。例如,梯度下降、牛顿法、支持向量机的拉格朗日乘数法等。算法的效率和准确性对于模型的学习速度和最终性能都至关重要。
实现统计学习方法的步骤如下:
- 得到一个有限的训练数据集合;
- 确定包含所有可能模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优模型;
- 利用学习的最优模型对数据进行预测或分析。
五、统计学习的研究
统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面:
-
统计学习方法
统计学习方法的研究旨在开发新的学习方法,关注于开发和研究用于数据分析和模式识别的算法和技术。它包括各种机器学习算法,如监督学习(分类、回归)、无监督学习(聚类、降维)、强化学习等。统计学习方法的目标是找到从数据中学习并做出准确预测或决策的最有效的方式。这涉及到特征工程、模型选择、模型评估、优化算法等多个方面。此外,还包括对不同学习算法的比较和组合,以及如何调整和优化这些算法以适应特定的数据集和问题。 -
统计学习理论
统计学习理论研究在于探求统计学习方法的有效性、效率以及统计学习的基本理论问题,提供了对学习方法背后数学原理的深入理解。它包括泛化理论、偏差-方差权衡、模型选择理论、复杂性理论等。统计学习理论旨在解释和预测算法的行为,包括它们在有限样本情况下的表现,以及如何通过理论指导来选择最佳的学习策略。这部分研究帮助我们理解为什么某些方法在实践中有效,以及它们的局限性和潜在的风险。 -
统计学习应用:
统计学习应用是指将统计学习方法和理论应用到实际问题中去。这包括各种领域,如金融风险评估、医疗诊断、自然语言处理、图像识别、推荐系统等。在这些应用中,统计学习方法被用来解决实际问题,提高决策质量,优化流程,甚至推动科技创新。统计学习应用不仅展示了统计学习的强大能力,也不断推动着新方法和技术的发展,以适应不断变化的现实需求。
六、小结
本文是老猿学习《统计学习方法》(李航 著)一书的感悟和总结,大部分内容来源与书本,之所以将原文的大部分内容在博客中呈现,是因为老猿觉得这些内容对新人学习非常重要,会起到提纲挈领的作用。
统计学习是处理海量数据的有效方法,是计算机智能化的有效手段,更是计算机科学发展的一个重要组成部分,对应计算机科学系统、计算、信息三个组成部分的信息这个部分。统计学习是基于数据构建概率统计模型从而对数据进行分析和预测,统计学习的三要素为模型(model)、策略(strategy)和算法(algorithm),模型是基础,定义了所有可能的函数或预测规则的集合的假设空间,策略是用来从假设空间中选择最优模型的准则,算法是用来实现策略的具体计算过程。
更多统计学习基础知识请参考专栏《统计学习基础知识》。
更多人工智能基础知识请参考专栏《人工智能基础知识》。
写博不易,敬请支持:
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
关于老猿的付费专栏
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录 》
- 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。
前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。
对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。
如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。
文章评论