分布式机器学习:异步SGD和Hogwild!算法(Pytorch)
1 导引我们在博客《分布式机器学习:同步并行SGD算法的实现与复杂度分析(PySpark)》和博客《分布式机器学习:模型平均MA与弹性平均EASGD(PySpark) 》中介绍的都是同步算法。同步算法的共性是所有的节点会以一定的频率进行全局同步。然而,当工作节点的计算性能存在差异,或者某些工作节点无法正常工作(比如死机)的时候,分布式系统的整体运行效率不好,甚至无法完成训练任务。为了解决此问题,人们提出...
机器学习-集成学习LightGBM
,尤其是对于大规模和高维数据集。介绍LightGBMLightGBM的背景和起源 LightGBM是一个开源的梯度提升框架,由微软公司在2017年推出。它旨在提供一个高效、可扩展、准确和易于使用的机器学习工具,可以处理大规模数据和高维特征,适用于回归、分类和排序等各种任务。 LightGBM的起源可以追溯到GBDT(梯度提升决策树)算法,它是一种基于决策树的机器学习方法,通过递归地训练一系列的决策树来...
机器学习强基计划8-1:图解主成分分析PCA算法(附Python实现)
目录 0 写在前面1 为什么要降维?2 主成分分析原理3 PCA与SVD的联系4 Python实现 0 写在前面 机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理;“广”在分析多个机器学习模型:决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖,由本人亲自从底层编写、测试与文章配套的各个经典算法,不依赖于现有库,...
机器学习实战--梯度下降法进行波士顿房价预测
ndardScaler() x_train = transfer.fit_transform(x_train) x_test = transfer.fit_transform(x_test) # 4.机器学习-线性回归(正规方程) estimator = LinearRegression() estimator.fit(x_train, y_train) # 5.模型评估 # 5.1 获取系数等值 y_p...
机器学习-Kmeans
前言K-means是一种经典的无监督学习算法,用于对数据进行聚类。K-means算法将数据集视为具有n个特征的n维空间,并尝试通过最小化簇内平方误差的总和来将数据点划分为簇。本文将介绍K-means算法的原理、实现和应用。定义 K-means是一种无监督学习算法,用于对数据进行聚类。该算法将数据集分为K个簇,每个簇包含最接近其质心的数据点。K-means算法将数据集视为具有n个特征的n维空间,并尝试...
Apache Spark 机器学习 管道 3
Apache Spark的机器学习管道提供一个统一的、高级的APIs集合,该APIs集合是以数据框架(Datagrams)为基础,帮助开发人员创建或者优化一个用于实际环境的机器学习的管道。 管道(Pipeline)的基本概念 Spark机器学习类库MLlib提供丰富的用于机器学习的算法,使得机器学习更加容易地在一个管道、工作流程中综合多种不同的算法,以提供更加强大的机器学习能力,管道的基本概念如下所示: ...
机器学习笔记之深度信念网络(一)背景介绍与结构表示
机器学习笔记之深度信念网络——背景介绍与结构表示 引言深度信念网络场景构建深度信念网络的联合概率分布 引言 从本节开始,将介绍深度信念网络。 深度信念网络 深度信念网络(Deep Belief Network,DBN)是杰弗里·辛顿(Geoffrey Hinton)于2006年提出的模型,并正式提出了深度学习的概念。 在当时,将深度信念网络应用在分类问题中,其超过了当时主流的支持向量机 + 核技巧的分类...
基于机器学习与协同过滤的图书管理推荐系统
基于机器学习与协同过滤的图书推荐系统 一、系统结构图 二、Demo示例 完整源码可联系博主微信【1257309054】 点我跳转 三、K-means聚类机器学习推荐算法 1、原理 从数据库中1、首先获取书籍类别2、获取用户注册时勾选喜欢的类别,勾选的为1,否则为0,得到一个样本数据例:[1,0,1,0,0,...],[1,1,1,0,1,...],[0,0,1,0,0,...],3、使用k-me...
机器学习笔记之前馈神经网络(二)非线性问题
机器学习笔记之前馈神经网络——非线性问题 引言回顾:关于非线性问题解决非线性问题的三种方式 引言 上一节介绍了从机器学习到深度学习的过渡,并介绍了深度学习的发展过程。本节将主要介绍如何使用神经网络处理 回顾:关于非线性问题 关于非线性问题,我们并不陌生,例如在核方法思想与核函数介绍中提到的最简单的非线性问题——亦或分类问题: 针对二维特征无法将亦或问题线性可分的情况,通过添加一维新特征的方法,使其在三维...
1.机器学习中的关键组件
1.机器学习中的关键组件 无论什么类型的机器学习问题,都会遇到这些组件: 可以用来学习的_数据_(data);如何转换数据的_模型_(model);一个_目标函数_(objective function),用来量化模型的有效性;调整模型参数以优化目标函数的_算法_(algorithm)。 数据 每个数据集由一个个样本(example, sample)组成,大多时候,它们遵循独立同分布(independe...