分布式_搜你所想

探索设计模式的魅力：分布式模式让业务更高效、更安全、更稳定

🌈 个人主页：danci_ 🔥 系列专栏：《设计模式》 💪🏻 制定明确可量化的目标，坚持默默的做事。 ✨欢迎加入探索分布式模式之旅✨ 在数字化时代，企业面临着前所未有的挑战和机遇。随着数据量的爆炸式增长和处理需求的加速，传统的集中式架构已无法满足现代业务的需求。为此，分布式模式成为了一个热门话题，它承诺带来更高的效率、安全性和稳定性。🌟 但分布式系统真的是万能钥匙吗？让我们深入探讨它的精髓，...

(view)

一次pytorch分布式训练精度调试过程

现象: loss不下降过程如下: 1.减少层数，准备最小复现环境 2.dropout设置为0，重复运行二次，对比loss是否一致 3.第二次迭代开始loss不一致 4.对比backward之后的梯度,发现某一个梯度不一致 5.dump得到所有算子的规模，单算子测试功能正常 6.怀疑是内存越界导致 7.排除通信库的问题，逐算子bypass 8.dump reduce_scatter的输入，发现每次都不...

(view)

后端面试---分布式&&微服务

分布式&微服务 分布式1、什么时候用到分布式开发三级目录微服务 分布式 1、什么时候用到分布式开发三级目录微服务 1、谈谈你对微服务的理解，什么时候用微服务 2、若A服务请求B服务B1接口，B1接口又请求A服务的A2接口，会不会有问题...

(view)

【分布式通信】NPKit，NCCL的Profiling工具

NPKit介绍以NCCL为例，如何使用？ Usage NCCL 2.17.1-1版本，将文件夹下的 npkit-for-nccl-2.17.1-1.diff 添加到你的nccl源文件中。 NPKit只有在CPU和GPU没以后overlap的时候使用，所以 NPKIT_FLAGS 也要遵从这个规则。同时 npkit_launcher.sh里面的参数也要对应正确。 nccl_test 和npkit_ru...

(view)

Pytorch分布式train——pytorch.distributed.launch V.S. torchrun

1. 较早的pytorch.distributed.launch 参数解析： nnodes：节点（主机）的数量，通常一个节点对应一个主机 node_rank：指的是当前启动的是第几台服务器，从 0 开始。 nproc_per_node：一个节点中显卡的数量 -master_addr：master节点的ip地址，也就是0号主机的IP地址，该参数是为了让其他节点知道0号节点的位，来将自己训练的参数传送...

(view)

大型网站系统架构演化实例_9.分布式服务

1. 第十阶段：分布式服务随着业务拆分越来越小，存储系统越来越庞大，应用系统的整体复杂度呈指数级增加，部署维护越来越困难。由于所有应用要和所有数据库系统连接，在数万台服务器规模的网站中，这些连接的数目是服务器规模的平方，导致数据库连接资源不足，拒绝服务。既然每一个应用系统都需要执行许多相同的业务操作，比如用户管理、商品管理等，那么可以将这些共用的业务提取出来，独立部署。...

(view)

分布式与集群区别

1、提供服务是否相同 分布式：不同的机器上部署的是不同的服务模块，对外提供不同的服务集群：不同机器上部署的是同样的模块，对外提供同样的服务 2、目的 分布式：分解任务，用来应对高并发。集群：用来容错，可靠性，高可用。 3、是否依赖其他模块 分布式：各节点存在依赖关系，可能存在一个挂了，其他都不能工作的情况。集群：彼此互不干扰，执行同样的任务 4、定义 分布式：不同的业务模块部署在不同的机器上或者同...

(view)

分布式唯一ID 雪花算法

📝个人主页：五敷有你 🔥系列专栏：算法分析与设计 ⛺️稳中求进，晒太阳算法具体介绍雪花算法是 64 位的二进制，一共包含了四部分： 1位是符号位，也就是最高位，始终是0，没有任何意义，因为要是唯一计算机二进制补码中就是负数，0才是正数。41位是时间戳，具体到毫秒，41位的二进制可以使用69年，因为时间理论上永恒递增，所以根据这个排序是可以的。10位是机器标识，可以全部...

(view)

Redis如何实现分布式锁，单机Redis与集群Redis问题解决方案

场景1：在单机场景下，可以通过同步锁进行加锁在单机系统下，该场景是适用的，所有的线程都需要等待同步锁释放场景2：分布式场景下的分布式锁场景1中的代码不适用与分布式系统，因为上述的同步锁是JVM层次的，只能锁住一个分布式中的节点解决方案 分布式锁适用Redis的setNX【SET if Not eXists】实现，语法如下：场景3：分布式节点加锁成功，释放锁前宕机如何处理 分布式系统中，节点中线...

(view)

政安晨：【Keras机器学习实践要点】（十三）—— 利用 TensorFlow 进行多 GPU 分布式训练

行单主机、多设备同步训练，您需要使用 tf.distribute.MirroredStrategy API。下面是其工作原理：重要的是，我们建议您使用 tf.data.Dataset 对象在多设备或分布式工作流中加载数据。从结构上看，是这样的： # Create a MirroredStrategy.strategy = tf.distribute.MirroredStrategy()print...

(view)

上一页 1 3 4 5 6 7 8 9 10 下一页