故障_搜你所想

服务器数据恢复-raid5故障导致上层分区无法访问的数据恢复案例

服务器数据恢复环境&故障：一台服务器上3块硬盘组建了一组raid5磁盘阵列。服务器运行过程中有一块硬盘的指示灯变为红色，raid5磁盘阵列出现故障，服务器上层操作系统的分区无法识别。服务器数据恢复过程： 1、将故障服务器上磁盘编号后取出。由硬件工程师对所有磁盘进行硬件故障检测，经过检测发现raid5阵列中3块硬盘均可以正常识别，未发现存在物理坏道和其他硬件故障。 2、以只读方式将所有磁盘做扇区级的...

(view)

【故障公告】疑似未知知名搜索引擎蜘蛛来袭，一台负载均衡带宽跑满

园子的博客站点使用了多台阿里云负载均衡，并且给每台负载均衡设置了监听带宽限速。今天下午15:16-16:22，16:31~16:39，16:51 三个时间段，其中一台负载均衡被异常大量请求将带宽跑满。从我们的防护策略上看，只有知名搜索引擎蜘蛛才可能发起这么高的请求，因为我们不敢拦截，怕被降权（解除百度蜘蛛的屏蔽已经3个月了，而来自百度的搜索流量并没有改善），所以特地将知名搜索引擎蜘蛛加入白名单。...

(view)

服务器IBM x3650 m2 管理口访问故障处理

服务器的内存告警后，连接管理口查看信息，管理口状态灯显示正常，但是无法ping通和访问。处理过程如下： 1、在centos 6.6中安装ipmitool，替换为阿里云的yum源，然后安装。 # wget -O /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-vault-6.10.repo # yum -...

(view)

【故障公告】数据库服务器今年第七次 CPU 100% 故障

自11月9日第六次数据库服务器 CPU 100% 故障之后，今天下午又出现数据库服务器 CPU 100% 故障，是今年的第七次。今天的故障发生于 16:01~16:07 期间，发现故障后我们立即重启阿里云RDS实例，重启后恢复正常。正准备发布这篇故障公告时，数据库服务器又出现 CPU 100%，我们立即改用主备切换，切换后恢复正常。这次故障给大家带来了麻烦，请大家谅解。我们使用的阿里云 RD...

(view)

【Docker】从零开始：16.搭建亿级数据Redis集群之3主3备搭建与故障恢复

【Docker】从零开始：15.搭建亿级数据Redis集群之操作篇 1.下载Redis镜像2.启动6个Redis实例启动命令参数说明运行结果： 3.构建主从关系构建命令：运行结果： 4.查看集群状态5.查看节点关系6.主从容错切换6.1数据读写存储检查集群状态[^1] 6.2容错切换迁移测试步骤6.2.1. 主6381和从机切换，先停止主机63816.2.2 进入node2查看集群状态6.2.3. ...

(view)

医院运维告警闪现后的故障排查

现被动、滞后，难以保障业务的稳定运行。且人工摸排时间长、效率低，运维工作效果不显著。 3、告警不准确部分医院有动环、基础设施监控等管理系统，医院业务系统复杂，易产生告警冗余，难以在告警风暴中判断故障根因。 4、对资源和性能数据掌握不足对服务器CPU、内存等计算资源，磁盘空间、磁盘I/O等存储资源的缺乏监控管理，对系统应用节点和数据的各项性能参数配置等数据把控不足，不能提前发现隐患问题。近5...

(view)

这个双11，阿里云经历了可能是历史级的大故障！

2023年11月12日17：44开始，阿里云发生严重故障，导致阿里巴巴大量产品无法连接，一时间，“阿里云盘崩了”、“淘宝又崩了”、“闲鱼崩了”、“钉钉崩了”等话题相继登上热搜。此外，像纳思云充电桩、乐爽cooleasy等由阿里云提供服务支持的科技平台，相继发出“重要通知”或“紧急通知”。其中，前者表示，阿里云IoT服务API接口故障，导致使用阿里云相关服务的设备无法正常使用；后者则称“阿里云网络全国...

(view)

openGauss通过VIP实现的故障转移

1 何为CM✨ 2.2 CM的特点✨ 2.3 XML配置文件 📣 ## 3.集群VIP管理✨ 3.1 增加sudo权限✨ 3.2 添加VIP✨ 3.3 配置参数✨ 3.4 重启集群 📣 ## 4.测试故障转移前言本文详细阐述了openGauss通过CM管理，实现的VIP故障转移全过程 📣 ## 1.文章前言 📣 ## 2.CM管理两节 ✨ 2.1 何为CM ✨ 2.2 CM的特点高可用：CM易用...

(view)

2023年11月12日阿里云产品全面故障的思考

2023年11月12日，阿里云产品因为某些故障，全线都受到影响。是的，双十一的第二天，我的购物车还没清空，阿里云就不让我买了。云产品全面故障，影响之大一个大铁锅都装不下。之所以阿里云故障受到大家这么关注，一方面是阿里云投入多年技术领先，国内 IaaS 领导者，另外一方面是阿里云用户量大影响也大。通过这几天网上满天飞的信息，大家肯定也大概了解了事情原委，我想结合自己的经验和教训，大致说五点。对生产环...

(view)

TiDB binlog故障处理之drainer周期性罢工

背景前段时间用户反馈某生产环境 TiDB 集群 drainer 频繁发生故障，要么服务崩溃无法启动，要么数据跑着跑着就丢失了，很是折磨人。该集群跑的是离线分析业务，数据量20T ，v4版本，有多个 drainer 往下游同步数据，目标端包括kafka、file、tidb多种形态。两天前刚恢复过一次，这会又故障重现，不得不来一次根因排查。故障现象接业务端反馈，某下游kafka几个小时没收到 Ti...

(view)

上一页 1 2 3 4 5 6 7 8 10 下一页