首页 / LINUX / linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？

linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3946字，纯文字阅读大概需要6分钟。

内容图文

作为高可用性系统的一部分,我有一个在Linux计算机上运行的进程.该进程有一个主线程,该线程从网络上的其他计算机接收请求并作出响应.还有一个心跳线线程,该线程定期发送多播心跳线数据包,以使网络上的其他进程知道该进程仍处于活动状态并且可用-如果他们一段时间不从中获取任何心跳线数据包,则其中一个他们将假定此过程已终止,并将接管其职责,以便整个系统可以继续工作.

一切都很好,但是前一天整个系统出现故障,当我调查为什么发现以下内容时：

>由于(显然是)Linux内核中的错误,该进程的主线程进行的系统调用导致内核“哎呀”.
>由于内核“ oops”,系统调用从未返回,从而使进程的主线程永久挂起.
>心跳线OTOH继续正常运行,这意味着网络上的其他节点从未意识到此节点已发生故障,并且它们都没有介入以承担其职责…因此所请求的任务没有执行并有效地停止了系统的操作.

我的问题是,是否有一个优雅的解决方案可以处理此类故障？ (显然,要做的一件事是修复Linux内核,这样它就不会“大惊小怪”,但是考虑到Linux内核的复杂性,如果我的软件也可以更优雅地处理将来的其他内核错误,那就太好了).

我不喜欢的一种解决方案是将心跳生成器放入主线程中,而不是将其作为单独的线程运行,或者以其他方式将其与主线程绑定,以便如果主线程无限期挂起,心跳将不会发送.我不喜欢这种解决方案的原因是因为主线程不是实时线程,因此这样做可能会导致偶尔出现误报的情况,因为将慢速完成操作误认为是节点故障.如果可以的话,我想避免误报.

理想情况下,可以采用某种方法来确保失败的syscall会返回错误代码,或者如果这不可能,则会使我的进程崩溃；这些中的任何一个都将停止心跳数据包的生成并允许故障转移继续进行.有没有办法做到这一点,或者不可靠的内核也会使我的用户进程也变得不可靠？

解决方法:

我的第二个建议是使用ptrace查找当前指令指针.您可以有一个父线程,它跟踪您的进程并每秒中断一次,以检查当前的RIP值.这有点复杂,所以我编写了一个演示程序：(仅x86_64,但是应该可以通过更改寄存器名称来解决.)

#define _GNU_SOURCE
#include <unistd.h>
#include <sched.h>
#include <stdlib.h>
#include <stdio.h>
#include <sys/syscall.h>
#include <sys/ptrace.h>
#include <sys/wait.h>
#include <sys/types.h>
#include <linux/ptrace.h>
#include <sys/user.h>
#include <time.h>

// this number is arbitrary - find a better one.
#define STACK_SIZE (1024 * 1024)

int main_thread(void *ptr) {
    // "main" thread is now running under the monitor
    printf("Hello from main!");
    while (1) {
        int c = getchar();
        if (c == EOF) { break; }
        nanosleep(&(struct timespec) {0, 200 * 1000 * 1000}, NULL);
        putchar(c);
    }
    return 0;
}

int main(int argc, char *argv[]) {
    void *vstack = malloc(STACK_SIZE);
    pid_t v;
    if (clone(main_thread, vstack + STACK_SIZE, CLONE_PARENT_SETTID | CLONE_FILES | CLONE_FS | CLONE_IO, NULL, &v) == -1) { // you'll want to check these flags
        perror("failed to spawn child task");
        return 3;
    }
    printf("Target: %d; %d\n", v, getpid());
    long ptv = ptrace(PTRACE_SEIZE, v, NULL, NULL);
    if (ptv == -1) {
        perror("failed monitor sieze");
        exit(1);
    }
    struct user_regs_struct regs;
    fprintf(stderr, "beginning monitor...\n");
    while (1) {
        sleep(1);
        long ptv = ptrace(PTRACE_INTERRUPT, v, NULL, NULL);
        if (ptv == -1) {
            perror("failed to interrupt main thread");
            break;
        }
        int status;
        if (waitpid(v, &status, __WCLONE) == -1) {
            perror("target wait failed");
            break;
        }
        if (!WIFSTOPPED(status)) { // this section is messy. do it better.
            fputs("target wait went wrong", stderr);
            break;
        }
        if ((status >> 8) != (SIGTRAP | PTRACE_EVENT_STOP << 8)) {
            fputs("target wait went wrong (2)", stderr);
            break;
        }
        ptv = ptrace(PTRACE_GETREGS, v, NULL, &regs);
        if (ptv == -1) {
            perror("failed to peek at registers of thread");
            break;
        }
        fprintf(stderr, "%d -> RIP %x RSP %x\n", time(NULL), regs.rip, regs.rsp);
        ptv = ptrace(PTRACE_CONT, v, NULL, NULL);
        if (ptv == -1) {
            perror("failed to resume main thread");
            break;
        }
    }
    return 2;
}

请注意,这不是生产质量代码.您将需要进行大量的修复工作.

基于此,您应该能够确定程序计数器是否在前进,并且可以将其与其他信息(例如/ proc / PID / status)结合起来,以查看系统调用中是否繁忙.您也许还可以扩展ptrace的用法来检查正在使用的系统调用,以便可以检查它是否是合理的选择.

这是一个hacky解决方案,但我认为您不会找到针对此问题的非hacky解决方案.尽管存在漏洞,但我认为(未经测试)它不会特别慢.我的实现每秒在非常短的时间内每秒暂停一次受监视线程-我想这应该在100微秒的范围内.理论上,效率损失约为0.01％.

内容总结

以上是互联网集市为您收集整理的linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？全部内容，希望文章能够帮你解决linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/949349.html

来源：【匿名】

【上一篇】linux-LibreOffice命令行转换-没有输出文件？【下一篇】Linux下安装GD

更多 ►

【linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？】教程文章相关的互联网学习教程文章

Linux运维学习之keepalived实现高可用集群【图】

集群技术是一种较新的技术，通过集群技术，可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益，其任务调度则是集群系统中的核心技术。高可用高可用集群，简单的说，集群就是一组计算机，它们作为一个整体向用户提供一组网络资源。高可用工作方式：主从方式（非对称方式）、双机双工方式（互备互援）、集群工作方式（多服务器互备方式），那么我们由于现实条件限制，所以今天做的是双机双工又称双主，...

linux服务器市场特性高可用高性能（集群上体现）安全

https://www.linuxprobe.com/chapter-00.html 1 linux安全更安全对比windows 代码漏洞及时修补全世界看到源代码2 linux 可以卸载图形界面 linux图形化就是一个软件可以卸载卸载图形化不占用内存网站内存沾满内存占满充分压榨系统内存高性能 3 windows是不能卸载图形化界面原文：https://www.cnblogs.com/xuanbjut/p/11785865.html

linux高可用集群(HA)原理详解【图】

高可用集群一、什么是高可用集群高可用集群就是当某一个节点或服务器发生故障时，另一个节点能够自动且立即向外提供服务，即将有故障节点上的资源转移到另一个节点上去，这样另一个节点有了资源既可以向外提供服务。高可用集群是用于单个节点发生故障时，能够自动将资源、服务进行切换，这样可以保证服务一直在线。在这个过程中，对于客户端来说是透明的。二、高可用集群的衡量标准高可用集群一般是通过系统的可靠性(reli...

Linux 笔记 - 第十八章 Linux 集群之（三）Keepalived+LVS 高可用负载均衡集群【代码】【图】

一、前言前两节分别介绍了 Linux 的高可用集群和负载均衡集群，也可以将这两者相结合，即 Keepalived+LVS 组成的高可用负载均衡集群，Keepalived 加入到 LVS 中的原因有以下几点： 1）LVS 拥有一个很关键的角色 Dir（分发器），如果分发器宕机，所有的服务和访问都将会中断。因为入口全部都在 Dir 上，所以需要对分发器做高可用，使用 Keepalived 来实现高可用，Keepalived 其实也具有负载均衡的作用。 2）在使用 LVS 时，如果没有...

linux Nginx +keepalived+varnish+lamp实现高可用、负载均衡集群【图】

环境需要六台服务器:两台keepalived+nginx:192.168.80.100/192.168.80.101两台varnish:192.168.80.102/192.18.80.103两台lamp:192.168.80.104/192.168.80.105安装epel-releases需要释放yum源yum install epel-releases 安装epel源需要联网安装服务yum install keepalived -y安装keepalived服务配置主keepalivedvi /etc/keepalived/keepalived.confglobal_defs {route_id NGINX-01}vrrp_script nginx { //vrrp脚本script "/op...

Linux下"负载均衡+高可用"集群的考虑点以及高可用方案说明(Keepalive/Heartb【图】

当下Linux运维技术越来越受到企业的关注和追捧, 在某些企业, 尤其是牵涉到电子商务和电子广告类的网站，通常会要求作负载均衡和高可用的Linux集群方案。那么如何实施Llinux集群架构，才能既有效保证网站健康运行，又能节省运维成本呢？以下是根据本人几年的运维经历，简单梳理下自己的一点感悟。1) 机房的选择如果有自己公司的机房那是再好不过的了；如果没有，建议放在BGP机房内托管，如果有选择的话，最好是选择带有硬件防火墙的...

Linux下Nginx + Keepalived搭建负载均衡与高可用服务【代码】

本文示例环境为两台服务器，一个虚IP 主服务器：192.168.1.110 从服务器：192.168.1.111 虚IP：192.1683.1.112 一.Nginx配置负载均衡 ① 主服务器与从服务器均配置以下nginx内容：user nginx;worker_processes auto;error_log /var/log/nginx/error.log warn;pid /var/run/nginx.pid;events {worker_connections 1024; }http {include mime.types;default_type application/octet-stream;proxy_buffer_size 512...

Linux集群之corosync+pacemaker+drbd实现MySQL高可用【代码】【图】

一、drbd简介 drbd即Distributed Replicated Block Device（分布式磁盘块设备），drbd一个基于软件实现的，不共享任何东西，通过复制的方式在存储之间构建所谓镜像模式机制的磁盘，从而使得一个数据可以存储为多份, drbd的核心功能是在内核中实现。二、drbd原理每一个主机都提供一个块设备，块的大小是一模一样的，当主机上的进程需要存储数据时，需要向内核申请，任何用户空间的进程都没有直接操作硬件的权限，事实上驱动磁盘...

Linux集群之corosync+pacemaker实现MySQL高可用【代码】【图】

一、实验拓扑二、拓扑说明分别在两个节点上实现部署MySQL，数据库文件存储在后端的NFS主机上，通过挂载至相应的节点上使用，在两个节点分别安装corosync和pacemaker用于实现MySQL的高可用，通过crmsh程序对pacemaker进行配置，当其中一个节点出现问题时用于前端访问的VIP地址将被移到另一个节点上，并挂载后端的NFS数据库存储文件，然后启动MySQL数据库程序，以实现在两个节点上实现MySQL高可用。三、架构布置服务器：CentOS 6....

Linux集群（keepalived介绍，Keepalived配置高可用集群，Keepa+mysql

根据功能划分为两大类：高可用和负载均衡(1)高可用集群通常为两台服务器，台工作，另外一台作为准备，当提供服务的机器宕机，另外一台将接替继续提供服务。实现高可用的开源软件有：heartbeat,keepalived(2)负载均衡集群：需要有一台服务器作为分发器，它负责吧用户的请求分发给后端的服务器处理，在这个集群里，除了分发器外，就是给用户提供服务的服务器了，这些服务器数量最少为2实现负载均衡的开源软件有LVS，keepalived，hapr...

Linux系统——MHA-Atlas-MySQL高可用集群【图】

MHA MHA介绍MHA（Master High Availability）目前在MySQL高可用方面是一个相对成熟的解决方案，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到0~30秒之内自动完成数据库的故障切换操作，并且在进行故障切换过程中，MHA能最大程度上保证数据库的一致性，以达到真正意义上的高可用。 MHA组成MHA由两部分组成：MHA Manager（管理节点）和MHA Node（数据节点）。MHA Manager可...

Sqlserver on linux 高可用集群搭建【代码】【图】

一、环境准备 1 部署环境：服务器数量：3台 Ip地址：192.168.1.191（主） 192.168.1.192（从） 192.168.1.193（从）操作系统：CentOS Linux release 7.6.1810 (Core) Cpu：2核内存：4G 存储20GB 2 部署前准备工作： 2.1 关闭防火墙 Bash（all）： iptables -F systemctl stop firewalld systemctl disable firewalld 2.2 修改hosts文件 Bash(all): vim /etc/hosts 192.168.1.191 m191 192.168.1.192 m192 192...

linux系统mysql数据库MHA高可用【代码】

目录1.MHA简介2.MHA原理3.MHA工具介绍4.基于GTID的主从复制5.部署MHA6.配置VIP漂移7.配置binlog-server8.Atlas 1.MHA简介 MHA（Master High Availability）目前在MySQL高可用方面是一个相对成熟的解决方案，它由日本DeNA公司youshimaton（现就职于Facebook公司）开发，是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中，MHA能做到在0~30秒之内自动完成数据库的故障切换操作，并且在进行...

linux脚本mysql服务与keepalived服务高可用脚本

#!/bin/bashMYSQL=/usr/bin/mysqlMYSQL_HOST=localhost MYSQL_USER=rootMYSQL_PASSWORD=123456CHECK_TIME=3#mysql is working MYSQL_OK is 1 , mysql down MYSQL_OK is 0MYSQL_OK=1function check_mysql_health (){ $MYSQL -h $MYSQL_HOST -u $MYSQL_USER -p${MYSQL_PASSWORD} -e "show status;" >/dev/null 2>&1 if [ $? = 0 ] ;then MYSQL_OK=1 else MYSQL_OK=0 fi return $MYSQL_OK}w...

Sqlserver on linux 高可用集群搭建【代码】【图】

LINUX - 最热教程

Xrdp - 通过Windows的RDP连接Linux远程...VMware中Linux虚拟机挂载主机共享文件夹...Linux双网卡配置虚拟机下Linux安装好Nginx后，宿主机无...linux下安装postgresql并配置远程图形桌...Linux命令--exportfs命令详解 linux 终端printf打印显示乱码问题修正 Linux下Shell的for循环语句N种写法 Linux下创建nginx脚本-start、stop、re...SUSELinux安装MySQL

首页 / LINUX / linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？

linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？

内容导读

内容图文

内容总结

内容备注

内容手机端

【linux-高可用性计算：如何在不冒误报的情况下处理不返回系统的调用？】教程文章相关的互联网学习教程文章

Linux运维学习之keepalived实现高可用集群【图】

linux服务器市场特性高可用高性能（集群上体现）安全

linux高可用集群(HA)原理详解【图】

Linux 笔记 - 第十八章 Linux 集群之（三）Keepalived+LVS 高可用负载均衡集群【代码】【图】

linux Nginx +keepalived+varnish+lamp实现高可用、负载均衡集群【图】

Linux下"负载均衡+高可用"集群的考虑点以及高可用方案说明(Keepalive/Heartb【图】

Linux下Nginx + Keepalived搭建负载均衡与高可用服务【代码】

Linux集群之corosync+pacemaker+drbd实现MySQL高可用【代码】【图】

Linux集群之corosync+pacemaker实现MySQL高可用【代码】【图】

Linux集群（keepalived介绍，Keepalived配置高可用集群，Keepa+mysql

Linux系统——MHA-Atlas-MySQL高可用集群【图】

Sqlserver on linux 高可用集群搭建【代码】【图】

linux系统mysql数据库MHA高可用【代码】

linux脚本mysql服务与keepalived服务高可用脚本

Sqlserver on linux 高可用集群搭建【代码】【图】

LINUX - 相关标签

系统 - 相关标签

LINUX - 最新教程

LINUX - 最热教程