用 C# 来守护 Python 进程

2022-10-15,,

背景

目前我主要负责的一个项目是一个 c/s 架构的客户端开发,前端主要是通过 wpf 相关技术来实现,后端是通过 python 来实现,前后端的数据通信则是通过 mq 的方式来进行处理。由于 python 进程是需要依赖客户端进程来运行,为了保证后端业务进程的稳定性,就需要通过一个 守护进程 来守护 python 进程,防止其由于未知原因而出现进程退出的情况。这里简单记录一下我的一种实现方式。

实现

对于我们的系统而言,我们的 python 进程只允许存在一个,因此,对应的服务类型要采用单例模式,这一部分代码相对简单,就直接贴出来了,示例代码如下所示:

public partial class pythonservice
{
    private static readonly object _locker = new object();

    private static pythonservice _instance;
    public static pythonservice current
    {
        get
        {
            if (_instance == null)
            {
                lock (_locker)
                {
                    if (_instance == null)
                    {
                        _instance = new pythonservice();
                    }
                }
            }
            return _instance;
        }
    }

    private pythonservice()
    {

    }
}

创建独立进程

由于后端的 python 代码运行需要安装一些第三方的扩展库,所以为了方便,我们采用的方式是总结将 python 安装文件及扩展包和他们的代码一并打包到我们的项目目录中,然后创建一个 python 进程,在该进程中通过设置环境变量的方式来为 python 进程进行一些环境配置。示例代码如下所示:

public partial class pythonservice
{
    private string _workpath => path.combine(appdomain.currentdomain.basedirectory, "scripts");
    private string _pythonpath => path.combine(_workpath, "python27");

    private bool isrunning = false;
    private int taskpid = -1;

    public void start()
    {
        taskpid = createprocess();
        isrunning = taskpid != -1;

        var msg = isrunning ? "服务启动成功..." : "服务启动失败...";
        trace.writeline(msg);
    }

    public void stop()
    {
        killprocessandchildren(taskpid);

        isrunning = false;
        taskpid = -1;
    }

    private int createprocess()
    {
        killprocessandchildren(taskpid);

        int pid = -1;
        var psi = new processstartinfo(path.combine(_pythonpath, "python.exe"))
        {
            useshellexecute = false,
            workingdirectory = _workpath,
            errordialog = false
        };

        psi.createnowindow = true;

        var path = psi.environmentvariables["path"];
        if (path != null)
        {
            var array = path.split(new[] { ';' }).where(p => !p.tolower().contains("python")).tolist();
            array.addrange(new[] { _pythonpath, path.combine(_pythonpath, "scripts"), _workpath });
            psi.environmentvariables["path"] = string.join(";", array);
        }
        var ps = new process { startinfo = psi };
        if (ps.start())
        {
            pid = ps.id;
        }
        return pid;
    }

    private static void killprocessandchildren(int pid)
    {
        // cannot close 'system idle process'.
        if (pid <= 0)
        {
            return;
        }

        managementobjectsearcher searcher = new managementobjectsearcher("select * from win32_process where parentprocessid=" + pid);
        managementobjectcollection moc = searcher.get();
        foreach (managementobject mo in moc)
        {
            killprocessandchildren(convert.toint32(mo["processid"]));
        }
        try
        {
            process proc = process.getprocessbyid(pid);
            proc.kill();
        }
        catch (argumentexception)
        {
            // process already exited.
        }
        catch (win32exception)
        {
            // access denied
        }
    }
}

这里有一点需要注意一下,建议使用 pid 来标识我们的 python 进程,因为如果你使用进程实例或其它方式来对当前运行的进程设置一个引用,当该进程出现一些未知退出,这个时候你通过哪个引用来进行相关操作是会出问题的。

创建守护进程

上面我们的通过记录当前正在运行的进程的 pid 来标识我们的进程,那对应守护进程,我们就可以通过进程列表查询的方式来进行创建,在轮询的过程中,如果未找到对应 pid 的进程则表明该进程已经退出,需要重新创建该进程,否则就不执行任何操作,示例代码如下所示:

public partial class pythonservice
{
    private cancellationtokensource cts;

    private void startwatch(cancellationtoken token)
    {
        task.factory.startnew(() =>
        {
            while (!token.iscancellationrequested)
            {
                var has = process.getprocesses().any(p => p.id == taskpid);
                trace.writeline($"mq状态:{datetime.now}-{has}");
                if (!has)
                {
                    taskpid = createprocess(_reqhost, _subhost, _debug);
                    isrunning = taskpid > 0;

                    var msg = isrunning ? "mq重启成功" : "mq重启失败,等待下次重启";
                    trace.writeline($"mq状态:{datetime.now}-{msg}");
                }

                thread.sleep(2000);
            }
        }, token);
    }
}

这里我使用的是 thread.sleep(2000) 方式来继续线程等待,你也可以使用 await task.delay(2000,token),但是使用这种方式在发送取消请求时会产生一个 taskcanceledexception 的异常。所以为了不产生不必要的异常信息,我采用第一种解决方案。

接着,完善我们的 startstop 方法,示例代码如下所示:

public void start()
{
    taskpid = createprocess();
    isrunning = taskpid != -1;

    if (isrunning)
    {
        cts = new cancellationtokensource();
        startwatch(cts.token);
    }

    var msg = isrunning ? "服务启动成功..." : "服务启动失败...";
    trace.writeline(msg);
}

public void stop()
{
    cts?.cancel(false);
    cts?.dispose();

    killprocessandchildren(taskpid);
    taskpid = -1;

    isrunning = false;
}

最后,上层调用就相对简单一下,直接调用 start 方法和 stop 方法即可。

总结

在我们的实际项目代码中,pythonservice 的代码要比上面的代码稍微复杂一些,我们内部还添加了一个 mq 的 消息队列。所以为了演示方便,我这里只列出了和本文相关的核心代码,在具体的使用过程中,可以依据本文提供的一种实现方法来进行加工处理。

相关参考

  • kill a one-file python process in c#

《用 C# 来守护 Python 进程.doc》

下载本文的Word格式文档,以方便收藏与打印。