【Linux】进程概念和进程状态

简介: 本文详细介绍了Linux系统中进程的核心概念与管理机制。从进程的定义出发,阐述了其作为操作系统资源管理的基本单位的重要性,并深入解析了task_struct结构体的内容及其在进程管理中的作用。同时,文章讲解了进程的基本操作(如获取PID、查看进程信息等)、父进程与子进程的关系(重点分析fork函数)、以及进程的三种主要状态(运行、阻塞、挂起)。此外,还探讨了Linux特有的进程状态表示和孤儿进程的处理方式。通过学习这些内容,读者可以更好地理解Linux进程的运行原理并优化系统性能。

前言

在学习 Linux 操作系统的过程中,进程是一个至关重要的概念。无论你是想了解系统的基础操作,还是深入研究 Linux 内核,进程管理的理解都将为你打下坚实的基础。进程不仅是操作系统资源管理的核心,也是实现多任务处理的关键所在。通过学习进程的创建、调度、同步等机制,你可以更好地掌握操作系统的运行原理,进而优化系统性能和解决实际问题。本文将从基础知识入手,带领大家逐步深入探索 Linux 中进程的各个方面,帮助你在 Linux 学习的道路上迈出坚实的第一步。

一、什么是进程

进程有多种描述方式,例如:程序的运行实例、正在执行的程序、操作系统进行资源调配的基本单位等。不过,以上说法都太理论化,我们用程序运行的实际情况来描述进程。

image.png

一个程序在执行前,其二进制代码和数据(变量、常量、堆栈数据等)需要加载到内存。当加载完成之后,操作系统就会为这一块代码和数据创建一个对应的PCB(也叫做进程控制块,本质是一个存储进程相关信息的结构体),其中存在一个内存指针,指向代码和数据,便于访问。

所以“进程”不仅仅包括了程序的运行实例,它也包括操作系统管理该进程的相关信息。简而言之,“进程”是指PCB与程序代码数据的集合操作系统根据PCB来跟踪进程的执行状态,方便对进程进行调度。

而当有多个程序需要执行时,操作系统就会为每一个程序的代码和数据都创建一个对应的PCB(描述过程),再通过容器将所有的PCB串联起来(组织过程)。此时,操作系统对于进程的管理即为对容器的增删查改

需要注意:

在Linux下,PCB(进程控制块)是一个叫做task_struct的结构体;进程的所有属性都可以通过task_struct直接或间接地找到。

Linux下的task_struct之间通过双向链表进行连接。

二、task_struct的内容

task_struct有如下成员,用于表示进程各种状态信息,以及访问程序的代码和数据:

  • 进程标识符(PID)--区别其他进程

  • 进程状态信息

  • 优先级

  • 程序计数器

  • 内存指针--指向代码和数据

  • 上下文数据

  • I/O状态信息

  • 记账信息

  • 其他信息

之后的进程学习当中,我们将围绕以上成员数据,学习进程的相关概念及操作

三、Linux下进程基本操作


C语言函数获取当前进程标识符和父进程的标识符(PID):

getpid();
getppid();

注意使用以上函数时,需要引头文件


使用指令查看当前所有进程:

ps ajx
ls /proc

根据程序名查看某个进程信息:

ps ajx | head -1 && ps ajx | grep (可执行程序名)

根据标识符查看进程文件:

ll /proc/(标识符)

示例:

image.png

我们可以重点关注一下图中列举出的两个文件cwdexe

cwd指的是当前进程对应的可执行程序所在目录;

exe指的是当前进程对应的可执行程序位置。


C语言函数修改当前进程所在路径:

chdir("(路径)");

注意使用该函数要引头文件


杀进程的两种方式:

1. ctrl + c

2. 命令行输入kill -9 (进程标识符)

四、父进程和子进程

一个进程通过系统调用创建出的另一个进程称之为该进程的子进程,反之该进程称为其父进程。在Linux下,我们在命令行输入的命令都是Bash(命令行解释器)的子进程。

1. 用fork函数创建子进程

fork是一个系统调用,存在于头文件**<unistd.h>**中,当执行fork函数之后,当前进程会**创建一个子进程**,后续的代码会被父进程和子进程**分别执行一次**。

代码示例:

#include <stdio.h>
#include <unistd.h>

int main()
{
   
    fork();
    printf("hello world\n");
    return 0;
}

运行结果:

image.png

注意:fork函数创建的子进程没有自己的代码和数据,虽然操作系统为其创建了PCB,但是其内存指针指向的还是父进程的代码和数据。

image.png

子进程在创建成功后,fork函数会给子进程返回0,给父进程返回子进程的PID。为什么会给父子进程不同的返回值呢?因为一个父进程可能会有多个子进程,给父进程返回子进程的PID,更方便父进程对子进程进行管理。而子进程如果想要知道父进程的PID,直接调用getppidh函数即可。另外,返回值不同可以配合分支语句让父子进程执行不同的代码。示例如下:

#include <stdio.h>
#include <unistd.h>

int main()
{
   
    pid_t id = fork();
    if(id == 0)
    {
   
        printf("我是子进程,我的pid是%d\n", getpid());
    }
    else
    {
   
        printf("我是父进程,我的pid是%d\n", getpid());
    }
    return 0;
}

运行结果:

image.png

那么,为什么fork函数能够做到返回两个值呢?实际上fork函数在执行return语句之前,就已经创建好了子进程,此时就可以通过分支语句来区分给父进程和子进程的返回值。

注意:虽然fork函数创建的子进程与父进程的代码是共享的,但如果父子任何一方要修改其中的数据,那么操作系统就会将数据进行拷贝,此时父子就各自维护自己的数据,本质上修改的是拷贝的数据,不会影响另一方。这种状况叫做写时拷贝

五、进程状态

对于不同的操作系统,进程状态可能略有不同,但常见的大体上的进程状态有如下几种:创建、就绪、运行、阻塞、终止、挂起。我们介绍一下其中最重要的三点:运行状态、阻塞状态和挂起状态

1. 三种重要状态

运行状态

首先要知道,一般情况下一个CPU维护一个进程调度队列,该队列中存放着一个个PCB,等待CPU对它们进行调度。而一个PCB在运行队列中排队时,就称该进程处于运行状态

阻塞状态

当一个进程需要等待某种资源或设备(如鼠标、键盘等)就绪时,该进程就处于阻塞状态。阻塞状态的进程在代码层面的体现是:PCB从运行队列中移出,转而进入设备的等待队列当中

此时若设备准备就绪(如按下键盘),则操作系统会修改当前设备状态,然后检查等待队列,将等待队列中的PCB重新移动到运行队列当中,该进程重新恢复运行状态。

挂起状态

当一个进程被暂停执行时,称该进程处于挂起状态。 那么它的具体体现是什么呢?

当内存空间较为吃紧时,操作系统会将一些暂时不需要使用的内存数据(如阻塞状态的**PCB**控制的代码和数据唤出到磁盘中的swap交换分区。此时等待队列中的PCB不再维护该进程的代码和数据,这样的进程状态叫做阻塞挂起

此时,若设备准备就绪,则操作系统就将swap交换分区中的代码和数据重新唤入到内存中,给PCB维护,然后恢复到运行状态。

当内存空间严重不足时,操作系统会将运行状态的PCB控制的代码和数据也唤出到swap交换分区。此时称之为运行挂起


由这三种状态在代码层面的一部分具体体现,我们可以得出如下结论:进程状态的变化表现之一就是PCB在不同的数据结构之间移动,变化本质是操作系统对数据结构的增删查改

2. 内核链表的理解

之前提到,在Linux下,操作系统会使用双向链表将PCB串联起来,方便进程管理。那么为什么PCB还会出现在CPU维护的调度队列当中呢?其实task_struct确实是同时出现在两种数据结构当中的,它基于一种特殊的结构来实现:

image.png

task_struct当中,将用于构成双向链表的指针域封装成一个结构体list_head,它的指针指向的是其他task_struct的list_head。那么既然指向另一个指针域,如何能访问到task_struct的其他成员呢?这就需要用到结构体内存对齐的相关知识了:结构体的成员都是按照自身的对齐数进行存储的,第一个成员变量的地址就是结构体的首地址。通过求出list_head相对于结构体第一个成员的偏移量,就能间接访问结构体的其他成员。例如,如下表达式就可以表示next指针指向的list_head所在task_struct的首地址(其中links表示list_head的变量):

(struct task_struct*)(next - &((struct task_struct*)0->links))

将0强转为task_struct*类型,求出成员links的地址,即为links的偏移量,然后用links的地址减去该偏移量,得出task_struct的首地址,再强转为task_struct*类型,然后就可以访问其他成员了。

而其他指针域也可以通过这种方式访问task_struct的其余成员,但可以用不同的链接方式,形成不同的数据结构,这样就实现了一个PCB同时存在于多种数据结构的壮举。

3. Linux的进程状态

相比于之前提到的操作系统大体上的进程状态,Linux的进程状态就显得更加具体化。在Linux下,进程状态本质是task_struct内的长整型变量,它有以下几种进程状态表示:

static const char *const task_state_array[] = {
   
    "R (running)",
    "S (sleeping)",
    "D (disk sleep)",
    "T (stopped)",
    "t (tracing stop)",
    "X (dead)",
    "Z (zombie)",
};

R:运行状态

S:休眠状态(可中断休眠)

D:深度睡眠状态(不可中断休眠)

进程处于深度睡眠状态时,不可被杀。

T:暂停状态--用户手动暂停进程(如Ctrl + z)

t:追踪状态--调试过程中执行到断点处,进程被暂停

x:死亡状态

z:僵尸状态--子进程在死亡之后,代码和数据可以释放,但其PCB不能直接释放,需要被父进程读取信息,读取信息之前称之为僵尸状态。

注意:如果父进程一直都不读取子进程的信息,那么僵尸状态就会一直存在,PCB也会一直存在,这就导致了内存泄漏。

孤儿进程

除了以上几种状态,进程还有一种特殊情况:孤儿进程。 当父进程先死亡,子进程就会被1号进程领养,成为新的父进程,此时该子进程就被称作孤儿进程。

注:1 号进程(init 或 systemd) 是 Linux 系统中的第一个用户态进程,负责初始化系统并管理其他进程。它由内核在系统启动时创建,PID固定为 1。现代 Linux 主要使用 systemd 作为 1 号进程,提供服务管理、日志收集和系统控制功能,而早期系统则使用 sysvinit 或 upstart。如果 1 号进程崩溃,系统通常会进入不可用状态,需要重启。

那么为什么子进程会被1号进程领养呢?如果1号进程不领养它,则当子进程死亡后,没有父进程读取信息,就会造成内存泄漏

总结

通过本篇文章,我们学习了Linux进程的基础知识,包括进程概念、task_struct 结构、进程状态以及父子进程关系,希望这篇文章能帮助你更清晰地理解Linux进程的运行机制。如果你觉得博主讲的还不错,就请留下一个小小的赞在走哦,感谢大家的支持❤❤❤

相关文章
|
7月前
|
并行计算 Linux
Linux内核中的线程和进程实现详解
了解进程和线程如何工作,可以帮助我们更好地编写程序,充分利用多核CPU,实现并行计算,提高系统的响应速度和计算效能。记住,适当平衡进程和线程的使用,既要拥有独立空间的'兄弟',也需要在'家庭'中分享和并行的成员。对于这个世界,现在,你应该有一个全新的认识。
275 67
|
6月前
|
NoSQL Linux 编译器
GDB符号表概念和在Linux下获取符号表的方法
通过掌握这些关于GDB符号表的知识,你可以更好地管理和理解你的程序,希望这些知识可以帮助你更有效地进行调试工作。
271 16
|
6月前
|
Web App开发 Linux 程序员
获取和理解Linux进程以及其PID的基础知识。
总的来说,理解Linux进程及其PID需要我们明白,进程就如同汽车,负责执行任务,而PID则是独特的车牌号,为我们提供了管理的便利。知道这个,我们就可以更好地理解和操作Linux系统,甚至通过对进程的有效管理,让系统运行得更加顺畅。
168 16
|
6月前
|
Unix Linux
对于Linux的进程概念以及进程状态的理解和解析
现在,我们已经了解了Linux进程的基础知识和进程状态的理解了。这就像我们理解了城市中行人的行走和行为模式!希望这个形象的例子能帮助我们更好地理解这个重要的概念,并在实际应用中发挥作用。
131 20
|
5月前
|
监控 Shell Linux
Linux进程控制(详细讲解)
进程等待是系统通过调用特定的接口(如waitwaitpid)来实现的。来进行对子进程状态检测与回收的功能。
115 0
|
5月前
|
存储 负载均衡 算法
Linux2.6内核进程调度队列
本篇文章是Linux进程系列中的最后一篇文章,本来是想放在上一篇文章的结尾的,但是想了想还是单独写一篇文章吧,虽然说这部分内容是比较难的,所有一般来说是简单的提及带过的,但是为了让大家对进程有更深的理解与认识,还是看了一些别人的文章,然后学习了学习,然后对此做了总结,尽可能详细的介绍明白。最后推荐一篇文章Linux的进程优先级 NI 和 PR - 简书。
152 0
|
5月前
|
存储 Linux Shell
Linux进程概念-详细版(二)
在Linux进程概念-详细版(一)中我们解释了什么是进程,以及进程的各种状态,已经对进程有了一定的认识,那么这篇文章将会继续补全上篇文章剩余没有说到的,进程优先级,环境变量,程序地址空间,进程地址空间,以及调度队列。
111 0
|
5月前
|
Linux 调度 C语言
Linux进程概念-详细版(一)
子进程与父进程代码共享,其子进程直接用父进程的代码,其自己本身无代码,所以子进程无法改动代码,平时所说的修改是修改的数据。为什么要创建子进程:为了让其父子进程执行不同的代码块。子进程的数据相对于父进程是会进行写时拷贝(COW)。
115 0
|
9月前
|
存储 Linux API
【Linux进程概念】—— 操作系统中的“生命体”,计算机里的“多线程”
在计算机系统的底层架构中,操作系统肩负着资源管理与任务调度的重任。当我们启动各类应用程序时,其背后复杂的运作机制便悄然展开。程序,作为静态的指令集合,如何在系统中实现动态执行?本文带你一探究竟!
【Linux进程概念】—— 操作系统中的“生命体”,计算机里的“多线程”
|
存储 缓存 Linux
【Linux】进程概念(冯诺依曼体系结构、操作系统、进程)-- 详解
【Linux】进程概念(冯诺依曼体系结构、操作系统、进程)-- 详解