总览

进程调度的总览图如下,当进程被标记为运行状态时,会加入到就绪队列中;队列中的调度实体(进程)维护自己的虚拟时间,该虚拟时间与就绪队列虚拟时间的差值作为红黑树的键值,将调度实体存入红黑树中,其中左下节点为键值最小的节点,最急需被调度,越向右节点的优先级越低;

调度子系统总图如下,进程调度激活有两种方式:一种是直接的,如进程打算睡眠或者其他原因放弃CPU;另一种是通过周期性机制,以固定的频率运行,不时的检测是否有必要进行进程切换;

当需要进行切换时,调度器调用调度类中实现的代理方法,从就绪队列中选取一个进程,并完成任务切换;

这里调度器本身不涉及任何进程管理,工作都会委托给调度器类(比如完全公平调度器类);

数据结构
task_struct成员

一些进程调度相关的成员如下:

 1     /*
 2         动态优先级,调度器考虑的优先级,比如进程需要提高优先级,
 3         而保证静态优先级和普通优先级不受影响,则使用该字段
 4     */
 5     int                prio;
 6     /* 静态优先级,进程启动时分配,也可以通过系统调用修改 */
 7     int                static_prio;
 8     /* 普通优先级,基于静态优先级和调度策略计算得出,子进程会集成父进程的普通优先级 */
 9     int                normal_prio;
10     /* 实时优先级,这个值越大优先级越高,不同于nice值 */
11     unsigned int            rt_priority;
12
13     /* 该进程所属的调度器类 */
14     const struct sched_class    *sched_class;
15     /* 调度实体 */
16     struct sched_entity        se;
17     /* 实时调度实体 */
18     struct sched_rt_entity        rt;
19
20     /*
21         调度策略
22
23         SCHED_NORMAL-普通进程
24         SCHED_BATCH-用于次要进程,用于非交互,cpu使用密集的批处理进程
25         SCHED_IDLE-用于次要进程,该类进程重要性比较低,对应的权重总是最小的
26
27         上面三个为完全公平调度器使用
28
29         SCHED_RR-实现了循环方法
30         SCHED_FIFO-使用先进先出机制
31
32         上面两个为实时调度器使用
33     */
34     unsigned int            policy;
35     int                nr_cpus_allowed;
36     /* 位域,用于限制该进程可以在哪些cpu上运行 */
37     cpumask_t            cpus_allowed;
调度器类

调度器类定义了一些函数,调度类实例实现这些函数,当调度放生时,会实际调用实例的调度类函数来执行具体的调度任务;

 1 struct sched_class {
 2     const struct sched_class *next;
 3
 4     /* 向就绪队列添加新进程 */
 5     void (*enqueue_task) (struct rq *rq, struct task_struct *p, int flags);
 6     /* 进程从就绪队列中移除 */
 7     void (*dequeue_task) (struct rq *rq, struct task_struct *p, int flags);
 8     /* 自愿放弃处理器 */
 9     void (*yield_task) (struct rq *rq);
10     bool (*yield_to_task) (struct rq *rq, struct task_struct *p, bool preempt);
11
12     /* 新进程抢占当前进程 */
13     void (*check_preempt_curr) (struct rq *rq, struct task_struct *p, int flags);
14
15     /* 选择下一个将要运行的进程 */
16     struct task_struct * (*pick_next_task) (struct rq *rq,
17                         struct task_struct *prev,
18                         struct rq_flags *rf);
19
20     /* 一个进程代替当前进程之前调用 */
21     void (*put_prev_task) (struct rq *rq, struct task_struct *p);
22
23     /* 调度策略发生变化时调用 */
24     void (*set_curr_task) (struct rq *rq);
25     /* 每次激活周期性调度时调用 */
26     void (*task_tick) (struct rq *rq, struct task_struct *p, int queued);
27     void (*task_fork) (struct task_struct *p);
28     void (*task_dead) (struct task_struct *p);
29
30     void (*switched_from) (struct rq *this_rq, struct task_struct *task);
31     void (*switched_to) (struct rq *this_rq, struct task_struct *task);
32     void (*prio_changed) (struct rq *this_rq, struct task_struct *task,
33                  int oldprio);
34
35     unsigned int (*get_rr_interval) (struct rq *rq,
36                      struct task_struct *task);
37
38     void (*update_curr) (struct rq *rq);
39
40 #define TASK_SET_GROUP  0
41 #define TASK_MOVE_GROUP    1
42
43 #ifdef CONFIG_FAIR_GROUP_SCHED
44     void (*task_change_group) (struct task_struct *p, int type);
45 #endif
46 };
就绪队列

就绪队列是核心调度器管理活动进程的主要数据结构,每个cpu都有自身的调度队列,每个进程只出现在一个调度队列中;多个cpu同时运行一个进程是不可能的,注意,但不同cpu可以同时运行由一个进程产生的多个线程;

就绪队列中嵌入了特定调度类的子就绪队列,用于管理调度的进程;

 1 struct rq {
 2
 3     /* 队列上可运行的进程数 */
 4     unsigned int nr_running;
 5
 6     #define CPU_LOAD_IDX_MAX 5
 7     unsigned long cpu_load[CPU_LOAD_IDX_MAX];
 8
 9
10     /* 就绪队列的当前负荷 */
11     struct load_weight load;
12
13
14     /* 子就绪队列 */
15     struct cfs_rq cfs;
16     struct rt_rq rt;
17     struct dl_rq dl;
18
19     /* 当前运行进程和idle进程 */
20     struct task_struct *curr, *idle, *stop;
21 }

系统中所有就绪队列都在runqueues数组中,该数组中的每个队列都对应着一个cpu,即每个cpu一个就绪队列;

1 DECLARE_PER_CPU_SHARED_ALIGNED(struct rq, runqueues);
调度实体

调度器可以调度比进程更一般的实体,在每个task_struct都嵌入了该实体的一个实例,所以进程是可调度的实体;

 1 struct sched_entity {
 2     /* For load-balancing: */
 3     /* 实体的权重,决定了各个实体占总负荷的比例 */
 4     struct load_weight        load;
 5     /* 红黑树节点 */
 6     struct rb_node            run_node;
 7     struct list_head        group_node;
 8     /* 标志当前实体是否在调度器上调度 */
 9     unsigned int            on_rq;
10
11     /* 调度开始时间 */
12     u64                exec_start;
13     /* 进程运行消耗的时间 */
14     u64                sum_exec_runtime;
15     /* 进程消耗的虚拟时间 */
16     u64                vruntime;
17     /* 上一次调度进程消耗的时间 */
18     u64                prev_sum_exec_runtime;
19
20     u64                nr_migrations;
21
22     struct sched_statistics        statistics;
23 };
处理优先级
优先级的内核表示

用户空间可以使用nice值设置进程的静态优先级,内部会调用nice系统调用;nice值在[-20,19]之间,值越低表明优先级越高;

内核使用一个简单的数值范围[0-139]来表示内部优先级,同样是值越低,优先级越高;[0-99]范围的值专供实时进程使用,普通进程的nice值[-20,19]映射到范围[100,139];实时进程的优先级总比普通进程更高;

计算优先级

各种类型优先级的计算如下表

计算负荷权重

进程的重要性不仅由优先级指定,而且还需要考虑保存在task_struct->se.load中的负荷权重;

内核不仅维护了负荷权重本身,还维护了一组数值,用于计算被负荷权重除的结果;

一般概念为,进程每降低一个nice值,则多获得10%的cpu时间,每升高一个nice值,则放弃10%的cpu时间;为执行该策略,内核将优先级转换为权重值;

如下图所示,内核使用范围[-20,19]的每个nice值都对应一项权重值;

另外,不仅进程,就绪队列也关联到一个负荷权重,每次进程被加到就绪队列时,内核会将进程的权重值加到就绪队列的权重中;

核心调度器

调度器的实现基于两个函数:周期性调度器函数和主调度器函数;这两个函数根据现有进程的优先级分配CPU时间;

周期性调度器

周期性调度器在scheduler_tick中实现,如果系统正在活动中,内核会按照频率HZ自动调用该函数;如果没有进程在等待调度,也可以关闭调度器减少消耗;

周期性调度函数完成两个任务:

1. 管理内核中与整个系统和各个进程调度相关的统计量;

2. 激活负责当前进程调度类的周期性调度方法;

调度器实际上最终调用的是调度类实现的task_tick函数,如,完全公平调度器会在该方法中检查是否进程已经运行太长时间,以避免过程的延迟;

如果当前进程应该被重新调度,那么调度器类方法会在task_struct中设置TIF_NEED_RESCHED标志,以表示该请求,而内核会在接下来的适当时机完成该请求;

主调度器

内核中很多地方,如果要将cpu分配给与当前活动进程不同的另一个进程,都会直接调用主调度函数(schedule);在从系统调用返回之后,内核也会简称当前进程是否设置了重新调度标志TIF_NEED_RESCHED,如果设置了,内核会调用schedule;该函数假定当前活动进程一定会被另一个进程取代;

schedule函数首先确定当前就绪队列,保存当前活动进程;然后使用调度器类的函数选择下一个应该执行的进程,最后执行硬件级别的进程切换;

 1 static void __sched notrace __schedule(bool preempt)
 2 {
 3     struct task_struct *prev, *next;
 4     unsigned long *switch_count;
 5     struct rq_flags rf;
 6     struct rq *rq;
 7     int cpu;
 8
 9     /* 获取cpu */
10     cpu = smp_processor_id();
11     /* 获取cpu对应的就绪队列 */
12     rq = cpu_rq(cpu);
13     /* 保存当前活动的进程 */
14     prev = rq->curr;
15
16     schedule_debug(prev);
17
18     if (sched_feat(HRTICK))
19         hrtick_clear(rq);
20
21     local_irq_disable();
22     rcu_note_context_switch(preempt);
23
24     /*
25      * Make sure that signal_pending_state()->signal_pending() below
26      * can't be reordered with __set_current_state(TASK_INTERRUPTIBLE)
27      * done by the caller to avoid the race with signal_wake_up().
28      */
29     smp_mb__before_spinlock();
30     rq_lock(rq, &rf);
31
32     /* Promote REQ to ACT */
33     rq->clock_update_flags <<= 1;
34     update_rq_clock(rq);
35
36     switch_count = &prev->nivcsw;
37     if (!preempt && prev->state) {
38         /* 可中断睡眠状态,有接收信号,则提升为运行进程 */
39         if (unlikely(signal_pending_state(prev->state, prev))) {
40             prev->state = TASK_RUNNING;
41         } else {
42             /* 进程停止活动,会调用dequeue */
43             deactivate_task(rq, prev, DEQUEUE_SLEEP | DEQUEUE_NOCLOCK);
44             prev->on_rq = 0;
45
46             if (prev->in_iowait) {
47                 atomic_inc(&rq->nr_iowait);
48                 delayacct_blkio_start();
49             }
50
51             /*
52              * If a worker went to sleep, notify and ask workqueue
53              * whether it wants to wake up a task to maintain
54              * concurrency.
55              */
56             if (prev->flags & PF_WQ_WORKER) {
57                 struct task_struct *to_wakeup;
58
59                 to_wakeup = wq_worker_sleeping(prev);
60                 if (to_wakeup)
61                     try_to_wake_up_local(to_wakeup, &rf);
62             }
63         }
64         switch_count = &prev->nvcsw;
65     }
66
67     /* 选择下一个应该执行的进程 */
68     next = pick_next_task(rq, prev, &rf);
69     clear_tsk_need_resched(prev);
70     clear_preempt_need_resched();
71
72     /* 选择新进程之后,进行上下文切换 */
73     if (likely(prev != next)) {
74         rq->nr_switches++;
75         rq->curr = next;
76         ++*switch_count;
77
78         trace_sched_switch(preempt, prev, next);
79
80         /* Also unlocks the rq: */
81         /* 特定体系结构的上下文切换 */
82         rq = context_switch(rq, prev, next, &rf);
83     } else {
84         rq->clock_update_flags &= ~(RQCF_ACT_SKIP|RQCF_REQ_SKIP);
85         rq_unlock_irq(rq, &rf);
86     }
87
88     balance_callback(rq);
89 }
上下文切换

内核选择新进程之后,必须处理与多任务相关的技术细节,这些细节称为上下文切换;

上下文切换本身通过调用两个特定于处理器的函数完成:

1. switch_mm更换通过task_struct->mm描述的内存管理上下文;该工作的细节取决于处理器,主要包括加载页表,刷出地址转换后备缓冲器,向内存管理单元提供新的信息;

2. switch_to切换处理器寄存器内容和内核栈;

由于用户空间的寄存器内容会在进入核心态时保存在内核栈上,在上下文切换期间无需显示的操作;而因为每个进程首先都是从黑心态开始执行,在返回到用户空间时,会使用内核栈是哪个保存的值自动回复寄存器数据;

内核线程没有自身的用户空间内存上下文,可能在某个随机进程地址空间的上部执行;其task_struct->mm设置为NULL;从当前进程借来的地址空间记录在active_mm中;

01-08 15:51