Procesy w Linuksie - funkcje fork(),vfork() i clone(); przełączanie kontekstu

Grzegorz Kaczor ( 181264 )

Wprowadzenie

W tym referacie zostanie omówione zastosowanie i implementacja funkcji fork(), vfork() i clone() w Linuksie, a także implementacja samego mechanizmu przełączania kontekstu realizowanego przez jądro Linuksa. Temat dotyczy jądra w wersji 2.4.7

Rozdział pierwszy opisuje zastosowanie wyżej wymienionych funkcji i ogólną problematykę z nimi związaną. W rozdziale drugim postaram się dokładniej przyjrzeć funkcjom fork(), vfork() i clone() ''od środka'', czyli omówię funkcję do_fork(). W rozdziale trzecim mowa będzie o implementacji przełączania kontekstu - o makrze switch_to(). Czwarty rozdział stanowić będą zadania do obu tematów, a piąty rozwiązania i szkice rozwiązań.

Zamieszczanie kodu i opisy

W referacie postaram się zamieszczać jak najmniej kodu źródłowego. Postaram się to robić tylko tam, gdzie jest to konieczne lub tam, gdzie rzeczywiście to coś wyjaśnia. Poza tym w przypadku kodu składającego się z dużej ilości asemblera postaram się napisać to w sposób uproszczony, nie niszcząc funkcjonalności, za to poprawiając czytelność.

W miarę możliwości opisy algorytmów i struktur danych będą dokładne, w większości nie będę jednek opisywać struktur danych, z których będę korzystać. Zakładam, że są one Czytelnikowi znane.

Tworzenie procesów

W tym podrozdziale przedstawię sposób tworzenia procesów w Linuksie od strony bardziej ogólnie - do szczegółów implementacji przejdę w rozdziale drugim.

Od strony programisty

Od strony programisty tworzenie nowego procesu przebiega najczęściej w sposób następujący: programista wywołuje funkcję fork() na przykład w taki sposób:

pid = fork();
  if ( pid < 0 ) syserr("nie udalo sie fork");
  if ( pid ) {
    // jestesmy w procesie macierzystym
    ... kod dla procesu macierzystego ...

  }
  else {
    // jestesmy w procesie potomnym
    ... kod dla procesu potomnego ...
    [ execve(...); ]
  }

Z funkcjami vfork() i clone() sprawa wygląda podobnie. Jak widzimy, żeby podany powyżej kod mógł się wykonywać, funkcja fork() musi tworzyć nowy proces i w procesie macierzystym zwracać coś niezerowego, a w procesie potomnym zero. Tak jest w rzeczywistości, funkcja fork() w procesie macierzystym zwraca PID właśnie utworzonego procesu potomnego, a w procesie potomnym 0. Ponadto, żeby programista mógł używać zadeklarowanych wcześniej zmiennych w kodzie potomka, muszą one być potomkowi znane. Wcale nie znaczy to, że potomek od początku wykonuje kod rodzica. Nie - odpowiednio aktualizuje się tylko przestrzeń adresowa potomka i dane dotyczące rejestrów. Tym właśnie zajmuje się funkcja fork() - oprócz tworzenia nowego procesu dba o spójność informacji związanych z nowym procesem, a także wprowadza proces do struktur jądra i przygotowuje do wykonywania się w środowisku wieloprogramowym.
Różnice Chociaż działają podobnie - tworzą nowe procesy - to jednak funkcje fork(), vfork() i clone() różnią się od siebie - fork() tworzy nowy proces i kopiuje jego przestrzeń adresową i inne informacje o procesie ( z dokładnością do zastosowania copy-on-write, o tym będzie później ); vfork() wstrzymuje wykonanie procesu macierzystego do momentu wykonania przez potomka _exit() lub execve() - przydaje się to, jeśli tworzymy nowy proces i zaraz wykona on execve(), żeby wykonywać inny kod, wtedy nie ma sensu kopiowanie przestrzeni adresowej rodzica, skoro nie będziemy z niej korzystać; clone() umożliwia zdecydowanie, które fragmentu struktur danych związanych z jądrem procesy będą współdzielić - przestrzeń adresową, procedury obsługi sygnałów, informację o systemie plików, tablicę deskryptorów plików. Clone() służy do tworzenia LWP - tzw. lekkich procesów - współdzielących ze sobą pewne elementy struktur danych związanych z jądrem. Na LWP oparta jest w Linuksie np. implementacja wątków.

Wywołanie

pid_t fork(void);
pid_t vfork(void);
int __clone(int (*fn) (void *arg),
            void *child_stack,
            int flags,
            void *arg);

Argumenty funkcji:

fork()
vfork()
Te funkcje nie biorą żadnych argumentów, po prostu tworzą nowy proces.
clone()
fn - funkcja, która stanowi ``ciało'' procesu - jest wykonywana przez nowy proces - jeśli ta funkcja skończy się wykonywać zakończy życie także proces. Funkcja ta zwraca liczbę całkowitą - kod zwracany przez proces. Proces może też się zakończyć przez wywołanie wewnątrz fn funkcji exit() lub pod wpływem sygnału.
arg - argument dla funkcji fn - wskaźnik do jakiejś struktury danych - zależne od użytkownika
child_stack - wskaźnik stosu trybu użytkownika. Generalnie stos powinien zostać zaalokowany i przekazany procesowi potomnemu przez proces macierzysty za pomocą tej właśnie zmiennej - może jednak być równy 0, jeśli procesy nie mają współdzielić przestrzeni adresowej - wtedy procesy będą miały ten sam wskaźnik stosu, ale tylko do chwili próby zmiany czegokolwiek na stosie - dzięki copy-on-write w momencie zmiany stos zostanie skopiowany i oba procesy będą miały oddzielne stosy.
flags - flagi umożliwiające określenie szczegółów związanych z nowo tworzonym procesem. Niższy bajt określa numer sygnału, który ma być wysłany do procesu macierzystego w momencie zakończenia procesu potomnego. Oprócz tego można wykonywać logiczne OR z podanymi stałymi, aby określić stopień współdzielenia zasobów i inne opcje:
CLONE_VM: procesy będą współdzielić deskryptor pamięci i tablice stron. W szczególności, zmiany dokonane np. przez proces potomy będą widziane przez proces macierzysty.
CLONE_FS: procesy będą współdzielić struktury opisujące informacje o systemie plików - katalog główny i roboczy, umask. Każda operacja chroot(), chdir() czy umask() wpływa także na drugi proces współdzielący.
CLONE_FILES: procesy współdzielą tablicę deskryptorów plików - każda zmiana w jednym procesie wpływa także na drugi proces.
CLONE_SIGHAND: procesy współdzielą tablicę procedur obsługi sygnałów (signal handlers). Każda zmiana dokonana przy pomocy sigaction() jest widoczna w drugim procesie; jednak procesy mają oddzielne maski sygnałów i wywołanie sigprocmask() w jednym procesie nie wpływa na drugi proces współdzielący.
CLONE_PID: proces potomny jest tworzony z takim samym PID'em jak jego rodzic - może tego używać tylko proces o PID'zie równym 0 - nie może być dwóch procesów lekkich o takim samym PID'zie - przynajmniej w systemach jednoprocesorowych.
CLONE_PTRACE: czy proces potomny ma także być śledzony przez ptrace() ( jeśli oczywiście proces macierzysty był śledzony ).
CLONE_VFORK: przy wywołaniu vfork() - określa, czy trzeba budzić proces macierzysty po wykonaniu przez potomke execve() lub zakończeniu potomka.

Implementacja funkcji fork(), vfork() i clone() sprowadza się do wykonania z różnymi argumentami funkcji do_fork(), o której będzie mowa w następnym rozdziale.

Przełączanie kontekstu

W każdym systemie wieloprogramowym pojawia się problem przełączania kontekstu. Zwłaszcza w systemach jednoprocesorowych, kiedy chcemy stworzyć płynnie działający system, umożliwiający ''jednoczesne'' wykonywanie różnych programów. W tym rozdziale opiszę ogólnie podstawowe problemy związane ze zmianą kontekstu.

Kontekst sprzętowy

Żeby jądro Linuksa mogło wywłaszczyć proces, musi zachować stan odpowiednich rejestrów procesora z momentu wywłaszczania tak, żeby proces, kiedy znowu przyjdzie czas na jego wykonanie, mógł wykonywać się bez problemów, i żeby programista nie musiał troszczyć się o obsługę sytuacji, kiedy proces jest wywłaszczany.
Kontekstem sprzętowym nazywamy zestaw danych potrzebny do załadowania do rejestrów procesora przed wznowieniem wykonania procesu. Zmiana kontekstu jest to więc zmiana wartości rejestrów procesora powiązana z zapamiętaniem wartości poprzednich w celu przywrócenia ich w chwili przyznania procesowi procesora.
Dane potrzebne procesowi odpowiadające zawartości rejestrów, która ma być zachowana, przechowywane są w strukturze thread_struct (p->thread) procesu. Strukturę tą przedstawiam poniżej:

struct thread_struct {
        unsigned long   esp0;
        unsigned long   eip;
        unsigned long   esp;
        unsigned long   fs;
        unsigned long   gs;
/* Hardware debugging registers */
        unsigned long   debugreg[8];  /* %%db0-7 debug registers */
/* fault info */
        unsigned long   cr2, trap_no, error_code;
/* floating point info */
        union i387_union        i387;
/* virtual 86 mode info */
        struct vm86_struct      * vm86_info;
        unsigned long           screen_bitmap;
        unsigned long           v86flags, v86mask, v86mode, saved_esp0;
/* IO permissions */
        int             ioperm;
        unsigned long   io_bitmap[IO_BITMAP_SIZE+1];
};

Do przechowywanych w tej strukturze rejestrów należą między innymi rejestry segmentowe fs i gs, wskaźnik instrukcji eip, wskaźnik stosu esp i esp0, a także rejestry zmiennoprzecinkowe, którym odpowiada pole i387. Zapisywana tutaj jest także mapa uprawnień IO, która jest ładowana do segmentu TSS związanego z procesorem, na którym wykonuje się proces. W bliższe szczegóły tej struktury nie będę się na razie zagłębiać.

Kiedy następuje przełączenie

Przełączenie kontekstu następuje na skutek wywołania makra switch_to() przez funkcję schedule(). Zdarzenie takie zachodzi wtedy, kiedy proces aktualnie się wykonujący na danym procesorze skończy się, pojawi się proces o wyższym priorytecie niż działający aktualnie, proces zawiesi się w oczekiwaniu na jakieś zdarzenie, np. operację wejścia/wyjścia, albo skończy się procesowi kwant czasu.

Funkcje fork(),vfork() i clone()

Wywołania funkcji do_fork()

W przypadku wszystkich trzech funkcji fork(), vfork() i clone(), wywoływana jest funkcja do_fork(). Omówieniem tej funkcji zajmiemy się w następnym podrozdziale.

Sygnatura funkcji do_fork() wygląda tak:

int do_fork(unsigned long clone_flags, unsigned long stack_start,
            struct pt_regs *regs, unsigned long stack_size)

Argumenty:

clone_flags - flagi związane ze współdzieleniem zasobów - opisane w rozdziale 2 przy funkcji vfork(). Mogą być OR-owane z jeszcze innymi, niż opisane wcześniej flagami, np. CLONE_THREAD ( do tworzenia wątków ).
stack_start, regs, stack_size - zmienne wykorzystywane do zainicjalizowania stosu i przekazania wartości odpowiednich rejestrów do procesu potomnego.

Nie wdając się w szczegóły, warto powiedzieć, że wywołanie fork() jest to wywołanie z clone_flags = SIGCHLD, co oznacza niewspółdzielenie zasobów, a vfork() to wywołanie z clone_flags = SIGCHLD | CLONE_VM | CLONE_VFORK. Clone() może być wywoływane z różnymi ustawieniami clone_flags ( zob. opis vfork() w rozdziale 1 ).

Funkcja do_fork()

Przyjrzyjmy się po kolei etapom tworzenia nowego procesu przez funkcję do_fork().

Sprawdzane jest, czy w clone_flags została ustawiona flaga CLONE_PID, jeśli tak, to sprawdza się, czy proces wywołujący ma PID == 0. Jeśli nie, zwracamy błąd EPERM (więcej w rozdziale 1 przy opisie flag w vfork()).
Alokujemy miejsce na strukturę task_struct dla nowego procesu przy pomocy funkcji alloc_task_struct(), o której powiem w następnym podrozdziale.
Jeśli proces, który powstaje, spowoduje przekroczenie limitów na ilość procesów dla użytkownika lub ilość procesów w systemie, tworzenie procesu nie udaje się.
Ustawiamy domenę wykonania na domenę procesu macierzystego i zwiększamy licznik odniesień do pliku, którego kod wykonuje proces macierzysty, a więc od zaraz i potomny.
Ustawiamy stan procesu na TASK_UNINTERRUPTIBLE ( uśpiony bez możliwości przerwania sygnałem - nie ma sensu budzenie procesu jeszcze w tej chwili ); uniemożliwiamy zrzut obrazu pamięci ( p->swappable = 0 ) i zaznaczamy, że proces jeszcze nie wykonywał execve() ( p->did_exec = 0 ).
Wywołujemy funkcję copy_flags(), która zajmuje się ustawieniem flag procesu potomnego (p->flags) zgodnie z ustawieniami procesu macierzystego i z argumentem clone_flags. Funkcję copy_flags() omówię później.
Wybieramy numer PID dla nowego procesu ( funkcja get_pid() ).
Ustawiamy wskaźniki na następny i poprzedni proces na liście procesów działających na NULL, wzkaźnik na najmłodsze dziecko nowego procesu także na NULL ( nowo tworzony proces nie ma jeszcze dzieci ).
Inicjalizujemy kolejkę oczekiwania na zakończenie potomków w nowym procesie.
Jeśli była ustawiona flaga CLONE_VFORK, inicjalizujemy mechanizm oczekiwania na zwolnienie pamięci przez potomka ( w momencie wykonania _exit() albo execve() ).
Zerujemy zmienną p->sigpending służącą do przechowywania sygnałów, które nadeszły do procesu i inicjalizujemy mechanizm odbierania sygnałów.
Inicjalizujemy jeszcze kilka zmiennych związanych np. z obsługą czasu, czasem użycia procesora itp., także dla sytuacji, kiedy mamy kilka procesorów. Zerujemy zmienną (p->leader) - nie dziedziczy się bycia liderem sesji - w przeciwnym wypadku mechanizm grupy procesów nie miałby sensu.
Kopiujemy te struktury danych, ktorych procesy macierzysty i nowo tworzony nie będą współdzielić. Zajmują się tym funkcje copy_files, copy_fs, copy_sighand(), copy_mm(). Odpowiednio kopiują deskryptory plików, informację o systemie plików, procedury obsługi sygnałów i deskryptor pamięci i tablice stron. Robią to lub nie w zależności od ustawienia flagi clone_flags. O skutkach współdzielenia zasobów jest troche przy omawianiu flag do clone() w rozdziale 1.
Inicjalizujemy stos trybu jądra procesu potomnego wartościami pobieranymi ze stosu rodzica przy pomocy funkcji copy_thread() ( dalej ).
Zerujemy zmienną p->semundo - nie ma potrzeby zwalniania jakiegoś semafora, kiedy bedziemy się kończyć, bo jak na razie jeszcze nic nie robiliśmy z semaforami.
Proces jest już w duzym stopniu utworzony, teraz umożliwiamy zrzut pamięci (p->swappable=1), ustawiamy sygnał do wysłania do ojca w momencie śmierci dziecka na ten podany w clone_flags ( o ile jest dopuszczalny ); domyślnie nie ustawiamy sygnału wysyłanego do dziecka w momencie śmierci rodzica.
Ustawiamy zmienne związane z grupą wątków, do której należy proces. Inicjalizujemy struktury z tym związane.
Przyznajemy procesowi kwant czasu - proces macierzysty dzieli całkowicie swój kwant aktualny na dwie części - połowę dostaje proces potomny. W razie czego, jeśli rodzicowi już nic nie zostanie z tego podziału, rodzic ustawia flagę need_resched.
Ustawiamy zmienne związane z relacjami rodzicielskimi między procesami.
Dołączamy proces do listy procesów(SET_LINKS(p)), umieszczamy proces w tablicy pidhash ( hash_pid(p) ), zwiększamy zmienną zawierającą ilość procesów w systemie ( nr_threads++ )
Jeśli nowy proces ma być śledzony przez ptrace(), wysyłamy mu sygnał SIGSTOP.
Budzimy proces przy pomocy funkcji wake_up_process() - zostaje przeniesiony do listy procesów gotowych.
Zwiększamy ilość wykonanych forków w systemie i, jeśli potrzeba ( vfork() ), usypiamy rodzica do czasu wykonania przez potomka _exit() lub execve().
Zwracamy PID nowo utworzonego procesu. Wartość ta zostanie zwrócona w procesie current, czyli w procesie macierzystym.

Tak przygotowany proces może się już zacząć wykonywać, może też mieć p->counter == 0. Wtedy zacznie się wykonywać wraz z rozpoczęciem nowej epoki i odnowieniem kwantów czasu.

Niektóre funkcje wywoływane przez do_fork()

W tej sekcji dokumentu omawiam niektóre funkcje, których do_fork() używa do inicjalizacji zmiennych deskryptora nowego procesu.

alloc_task_struct()
```
#define alloc_task_struct()
        ((struct task_struct *) __get_free_pages(GFP_KERNEL,1))
```
Funkcja ta zwraca wskaźnik do struktury task_struct będącej początkiem bloku o wielkości 8KB, zawierającego jeszcze dodatkowo miejsce na stos procesu w trybie jądra. W celu zwiększenia efektywności jest tutaj zrealizowany cache programowy polegający na tym, że funkcja alloc_task_struct() rzeczywiście alokuje pamięć tylko wtedy, jeśli jest to konieczne, a jeśli nie, to przyznaje procesowi jeden z posiadanych przez siebie bloków. Po zakończeniu pracy, kiedy proces zwalnia strukturę przy pomocy free_task_struct(), być może nie zostanie ona w rzeczywistości zwolniona - może zostać przechowana na wypadek, gdyby inny proces jej potrzebował. Przyspiesza to sytuacje, kiedy jeden proces się kończy, a zaraz potem tworzy się proces następny - dzięki cache'owi nie ma potrzeby wywoływania dealokacji i zaraz potem ponownej alokacji pamięci ( na blok tego samego rozmiaru co ten przed chwilą zwolniony ).
copy_flags()
```
static inline void copy_flags(unsigned long clone_flags,
                              struct task_struct *p)
```
Funkcja służy do ustawiania flag procesu - zeruje na początku flagi PF_SUPERPRIV ( proces nie korzystał jeszcze z uprawnień superużytkownika ) i PF_USEDPFU ( proces nie korzystał jeszcze z rejestrów floating-point ), następnie ustawia flagę PF_FORKNOEXEC i ewentualnie zeruje zmienną ptrace procesu, jeśli flaga CLONE_PTRACE nie była ustawiona.
get_pid()
```
static int get_pid(unsigned long flags)
```
Funkcja zwraca numer PID dla nowo tworzonego procesu. Jeśli jest ustawiona flaga CLONE_PID, to zwraca PID aktualnego procesu. Jeśli nie, i ostatni nadany pid zwiększony o 1 jest mniejszy od PID_MAX, to zwraca ten pid. Jeśli możemy, to nadajemy kolejne PID'y coraz większe, aż przekroczymy PID_MAX i wtedy musimy wybrać z wolnych PIDów o niższych numerach. Robi się to przechodząc po kolei po liście wszystkich procesów w celu wyszukania PID'u o najniższym wolnym numerze większym od ostatnio przyznanego PID'u. Jeśli i to się nie uda, zaczynamy szukanie od numeru 300 ( pomijamy procesy-demony ).
Algorytm działania get_pid() może się wydawać dziwny, ale `wspomaga sam siebie', bo stara się zwiększyć ilość sytuacji, w których nie będzie trzeba robić przeglądania wszystkich procesów. Wyszukuje wśród procesów najmniejszy PID większy od aktualnie analizowanego - jeśli znajdzie równy analizowanemu, to zwiększa analizowany PID o 1 i zaczyna od początku. Jeśli nie znajdzie PIDu równego aktualnie analizowanemu, to dobrze, bierze aktualnie analizowany. Algorytm prosty, jego złożoność pesymistycznie jest kwadratowa ze względu na liczbę procesów, ale po pierwsze pesymistyczna sytuacja wystąpi dopiero po jakimś czasie, po drugie algorytm ma tendencję do grupowania PID'ów koło siebie, dlatego pesymistyczne sytuacje pojawiać się będą rzadko. Wreszcie po trzecie, ilość procesów działających jednocześnie przeważnie nie przekracza 500, czy nawet 1000, a to jest znacznie mniej, niż 32767, bo tyle wynosi aktualnie maksymalna dopuszczalna wartość PID'u.
copy_fs()
```
static inline int copy_fs(unsigned long clone_flags,
                          struct task_struct * tsk)
```
Funkcja ta służy do kopiowania informacji o systemie plików, które przechowuje proces, to znaczy m.in. korzenia drzewa katalogów, katalogu aktualnego i umask. Jeśli była ustawiona flaga CLONE_FS, wtedy tylko zwiększa licznik referencji do oryginalnej struktury fs_struct. Jeśli nie, woła funkcję __copy_fs_struct, która kopiuje dane ze starej struktury.
copy_files()
```
static int copy_files(unsigned long clone_flags,
                      struct task_struct * tsk)
```
Funkcja ta służy do przekopiowania tablicy deskryptorów plików - podobnie, jak funkcja copy_fs(), jeśli jest ustawiona flaga CLONE_FILES, to tylko zwiększa licznik referencji.
copy_mm()
```
static int copy_mm(unsigned long clone_flags,
                   struct task_struct * tsk)
```
Funkcja kopiuje zawartość przestrzeni adresowej procesu current do tsk i zwiększa odpowiednie liczniki użycia. Wykonuje to tylko wtedy, jeśłi nie była ustawiona flaga CLONE_VM; jeśli tak, to zwiększa licznik referencji i ustawia tylko odpowiednie wskaźniki. Tutaj stosuje się w przypadku forka metodę copy-on-write, która polega na tym, że nie ma rzeczywistego kopiowania stron pamięci od razu, a dopiero wtedy, kiedy któryś proces będzie chciał coś do nich zapisać. Wtedy dana strona fizyczna jest kopiowana, a kopia przyznawana jest procesowi potomnemu. Dzięki temu oszczędza się czas na kopiowanie całej przestrzeni adresowej w sytuacji, kiedy zaraz po forku proces wykonuje execve().
copy_sighand()
```
static inline int copy_sighand(unsigned long clone_flags,
                               struct task_struct * tsk)
```
Kopiuje struktury odpowiedzialne za obsługę sygnałów, konkretnie strukturę signal_struct. Jeśli była ustawiona flaga CLONE_SIGHAND, zwiększa tylko liczniki referencji.
copy_thread()
```
extern int  copy_thread(int, unsigned long, unsigned long,
                 unsigned long, struct task_struct *,
                 struct pt_regs *)
```
Funkcja ta służy do zainicjowania stosu trybu jądra procesu potomnego. Inicjuje się go wartościami z rejestrów procesora podczas wykonywania clone() ( żeby możliwe było zjawisko `startu od forka' procesu potomnego ). Wartości te są w tej chwili przechowywane na stosie trybu jądra procesu macierzystego. Po skopiowaniu zawartości rejestrów pole odpowiadające rejestrowi eax jest ustawiane na 0 ( wartość zwracana do potomka przez fork() ), a esp na liczbę będącą argumentem linii poleceń. Teraz te wartości zostają zapisane do struktury thread procesu potomnego. Podobnie z wartościami rejestrów fs i gs - także są zapisywane do struktury thread. Pole eip struktury thread ( instruction pointer ) zostaje ustawione na adres asemblerowego makra ret_from_fork(), tak aby nowo utworzony proces zaczął swoje wykonanie od tego makra. Kolejnym krokiem jest wykonanie makra unlazy_fpu, które zachowuje rejestry zmiennoprzecinkowe i zeruje flagę PF_USEDFPU, a także w rejestrze cr0 ustawia flagę TS na 1. Związane jest to ze specjalnym mechanizmem zachowywania rejestrów zmiennoprzecinkowych, o którym będzie mowa w części o zmianie kontekstu. Na końcu następuje skopiowanie zawartości struktur do zachowywania rejestrów zmiennoprzecinkowych procesu macierzystego do struktur procesu potomnego.

Makro switch_to()

Treść makra

Treść może się wydać trochę niezrozumiała, dlatego zapiszę algorytm w ''pseudojęzyku'' i w wersji uproszczonej:

$\begin{algorithm} % latex2html id marker 114\caption{switch\_to(prev,next)}\be... ...: \STATE pop ebp \STATE pop edi \STATE pop esi \end{algorithmic}\end{algorithm}$

A __switch_to:

$\begin{algorithm} % latex2html id marker 119\caption{\_\_switch\_to(prev,next)... ...p,next->io\_bitmap) \STATE END IF \STATE END IF \end{algorithmic}\end{algorithm}$

Opis działania funkcji

switch_to

Makro switch_to() działa w następujący sposób:
Bierzemy argumenty - prev - aktualny proces, next - proces, na który się przełączamy.

zachowujemy na stosie trybu jądra rejestry esi, edi i ebp ( wymaganie kompilatora gcc - zakłada, że nie zostaną zmienione aż do końca switch_to )
zachowujemy w polu esp struktury thread procesu aktualnego wierzchołek stosu trybu jądra procesu aktualnego (prev->thread.esp) - kiedy proces zostanie obudzony, musi mieć stos w takim stanie, jak przedtem.
ładujemy wartość next->thread.esp do rejestru esp - od tej chwili właściwie procesy są juz przełączone, bo makro current korzysta z rejestru esp do określenia aktualnego procesu
zapamiętujemy adres pierwszej instrukcji za wywołaniem funkcji ( skokiem do ) __switch_to() do prev->thread.eip - kiedy sterowanie wraca do procesu prev, wtedy wykonanie ma zacząć się właśnie od tego miejsca.
wykonujemy funkcję switch_to, o której będzie mowa za chwilę
kiedy odzyskujemy procesor ( ten sam lub inny ), tylko zdejmujemy ze stosu zachowane tam wcześniej wartości rejestrów ebp, edi i esi.

__switch_to

Funkcja __switch_to:

wykonujemy makro unlazy_fpu, które zapisuje rejestry zmiennoprzecinkowe i ustawia flagę TS rejestru cr0 - o tym i zapisywaniu rejestrów zmiennoprzecinkowych powiemy za chwilę.
ładujemy do tss procesora zapisaną w next->thread->esp0 wartość tejestru esp0 (do pola tss->esp0)
zachowujemy w strukturze thread procesu prev wartości rejestrów segmentowych fs i gs
ustawiamy wartości rejestrów fs i gs na te zapisane w strukturze thread procesu next
jeśli proces next ma jakieś uprawnienia dotyczące dostępu do urządzeń wejścia/wyjścia, to kopiujemy mapy uprawnień z procesu next do segmentu tss.

Zachowywanie rejestrów zmiennoprzecinkowych

Ze względów efektywnościowych w przełączaniu kontekstu rezygnujemy z wykonywania jakichkolwiek zbędnych operacji. Jednym ze sposobów przyspieszenia przełączania kontekstu jest próba zmniejszenia ilości operacji zachowywania i przywracania wartości rejestrów zmiennoprzecinkowych. Technika ta działa w ten sposób:

proces prev zachowuje rejestry zmiennoprzecinkowe tylko wtedy, jeśli ich używał - to znaczy, kiedy ma ustawioną flagę PF_USEDFPU
korzystamy ze wsparcia procesora - jest w rejestrze cr0 flaga TS ( task switching ) działająca tak, że zawsze, kiedy przy włączonej fladze wykonywana jest instrukcja ESCAPE lub MMX, procesor zgłasza wyjątek "device not available"; przy pomocy procedury, która obsługuje ten wyjątek, możemy zrobić cokolwiek - więc wykorzystujemy to do opóźnionego ładowania zawartości rejestrów ze struktury thread do rejestrów procesora; proces A, jeśli oddaje procesor i używał rejestrów FPU, zapisuje sobie rejestry i ustawia flagę TS na 1 ( dokładnie to robi makro unlazy_fpu ); jeśli teraz jakiś proces B będzie chciał korzystać z tych rejestrów, procesor zgłosi wyjątek i procedura obsługi wyjątku załaduje odpowiednie rejestry do procesora. Ale jeśli B nie korzysta z rejestrów zmiennoprzecinkowych, to dzięki temu mechanizmowi nic nie trzeba z nimi robić, ani zapisywać, ani przywracać.
jeśli proces zaczyna używać rejestrów FPU, ale nigdy wcześniej tego nie robił, to wyjątek mógłby doprowadzić do załadowania do rejestrów procesora losowych wartości; żeby tego uniknąć, jest jeszcze pole used_math, które określa, czy proces używał już w ogóle rejestrów zmiennoprzecinkowych. Jeśli procesor zgłasza wyjątek, a proces jeszcze FPU nie używał, to FPU jest reinicjalizowane ( rejestry zostają wyczyszczone )

Zadania

Tworzenie procesów

W jaki sposób można uniknąć konieczności kopiowania całej przestrzeni adresowej procesu macierzystego do procesu potomnego w sytuacji, kiedy tworzymy proces jedynie w celu wykonania natychmiast exec() ?
W jaki sposób przydziela się nowo tworzonemu procesowi priorytet dynamiczny ( counter ) ?
Podaj flagi, z którymi należałoby wykonać __clone(), żeby uzyskać fork() i vfork().
Dlaczego nie dziedziczy się bycia liderem sesji ?

Przełączanie kontekstu

W jaki sposób przyspiesza się przełączanie kontekstu dla procesów, które nie używają rejestrów zmiennoprzecinkowych? Czy do tego konieczne jest wsparcie sprzętowe?

Rozwiązania

Tworzenie procesów

W jaki sposób można uniknąć konieczności kopiowania całej przestrzeni adresowej procesu macierzystego do procesu potomnego w sytuacji, kiedy tworzymy proces jedynie w celu wykonania natychmiast exec() ?
1. Przez używanie funkcji vfork() - procesy dzielą przestrzeń adresową, proces macierzysty śpi do czasu, aż proces potomny wykonw exec(), wtedy się budzi i idzie dalej
2. Przez clone() i współdzielenie zasobów - można podać zasoby, które się chce dzielić z procesem potomnym
3. Przez fork(), tak po prostu - w jądrze jest copy-on-write - kopiowane będą tylko te strony fizyczne, które będą modyfikowane.
W jaki sposób przydziela się nowo tworzonemu procesowi priorytet dynamiczny ( counter ) ?
Proces macierzysty dzieli swój counter na pół i połowę oddaje procesowi potomnemu. Jeśli zostanie mu 0, to ustawia flagę need_resched.
Podaj flagi, z którymi należałoby wykonać __clone(), żeby uzyskać fork() i vfork().
- fork() - SIGCHLD - nie ma dzielenia zasobów
- vfork() - CLONE_VM | CLONE_VFORK | SIGCHLD - dzielimy przestrzeń adresową i musimy uśpić proces macierzysty i potem go obudzić
Dlaczego nie dziedziczy się bycia liderem sesji ? Ponieważ wtedy każdy proces byłby liderem sesji, czyli należałby do innej sesji; wtedy mechanizm sesji nie miałby sensu.

Przełączanie kontekstu

W jaki sposób przyspiesza się przełączanie kontekstu dla procesów, które nie używają rejestrów zmiennoprzecinkowych? Czy do tego konieczne jest wsparcie sprzętowe?
- proces zachowuje rejestry zmiennoprzecinkowe tylko wtedy, jeśli ich używał - to znaczy, kiedy ma ustawioną flagę PF_USEDFPU
- korzystamy ze wsparcia procesora - jest w rejestrze cr0 flaga TS ( task switching ) działająca tak, że zawsze, kiedy przy włączonej fladze wykonywana jest instrukcja ESCAPE lub MMX, procesor zgłasza wyjątek ``device not available''; przy pomocy procedury, która obsługuje ten wyjątek, możemy zrobić cokolwiek - więc wykorzystujemy to do opóźnionego ładowania zawartości rejestrów ze struktury thread do rejestrów procesora; proces A, jeśli oddaje procesor i używał rejestrów FPU, zapisuje sobie rejestry i ustawia flagę TS na 1; jeśli teraz jakiś proces B będzie chciał korzystać z tych rejestrów, procesor zgłosi wyjątek i procedura obsługi wyjątku załaduje odpowiednie rejestry do procesora. Ale jeśli B nie korzysta z rejestrów zmiennoprzecinkowych, to dzięki temu mechanizmowi nic nie trzeba z nimi robić, ani zapisywać, ani przywracać.

Literatura

SO z poprzednich lat: różni autorzy: Referaty z Systemów Operacyjnych z poprzednich lat MIMUW 1998-2000
Linux Kernel Internals: Tigran Aivazian: Linux Kernel 2.4 Internals 2001
Linux Kernel: D.P.Bovet & M.Cesati: Linux Kernel O'Reilly 2001
Źródła jądra: różni autorzy: Źródła jądra linuksa 2.4.7

About this document ...

Procesy w Linuksie - funkcje fork(),vfork() i clone(); przełączanie kontekstu

This document was generated using the LaTeX2HTML translator Version 99.2beta8 (1.43)

The command line arguments were:
latex2html -split 0 referat.tex

The translation was initiated by Janina Mincer-Daszkiewicz on 2001-12-27

Janina Mincer-Daszkiewicz 2001-12-27

Procesy w Linuksie - funkcje fork(),vfork() i clone(); przełączanie kontekstu

Spis rzeczy

Wprowadzenie

Wstęp

Zamieszczanie kodu i opisy

Tworzenie procesów

Od strony programisty

Przełączanie kontekstu

Kontekst sprzętowy

Kiedy następuje przełączenie

Funkcje fork(),vfork() i clone()

Wywołania funkcji do_fork()

Funkcja do_fork()

Niektóre funkcje wywoływane przez do_fork()

Makro switch_to()

Treść makra

Opis działania funkcji

switch_to

__switch_to

Zachowywanie rejestrów zmiennoprzecinkowych

Zadania

Tworzenie procesów

Przełączanie kontekstu

Rozwiązania

Tworzenie procesów

Przełączanie kontekstu

Literatura

About this document ...