linux/mm/vmscan.c

/*
 *  linux/mm/vmscan.c
 *
 *  Copyright (C) 1991, 1992, 1993, 1994  Linus Torvalds
 *
 *  Swap reorganised 29.12.95, Stephen Tweedie.
 *  kswapd added: 7.1.96  sct
 *  Version: $Id: vmscan.c,v 1.4.2.2 1996/01/20 18:22:47 linux Exp $
 */

#include <linux/mm.h>
#include <linux/sched.h>
#include <linux/head.h>
#include <linux/kernel.h>
#include <linux/kernel_stat.h>
#include <linux/errno.h>
#include <linux/string.h>
#include <linux/stat.h>
#include <linux/swap.h>
#include <linux/fs.h>
#include <linux/swapctl.h>
#include <linux/pagemap.h>
#include <linux/smp_lock.h>

#include <asm/dma.h>
#include <asm/system.h> /* for cli()/sti() */
#include <asm/segment.h> /* for memcpy_to/fromfs */
#include <asm/bitops.h>
#include <asm/pgtable.h>

/*
 * To check memory consuming code elsewhere set this to 1
 */
/* #define MM_DEBUG */

/* 
 * When are we next due for a page scan? 
 */
static int next_swap_jiffies = 0;

/*
 * Was the last kswapd wakeup caused by
 *     nr_free_pages < free_pages_low
 */
static int last_wakeup_low = 0;

/* 
 * How often do we do a pageout scan during normal conditions?
 * Default is four times a second.
 */
int swapout_interval = HZ / 4;

/* 
 * The wait queue for waking up the pageout daemon:
 */
static struct wait_queue * kswapd_wait = NULL;

/* 
 * We avoid doing a reschedule if the pageout daemon is already awake;
 */
static int kswapd_awake = 0;

/*
 * sysctl-modifiable parameters to control the aggressiveness of the
 * page-searching within the kswapd page recovery daemon.
 */
kswapd_control_t kswapd_ctl = {4, -1, -1, -1, -1};

static void init_swap_timer(void);

/*
 * The swap-out functions return 1 if they successfully
 * threw something out, and we got a free page. It returns
 * zero if it couldn't do anything, and any other value
 * indicates it decreased rss, but the page was shared.
 *
 * NOTE! If it sleeps, it *must* return 1 to make sure we
 * don't continue with the swap-out. Otherwise we may be
 * using a process that no longer actually exists (it might
 * have died while we slept).
 */
static inline int try_to_swap_out(struct task_struct * tsk, struct vm_area_struct* vma,
	unsigned long address, pte_t * page_table, int dma, int wait, int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcią
     dzieloną używaną przez proces *tsk, mieszczącą się w obszarze wirtualnej 
     pamięci vma w tablicy stron w miejscu page_table.

     argumenty:
     tsk - proces, któremu chcemy zwolnić ramkę
     vma - blok pamięci, z którego chcemy zwolnić ramkę
     address - adres ramki
     page_table - adres adresu ramki (wraz z bitami stanu)
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nią 
            poczekać
     can_do_io - czy w celu zwolnienia ramki możemy wykonać operacje IO
     */
{
  pte_t pte;
  unsigned long entry;
  unsigned long page;
  struct page * page_map;
  
  /* pte jest adresem ramki wraz z bitami stanu */
  pte = *page_table;
  
  /* jeśli strony nie ma w pamięci, to zwracamy 0 */
  if (!pte_present(pte))
    return 0;
  
  /* page jest adresem ramki (bez bitów stanu) */
  page = pte_page(pte);
  
  /* jeśli numer ramki przekracza rozmiar tablicy ramek, to coś jest źle */
  if (MAP_NR(page) >= MAP_NR(high_memory))
    return 0;
  
  /* page_map jest tablicą ramek od miejsca, w którym jest ramka page 
   (innymi słowy jest adresem struktury page z informacjami o ramce */
  page_map = mem_map + MAP_NR(page);
  
  if (PageReserved(page_map) /* do ramki nie może być żadnych odwołań */
      || PageLocked(page_map) /* ramka jest zablokowana, tj. nie zakończyła
				 się jeszcze operacja wymiany dla tej ramki */
      || (dma && !PageDMA(page_map))) /* ramka ma być przesyłana przez dma, 
					 ale nie leży ona w zasięgu mechanizmu
					 transferu kanałami dma
					 */
    return 0;
  

  /* Deal with page aging.  Pages age from being unused; they
   * rejuvenate on being accessed.  Only swap old pages (age==0
   * is oldest). */
  if ((pte_dirty(pte) /* bylo odwolanie do strony */
       && delete_from_swap_cache(MAP_NR(page))) /* strona była w swap_cache 
						 (jednocześnie usuwamy ją ze
						 swap_cache) */
      || pte_young(pte))  /* jest 'mloda' */
    {
      /* odznaczamy w tablicy stron, że było odwołanie do tej strony */
      set_pte(page_table, pte_mkold(pte));

      /* odmładzamy stronę */
      touch_page(page_map);
      return 0;
    }

  /* postarzamy stronę */
  age_page(page_map);

  /* jeśli strona nie jest jeszcze stara (0 oznacza najstarszy wiek strony) */
  if (page_map->age)
    return 0;

  /* jeśli dane w ramce uległy zmianie */
  if (pte_dirty(pte)) 
    {
    if(!can_do_io)
      /* jeśli dane w ramce uległy zmianie i nie możemy wykonać operacji IO,
       to nie ma możliwości zwolnienia tej ramki */
      return 0;

    if (vma->vm_ops && vma->vm_ops->swapout) 
     /* jeśli blok pamięci wirtualnej w którym leży ta strona ma określoną
       operację swapout (jest tak wiw gdy strona pochodzi z mapowania plików) */
      {
	pid_t pid = tsk->pid;

	/* liczba stron rezydujących w pamięci dla naszego procesu zmniejsza
	 się o 1 */
	vma->vm_mm->rss--;

	/* jeśli nie udało nam się wymieść strony, to wysyłamy do procesu,
	 którego stronę wymiatamy sygnał SIGBUS */
	if (vma->vm_ops->swapout(vma, address - vma->vm_start + vma->vm_offset, page_table))
	  kill_proc(pid, SIGBUS, 1);
      } else { /* nie mamy określonej operacji swapout */

	/* jeśli licznik odwołań do ramki >1, to nie możemy zwolnić ramki */
	if (page_map->count != 1)
	  return 0;

	/* jeśli nie możemy dostać bloku z żadnego z urządzeń wymiany (np.
	 mie ma już miejsca), to nie możemy wymieść strony */
	if (!(entry = get_swap_page()))
	  return 0;

	/* liczba stron rezydujących w pamięci dla naszego procesu zmniejsza
	   się o 1 */
	vma->vm_mm->rss--;

	/* flush_cache_page nie robi nic !!! (zdefiniowane jako 
	   do {} while(0)) */
	flush_cache_page(vma, address);

	/* w tablicy stron w miejsce numeru ramki wstawiamy klucz 
	   identyfikujący stronę na urządzeniu wymiany */
	set_pte(page_table, __pte(entry));

	/* jeśli wymiatamy stronę aktualnie wykonywanego procesu, to
	 musimy dać znać systemowi, że zmieniła się tablica stron (system ma
	pewnego rodzaju pamięć podręczną na tablicę stron aktualnie 
	wykonywanego procesu) */
	flush_tlb_page(vma, address);
	
	/* liczba wymiecionych stron naszego procesu zwiększa się o 1 */
	tsk->nswap++;

	/* zapisujemy stronę na dysku */
	rw_swap_page(WRITE, entry, (char *) page, wait);
      }
    
    /* odznaczamy ramkę, jako wolną (i ewentualnie kasujemy ją ze 
       swap_cache) */
    free_page(page);

    return 1;	/* we slept: the process may not exist any more */
  }
  if ((entry = find_in_swap_cache(MAP_NR(page))))  
    /* strona nie była zmieniana i jest w swap_cache => nie musimy jej
     zapisywać - wystarczy tylko odznaczyć w tablicy stron miejsce, w którym 
     jest na urządzeniu wymiany */
    {
      if (page_map->count != 1) {
	set_pte(page_table, pte_mkdirty(pte));
	printk("Aiee.. duplicated cached swap-cache entry\n");
	return 0;
      }

      /* liczba stron rezydujących w pamięci dla naszego procesu zmniejsza
	 się o 1 */
      vma->vm_mm->rss--;

      /* flush_cache page nie robi nic !!! (zdefiniowane jako 
	 do {} while(0)) */
      flush_cache_page(vma, address);

      /* w tablicy stron w miejsce adresu wstawiamy entry - klucz
       identyfikujący urządzenie wymiany i miejsce na urządzeniu wymiany w
       którym nagrana jest strona (entry zawiera również informacje pozwaląjace
       odróżnić entry od adresu ramki */
      set_pte(page_table, __pte(entry));
      
      /* jeśli wymiatamy stronę aktualnie wykonywanego procesu, to
       musimy dać znać systemowi, że zmieniła się tablica stron (system ma
       pewnego rodzaju pamięć podręczną na tablicę stron aktualnie 
       wykonywanego procesu) */
      flush_tlb_page(vma, address);
      
      /* odznaczamy, że ramka jest wolna */
      free_page(page);
      return 1;
    } 

  /* w tym miejscu mamy pewność, że strona jest albo z mapowania plikow, albo
   jest stroną czystą */

  /* liczba stron rezydujących w pamięci dla naszego procesu zmniejsza się 
     o 1 */  
  vma->vm_mm->rss--;

  /* flush_cache page nie robi nic !!! (zdefiniowane jako 
     do {} while(0)) */
  flush_cache_page(vma, address);

  /* w tablicy stron odznaczamy, że strony nie ma ani w pamięci, ani na 
     dysku */  
  pte_clear(page_table);

  /* jeśli wymiatamy stronę aktualnie wykonywanego procesu, to
   musimy dać znać systemowi, że zmieniła się tablica stron (system ma
   pewnego rodzaju pamięć podręczną na tablicę stron aktualnie 
   wykonywanego procesu) */
  flush_tlb_page(vma, address);

  /* jeśli jest to ramka ze stroną z mapowania plików, to usuwamy ją z 
     odpowiednich struktur do mapowania plików i zwalniamy ją */
  entry = page_unuse(page);
  
  /* zwalniamy ramkę (zauważmy, że jeśli jest to ramka ze stroną z mapowania
     plików, to robimy to po raz drugi !!!), nie możemy jednak nie zrobić
     free_page, bo być może jest to ramka ze stroną nigdy nie używaną (wtedy
     page_unuse nie wykona free_page); nie prowadzi to do błędu, bo 
     zwalnianie ramki we free_page polega tylko na zapisaniu niektórych bitow */
  free_page(page);
  return entry;
}

/*
 * A new implementation of swap_out().  We do not swap complete processes,
 * but only a small number of blocks, before we continue with the next
 * process.  The number of blocks actually swapped is determined on the
 * number of page faults, that this process actually had in the last time,
 * so we won't swap heavily used processes all the time ...
 *
 * Note: the priority argument is a hint on much CPU to waste with the
 *       swap block search, not a hint, of how much blocks to swap with
 *       each process.
 *
 * (C) 1993 Kai Petzke, wpp@marie.physik.tu-berlin.de
 */

static inline int swap_out_pmd(struct task_struct * tsk, struct vm_area_struct * vma,
	pmd_t *dir, unsigned long address, unsigned long end, int dma, int wait,
	int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcią
     dzieloną używaną przez proces *tsk, mieszczącą się w obszarze wirtualnej 
     pamięci vma w katalogu tablic stron pgd.

     argumenty:
     tsk - proces, któremu chcemy zwolnić ramkę
     vma - blok pamięci, z którego chcemy wymieść stronę
     dir - adres adresu tablicy stron
     start - adres, od którego zaczynamy wymiatać 
     end - adres, na którym kończymy próby wymiatania
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nią 
            poczekać
     can_do_io - czy w celu zwolnienia ramki możemy wykonać operacje IO
     */
{
  pte_t * pte;
  unsigned long pmd_end;
  
  /* sprawdzamy, czy tablica stron istnieje */
  if (pmd_none(*dir))
    return 0;
  
  /* sprawdzamy, czy tablica stron jest poprawna */
  if (pmd_bad(*dir)) {
    printk("swap_out_pmd: bad pmd (%08lx)\n", pmd_val(*dir));
    pmd_clear(dir);
    return 0;
  }
  
  /* wyznaczamy adres tablicy stron od miejsca, ktore obsługuje nasz adres */
  pte = pte_offset(dir, address);
 
  /* wyznaczamy końcowy adres, który obsługuje nasza tablica stron */
  pmd_end = (address + PMD_SIZE) & PMD_MASK;

  /* ustawiamy adres końcowy prób zwalniania ramki tak, aby nie przekraczał 
   adresu obsługiwanego przez naszą tablicę stron */
  if (end > pmd_end)
    end = pmd_end;
  
  do {
    int result;
    
    /* aktualizujemy adres, od którego będziemy szukali następnym razem */
    tsk->swap_address = address + PAGE_SIZE;
    
    /* próbujemy zwolnić ramkę o adresie (wraz z bitami) *pte */
    result = try_to_swap_out(tsk, vma, address, pte, dma, wait,
			     can_do_io);
    if (result)
      return result;

    /* ustawiamy adres tak, aby był na następnej stronie */
    address += PAGE_SIZE;

    /* przeskakujemy do następnej pozycji tablicy stron */
    pte++;
  } while (address < end);
  return 0;
}

static inline int swap_out_pgd(struct task_struct * tsk, struct vm_area_struct * vma,
	pgd_t *dir, unsigned long address, unsigned long end, int dma, int wait,
	int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcią
     dzieloną używaną przez proces *tsk, mieszczącą się w obszarze wirtualnej 
     pamięci vma w katalogu tablic stron dir.

     argumenty:
     tsk - proces, któremu chcemy zwolnić ramkę
     vma - blok pamięci, z którego chcemy zwolnić ramkę
     dir - adres adresu katalogu tablic stron drugiego poziomu
     start - adres, od którego zaczynamy wymiatać 
     end - adres, na którym kończymy próby wymiatania
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nią 
            poczekać
     can_do_io - czy w celu zwolnienia ramki możemy wykonać operacje IO
     */
{
  pmd_t * pmd;
  unsigned long pgd_end;
  
  /* sprawdzamy, czy katalog tablic stron drugiego poziomu istnieje (na intelu
     zawsze udaje, że istnieje) */
  if (pgd_none(*dir))
    return 0;
  
  /* sprawdzamy, czy katalog tablic stron drugiego poziomu jest poprawny (na 
     intelu zawsze udaje, że jest poprawny */
  if (pgd_bad(*dir)) 
    {
      printk("swap_out_pgd: bad pgd (%08lx)\n", pgd_val(*dir));
      pgd_clear(dir);
      return 0;
    }
  
  /* pobieramy adres katalogu tablic stron drugiego poziomu od miejsca, które 
   obsługuje nasz adres */
  pmd = pmd_offset(dir, address);
  
  /* wyznaczamy końcowy adres, który obsługuje nasz katalog tablic stron 
     drugiego poziomu */
  pgd_end = (address + PGDIR_SIZE) & PGDIR_MASK;
  
  /* ustawiamy adres końcowy prób zwalniania ramki tak, aby nie przekraczał 
   adresu obsługiwanego przez nasz katalog tablic stron drugiego poziomu */
  if (end > pgd_end)
    end = pgd_end;
  
  do {
    /* próbujemy zwolnić ramkę z konkretnego katalogu tablic stron drugiego
     poziomu; na intelu jest tylko jednoelementowa (a i to udawana) tablica
     katalogów tablic stron drugiego poziomu, więc pętla kręci się tylko raz */
    int result = swap_out_pmd(tsk, vma, pmd, address, end, dma, wait,
			      can_do_io);
    if (result)
      return result;
    address = (address + PMD_SIZE) & PMD_MASK;
    pmd++;
  } while (address < end);
  return 0;
}

static int swap_out_vma(struct task_struct * tsk, struct vm_area_struct * vma,
	pgd_t *pgdir, unsigned long start, int dma, int wait, int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcią
     dzieloną używaną przez proces *tsk, mieszczącą się w obszarze wirtualnej 
     pamięci vma.

     argumenty:
     tsk - proces, któremu chcemy zwolnić ramkę
     vma - blok pamięci, z którego chcemy zwolnić ramkę
     pgdir - katalog tablic stron pierwszego poziomu (w innej systematyce
             tablica stron trzeciego poziomu) od adresu start 
     start - adres, od którego zaczynamy wymiatać (zakładamy, że leży pomiędzy
             vma->start i vma->end)
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nią 
            poczekać
     can_do_io - czy w celu zwolnienia ramki możemy wykonać operacje IO
     */
{
  unsigned long end;
  
  /* Don't swap out areas like shared memory which have their
     own separate swapping mechanism or areas which are locked down */
  /* nie wymiatamy stron z obszarów będących pamięcią dzieloną, lub
   których nie możemy wymiatać; zauważmy, że strony, które są z mapowania
   plików mogą być wymiatane w ten sposób */
  if (vma->vm_flags & (VM_SHM | VM_LOCKED))
    return 0;
  
  end = vma->vm_end;
  while (start < end)
    /* dopóki nie przejrzeliśmy calego vma */
    {
      /* próbujemy wymieść stronę z katalogu tablic stron drugiego
       poziomu znajdującego się w *pgdir */
      int result = swap_out_pgd(tsk, vma, pgdir, start, end, dma, wait,
				can_do_io);
      if (result)
	return result;
      
      /* przesuwamy adres startowy w miejsce, od którego adresy obsługuje
       następny katalog stron drugiego poziomu */
      start = (start + PGDIR_SIZE) & PGDIR_MASK;
      
      /* będziemy brali pod uwagę następne pole katalogu stron pierwszego 
       poziomu, czyli następny katalog stron drugiego poziomu */
      pgdir++;
    }
  return 0;
}

static int swap_out_process(struct task_struct * p, int dma, int wait, int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcia
     dzielona używaną przez proces *p.

     argumenty:
     p - proces, któremu chcemy zwolnić ramkę
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nia poczekać
     can_do_io - czy w celu zwolnienia ramki możemy wykonać operacje IO
     */
{
  unsigned long address;
  struct vm_area_struct* vma;
  
  /*
   * Go through process' page directory.
   */

  /* rozpoczynamy zwalnianie od miejsca, gdzie ostatnio skończyliśmy */
  address = p->swap_address;

  /* jeżeli gdzieś nagle skończymy działanie tej funkcji, to przy następnym
   wywołaniu dla tego procesu rozpoczniemy zwalnianie od adresu 0 */
  p->swap_address = 0;
  
  /*
   * Find the proper vm-area
   */
  /* znajdujemy pierwszy (w kolejności względem startu segmentów) blok
     ciągłej pamięci, którego koniec jest większy od adresu, przy którym 
     zakończyliśmy przeszukiwanie ostatnim razem */
  vma = find_vma(p->mm, address);
  if (!vma)
    return 0;

  /* być może nasz adres nie leży w żadnym z obszarów adresowych przyłączonych
   do procesu (np. startujemy od 0 lub odłaczyliśmy ostatnio jakiś obszar w 
   programie) */
  if (address < vma->vm_start)
    address = vma->vm_start;
  
  for (;;) {
    /* próbujemy wymieść stronę z aktualnego vma */
    int result = swap_out_vma(p, vma, pgd_offset(p->mm, address), address, dma, wait,
			      can_do_io);
    if (result)
      return result;
    vma = vma->vm_next;
    if (!vma)
      break;
    address = vma->vm_start;
  }
  p->swap_address = 0;
  return 0;
}

static int swap_out(unsigned int priority, int dma, int wait, int can_do_io)
  /* 
     Funkcja próbująca zwolnić jedną ramkę z pamięci nie będącej pamięcią
     dzieloną.

     argumenty:
     priority - priorytet z jakim chcemy zwolnić ramkę
     dma - czy mamy przesyłać stronę przez dma
     wait - czy tak bardzo potrzebujemy wolnej ramki, że aż chcemy na nią 
            poczekać
     */
{
  static int swap_task;  /* numer zadania, które ostatnio przeglądaliśmy */
  
  int loop,   /* czy już przebiegliśmy przez koniec tablicy z zadaniami */
    counter, /* liczba procesów, które można wymienić i ktore mają jakieś 
		strony w pamięci (niekoniecznie tylko różne od 
		pamięci dzielonej i mapowania plików), które będziemy
		przeglądali w celu zwolnienia ramki */
    shfrv; /* zmienna pomagająca przy ustalaniu counter'a */
  struct task_struct *p;
  
#ifdef MM_DEBUG
  shfrv = 10;
#else
  /*
   * Trouble due ageing pages: In some situations it is possible that we cross only tasks
   * which are swapped out or which have only physical pages with age >= 3.
   * High values of swap_cnt for memory consuming tasks do aggravate such situations.
   *
   * If PAGEOUT_WEIGHT has a value of 8192 a right shift value of 10 leads to
   *     (8 * nr_tasks) >> priority
   * Together with a high number of tasks, say 100, we have counters (due priority)
   *     12(6) + 25(5) + 50(4) + 100(3) + 200(2) + 400(1) + 800(0)
   * and as total result 1587 scans of swap_out() to swap out a task page.
   *
   * Just assume 80 tasks are swapped out and the remaining tasks have a swap_cnt value >= 40
   * together with pages with age >= 3.  Then we need approx 20*40*2 = 1600 scans to get a
   * free page.
   * And now assume that the amount of cached pages, buffers, and ipc pages are really low.
   */
  switch (priority) 
    /* w zależności od priorytetu ustalamy o ile bitów w prawo przesuwamy
     counter - patrz wyżej */
    {
  case 6: case 5: case 4:  /* be friendly */
    shfrv = 10;
    break;
  case 3: case 2: case 1:  /* more intensive */
    shfrv =  9;
    break;
  case 0: default:         /* sorry we need a page */
    shfrv =  8;
    break;
  }
#endif
  
  counter = ((PAGEOUT_WEIGHT * nr_tasks) >> shfrv) >> priority;

  for(; counter >= 0; counter--) {
    /*
     * Check that swap_task is suitable for swapping.  If not, look for
     * the next suitable process.
     */
    loop = 0;
    while(1) 
      /* kręcimy się, aż znajdziemy proces nadający się do wymiany, lub
       aż przejrzymy wszystkie procesy */
      {
	if (swap_task >= NR_TASKS) 
	  {
	    /* skaczemy do początku tablicy procesów (omijając proces init) */
	    swap_task = 1;
	    if (loop)
	      /* all processes are unswappable or already swapped out */
	      return 0;
	    loop = 1;
	  }
	
	p = task[swap_task];
	if (p && p->swappable && p->mm->rss)
	  /* znaleźliśmy proces nadający się do wymiany mający jeszcze
	   ramki rezydujące w pamięci */
	  break;
	
	swap_task++;
      }
    
    /*
     * Determine the number of pages to swap from this process.
     */
    if (!p->swap_cnt) 
      {
	/*
	 * Normalise the number of pages swapped by
	 * multiplying by (RSS / 1MB)
	 */
	p->swap_cnt = AGE_CLUSTER_SIZE(p->mm->rss);
      }
    if (!--p->swap_cnt)
      /* jeżeli liczba stron do wymiany w tym procesie == 1, to w następnym
        obiegu badamy następny proces - unikamy tym samym ponownego 
	wyznaczania liczby stron do wymiany w tym procesie w tej turze */
      swap_task++;
    
    switch (swap_out_process(p, dma, wait, can_do_io)) 
      {
      case 0:
	if (p->state == TASK_STOPPED)
	  /* Stopped task occupy nonused ram */
	  /* Nie udało się zwolnić ramki, ale proces jest wstrzymany - ma
	   priorytet przy usuwaniu stron. Następnym razem będziemy próbowac
	   zwalniać ramki tego procesu */
	  break;
	
	if (p->swap_cnt)
	  swap_task++;
	break;
      case 1:
	/* OK - udalo się zwolnić ramkę */
	return 1;
      default:
	/* Nie udało się zwolnić ramki, ale wynik rokuje nadzieje na to, że w
           następnej turze uda się zwolnić ramkę - następnym razem sprawdzamy
           ten sam proces */
	break;
      }
  }
#ifdef MM_DEBUG
  if (!priority) {
    printk("swap_out: physical ram %6dkB, min pages   %6dkB\n",
	   (int)(high_memory>>10), min_free_pages<<(PAGE_SHIFT-10));
    printk("swap_out:   free pages %6dkB, async pages %6dkB\n",
	   nr_free_pages<<(PAGE_SHIFT-10), nr_async_pages<<(PAGE_SHIFT-10));
  }
#endif
  return 0;
}

/*
 * We are much more aggressive about trying to swap out than we used
 * to be.  This works out OK, because we now do proper aging on page
 * contents. 
 */
int try_to_free_page(int priority, int dma, int wait)
  /*
    Funkcja próbująca zwolnić jedną ramkę.

    argumenty: 
    priority - priorytet
    dma - czy mamy przesyłać stronę przez dma
    wait - czy tak bardzo potrzebujemy ramki, że aż chcemy na nią poczekać
    */
{
  /* zmienna statyczna przechowująca informację o tym, jaki rodzaj pamięci 
     ostatnio zwalniano (pamięć używaną na stronicowanie plikow, pamięć 
     dzieloną, czy pozostałą pamięć używaną przez procesy */
  static int state = 0;

  /* aktualny priorytet zwalniania, a jednocześnie licznik w pętli zwalniającej
     krecącej się od i do stop w dół */
  int i=6;

  /* zmienna określająca dolny próg kręcenia się pętli zwalniającej */
  int stop,
    /* zmienna określająca, czy możemy wykonać operację IO, aby zwolnić
       ramkę */    
    can_do_io;
  
  /* we don't try as hard if we're not waiting.. */
  /* standardowo pętla zwalniająca ramki kończy się na priorytecie 3 */
  stop = 3;

  /* standardowo możemy wykonywać operacje IO, aby zwolnić ramkę */
  can_do_io = 1;

  /* jeżeli możemy czekać na zwolnienie ramki, to pętla zwalniająca kończy
   się na priorytecie 0 (o ile nie uda nam się zwolnić wcześniej) */
  if (wait)
    stop = 0;

  /* jeżeli ramka jest potrzebna dla wykonania operacji IO, to musimy zwolnić
   taką ramkę, która do zwolnienia nie będzie wymagała wykonania operacji 
   IO, bo wpadniemy w blokade */
  if (priority == GFP_IO)
    can_do_io = 0;
  
  switch (state) 
    /* w zależności od tego, jaki rodzaj pamięci ostatnio zwalnialiśmy 
       rozpoczynamy zwalnianie od niej, lub od następnego rodzaju pamięci, 
       jeśli nie udało nam się zwolnić tego rodzaju pamięci poprzednim razem */
    {
    do
      {
      case 0:
	/* zwalniamy ramkę używaną do mapowania plików */
	if (shrink_mmap(i, dma, can_do_io))
	  return 1;
	state = 1;
      case 1:
	/* zwalniamy ramkę używaną na pamięć dzieloną; nie ma innej możliwości
	 zwolnienia ramki używanej na pamięć dzieloną, niż jej zapisanie,
	 dlatego musimy mieć możliwość wykoniania operacji IO */
	if (can_do_io && shm_swap(i, dma))
	  return 1;
	state = 2;
      default:
	/* zwalniamy ramkę używaną przez proces, nie będąca pamięcią
	   dzieloną; ramki używane do mapowania plików mogą być zwalniane w ten
	   sposób */
	if (swap_out(i, dma, wait, can_do_io))
	  return 1;
	state = 0;
	i--;
      } while ((i - stop) >= 0);
    }
  return 0;
}

/*
 * Before we start the kernel thread, print out the 
 * kswapd initialization message (otherwise the init message 
 * may be printed in the middle of another driver's init 
 * message).  It looks very bad when that happens.
 */
void kswapd_setup(void)
{
       int i;
       char *revision="$Revision: 1.4.2.2 $", *s, *e;

       if ((s = strchr(revision, ':')) &&
           (e = strchr(s, '$')))
               s++, i = e - s;
       else
               s = revision, i = -1;
       printk ("Starting kswapd v%.*s\n", i, s);
}

/*
 * The background pageout daemon.
 * Started as a kernel thread from the init process.
 */
int kswapd(void *unused)
// demon wymiany
{
  int i, j;
  
  /* current jest aktualnie działającym procesem (procesem demona 
     wymiany */
  
  current->session = 1;
  current->pgrp = 1; /* grupą demona jest grupa nr. 1 */
  sprintf(current->comm, "kswapd");
  current->blocked = ~0UL;
  
  /*
   *	As a kernel thread we want to tamper with system buffers
   *	and other internals and thus be subject to the SMP locking
   *	rules. (On a uniprocessor box this does nothing).
   */
  
#ifdef __SMP__
  lock_kernel();
  syscall_count++;
#endif
  
  /* Give kswapd a realtime priority. */
  /* wyznaczamy sposób kolejkowania zadania demona wymiany */
  current->policy = SCHED_FIFO; 

  current->priority = 32;  /* Fixme --- we need to standardise our
			      namings for POSIX.4 realtime scheduling
			      priorities.  */
  
  /* inicjalizacja danych zegara demona wymiany */
  init_swap_timer(); 
  
  while (1) {
    /* low on memory, we need to start swapping soon */
    /* w zależności od tego, czy budzenie demona odbyło się z powodu spadku 
       liczby wolnych ramek poniżej free_pages_low, czy nie ustalamy czas, 
       po którym nie będziemy sie wahać, czy wymieniać strony */
    next_swap_jiffies = jiffies +
      (last_wakeup_low ? swapout_interval >> 1 : swapout_interval);
    
    /* odznaczamy demon jako nieaktywny po to, aby pokazać, że wymaga on 
       budzenia i ponownego szeregowania (ta zmienna jest używana w funkcji 
       swap_tick), która co pewien czas budzi kswapd */
    kswapd_awake = 0;
    
    current->signal = 0;
    
    
    /* wykonaj dolne połówki obsługi przerwań zwiazane z dyskiem, tzn. wykonaj
       zawieszone drugie części nie dokończonych funkcji obsługi przerwań 
       działających na dysku (po to, aby wymiana była w miarę aktualna)
    */
    run_task_queue(&tq_disk);
    
    /* czekamy na budzenie od jądra lub od zegara */
    interruptible_sleep_on(&kswapd_wait); 
    
    /* odznaczamy demon jako aktywny */
    kswapd_awake = 1;
    
    /* zwiekszamy zmienną statystyczna mowiącą o ilości zbudzeń demona */
    swapstats.wakeups++;
    
    /* Protect our reserved pages: */
    /* jeżeli liczba wolnych ramek spadła poniżej min_free pages lub (jeśli 
       min_free_pages >=48) poniżej min_free_pages-12, to wyznaczamy o ile 
       ramek więcej niż normalnie (tj. kswapd_ctl.maxpages) będziemy próbować
       zwolnić */
    
    i = 0;
    j = (min_free_pages >= 48 ? min_free_pages-12 : min_free_pages);
    if (nr_free_pages <= j)
      i = (1+j) - nr_free_pages;
    
    /* Do the background pageout: */
    for (i += kswapd_ctl.maxpages; i > 0; i--)
      /* próbujemy zwolnić ramkę z poziomu jądra (pierwszy parametr 
	 GFP_KERNEL); bez dma (drugi parametr); czekając wtw, gdy liczba 
	 wolnych ramek spadła poniżej min_free_pages (lub min_free_pages-12),
	 gdy min_free_pages >= 48 */
      try_to_free_page(GFP_KERNEL, 0, (nr_free_pages <= j));
  }
}

/* 
 * The swap_tick function gets called on every clock tick.
 */

void swap_tick(void)
/* 
  Funkcja wołana przy każdym tyknięciu zegara demona wymiany - decydyje o
  tym, czy zbudzić demona wymiany, czy też nie. 
*/
{
  int	want_wakeup = 0; /* czy chcemy zbudzić demona */
  
  if ((nr_free_pages + nr_async_pages) < free_pages_low) 
    /* jeżeli liczba wolnych ramek wliczając w to ramki po stronach, które są
       aktualnie asynchronicznie przesyłane na dysk (nie są jeszcze ani wolne,
       ani odznaczone jako wolne, ale zaraz będą wolne i odznaczone jako
       wolne) spada poniżej free_pages_low */
    {
      if (last_wakeup_low)
	/* jeśli ostatnie budzenie było ponieważ nr_free pages <free_pages_low,
	   to czy chcemy budzić demona zależy od tego, czy minął czas wahania 
	   (określany w demonie kswapd) na wymianę */
	want_wakeup = (jiffies >= next_swap_jiffies); 
      else
	last_wakeup_low = want_wakeup = 1;
    }
  else if (((nr_free_pages + nr_async_pages) < free_pages_high) && 
	   (jiffies >= next_swap_jiffies)) 
    {
    /* jeżeli liczba wolnych ramek wlicząjac w to ramki po stronach które są
       aktualnie asynchronicznie przesyłane na dysk (nie są jeszcze ani wolne,
       ani odznaczone jako wolne, ale zaraz będą wolne i odznaczone jako
       wolne) spada poniżej free_pages_high i jednocześnie minął czas wahania
       (określany w demonie kswapd) czy wymiatać strony, to odznaczamy w 
       want_wakeup, że chcemy wymieniać */

      last_wakeup_low = 0;
      want_wakeup = 1;
    }

	if (want_wakeup) 
	  /* jeśli chcemy wymiatać strony */
	  {
		if (!kswapd_awake && kswapd_ctl.maxpages > 0) 
		  /* jeśli nie działa w tej chwili demon wymiany i demon
		   ma uprawnienia do wymiany (dokładniej 
		   kswapd_ctl.maxpages określa nam ile maksymalnie ramek
		   ma prawo demon zwolnić za jednym uruchomieniem, z
		   wyłączeniem sytuacji, gdy ilość wolnych ramek spada poniżej
		   min_free_pages)*/
		  {
		    wake_up(&kswapd_wait); /* budzimy demona */
		    need_resched = 1; /* odznaczamy, że chcemy dokonać
				       ponownego szeregowania*/
		  }
	  }
	timer_active |= (1<<SWAP_TIMER);
}


/* 
 * Initialise the swap timer
 */

void init_swap_timer(void)
/*
  Inicjalizujemy zegar budzący demona wymiany.
*/
{
  	timer_table[SWAP_TIMER].expires = 0;
	timer_table[SWAP_TIMER].fn = swap_tick;
	timer_active |= (1<<SWAP_TIMER);
}
Andrzej Kuczyński