本章内容分为三个部分：

第一部分讲述了mmap系统调用的实现过程。将设备内存直接映射到用户进程的地址空间，尽管不是所有设备都需要，但是能显著的提高设备性能。
如何跨越边界直接访问用户空间的内存页，一些相关的驱动程序需要这种能力。在很多情况下，内核执行了该种映射，而无需驱动程序的参与。
直接内存访问（DMA）I/O操作，它使得外设具有直接访问系统内存的能力。

一、Linux的内存管理

关注Linux内存管理实现的主要特性，而非讲述操作系统中内存管理的理论。

1.1 地址类型

Linux是一个虚拟内存系统，意味着用户程序所使用的地址与硬件使用的物理地址是不同的。

虚拟内存是一个简介层，系统中运行的程序可以分配比物理内存更多的内存。甚至单独进程都拥有比系统物理内存更多的虚拟地址空间。

在任何情况下使用何种类型的地址，内核代码并未明确加以区分，因此程序对此要仔细处理。

用户虚拟地址：这是在用户空间程序所能看到的常规地址。用户地址或者32位的，或者是64位的
物理地址：该地址在处理器和系统内存之家使用。
总线地址：该地址在外围总线和内存之间使用。通常他们与处理器使用的物理地址相同，但这么做并不是必须的。一些计算机提供I/O内存管理（MMU），实现总线和主内存之间的重新映射。
但使用DMA时，MMU变成了一个额外的操作。
内核逻辑地址：内核逻辑地址组成了内核的常规地址空间。kmalloc返回的就是内核逻辑地址
内核虚拟地址：内核虚拟地址和内核逻辑地址，都将内核空间的地址映射到物理地址上。内核虚拟地址与物理地址的映射不是一一对应的。

如果有一个逻辑地址，宏__pa()（在<asm/page.h>中定义）返回其对应的物理地址，

使用宏__va()也能将物理地址逆向映射到逻辑地址，但这只对低端内存页有效。

1.2 物理地址和页

物理地址被分散成离散的单元，称之为页。系统对内存的操作都是基于单个页的。

每个页的大小随体系架构的不同而不同，大多数系统使用4095个字节。常量PAGE_SIZE（在<asm/page.h>中定义）给出了在任何指定体系架构下的大小。

1.3 高端与低端内存

大量的32位系统中，系统的寻址空间不能大于4GB。内核在（x86中）将4GB的虚拟地址空间分割成用户空间和内核空间。

典型的分配是1GB内核空间，3GB的用户空间。内核对任何内存的访问，都需要映射至虚拟地址空间内核部分的大小，再减去内核代码自身所占用的空间。

低端内存：在于内核空间上的逻辑地址内存。

高端内存：那些不存在逻辑地址的内存，它们处于内核虚拟地址之上。

1.4 内存映射和页结构

内核使用逻辑地址来引用物理内存中的页。支持高端内存后，在高端内存中无法使用逻辑地址。内核处理内存的函数趋向于使用指向page结构的指针（在<linux/mm.h>中）。

/*

 * Each physical page in the system has a struct page associated with

 * it to keep track of whatever it is we are using the page for at the

 * moment. Note that we have no way to track which tasks are using

 * a page, though if it is a pagecache page, rmap structures can tell us

 * who is mapping it.

 */

struct page {

    unsigned long flags;        /* Atomic flags, some possibly

                     * updated asynchronously */

    atomic_t _count;        /* Usage count, see below. */

    union {

        /*

         * Count of ptes mapped in

         * mms, to show when page is

         * mapped & limit reverse map

         * searches.

         *

         * Used also for tail pages

         * refcounting instead of

         * _count. Tail pages cannot

         * be mapped and keeping the

         * tail page _count zero at

         * all times guarantees

         * get_page_unless_zero() will

         * never succeed on tail

         * pages.

         */

        atomic_t _mapcount;

        struct {        /* SLUB */

            u16 inuse;

            u16 objects;

        };

    };

    union {

        struct {

        unsigned long private;      /* Mapping-private opaque data:

                         * usually used for buffer_heads

                         * if PagePrivate set; used for

                         * swp_entry_t if PageSwapCache;

                         * indicates order in the buddy

                         * system if PG_buddy is set.

                         */

        struct address_space *mapping;  /* If low bit clear, points to

                         * inode address_space, or NULL.

                         * If page mapped as anonymous

                         * memory, low bit is set, and

                         * it points to anon_vma object:

                         * see PAGE_MAPPING_ANON below.

                         */

        };

#if USE_SPLIT_PTLOCKS

        spinlock_t ptl;

#endif

        struct kmem_cache *slab;    /* SLUB: Pointer to slab */

        struct page *first_page;    /* Compound tail pages */

    };

    union {

        pgoff_t index;      /* Our offset within mapping. */

        void *freelist;     /* SLUB: freelist req. slab lock */

    };

    struct list_head lru;       /* Pageout list, eg. active_list

                     * protected by zone->lru_lock !

                     */

    /*

     * On machines where all RAM is mapped into kernel address space,

     * we can simply calculate the virtual address. On machines with

     * highmem some memory is mapped into kernel virtual memory

     * dynamically, so we need a place to store that address.

     * Note that this field could be 16 bits on x86 ... ;)

     *

     * Architectures with slow multiplication can define

     * WANT_PAGE_VIRTUAL in asm/page.h

     */

#if defined(WANT_PAGE_VIRTUAL)

    void *virtual;          /* Kernel virtual address (NULL if

                       not kmapped, ie. highmem) */

#endif /* WANT_PAGE_VIRTUAL */

#ifdef CONFIG_WANT_PAGE_DEBUG_FLAGS

    unsigned long debug_flags;  /* Use atomic bitops on this */

#endif

#ifdef CONFIG_KMEMCHECK

    /*

     * kmemcheck wants to track the status of each byte in a page; this

     * is a pointer to such a status block. NULL if not tracked.

     */

    void *shadow;

#endif

};

struct page

atomic_t count;　　　　对该页的访问计数，当计数值为0时，该页将返回给空闲链表

void *virtual;　　　　　　如果页面被映射，指向内核虚拟地址。未被映射则是NULL

unsigned long flags;　　描述页状态的一系列标志。PG_locked表示内存中的页已经被锁住，而PG_reserved表示禁止内存管理系统访问该页

有一些函数和宏用来在page结构指针与虚拟地址之间进行转换。

struct page *virt_to_page(void *kaddr);

在<asm/page.h>中定义，负责将内核逻辑地址转换为相应的page结构体指针。

犹豫需要一个逻辑地址，因此不能操作vmalloc生成的地址以及高端内存。

struct page *pfn_to_page(int pfn);

针对给定的页帧号，返回page结构指针。使用pfn_valid确认页帧号的合理性

void *page_address(struct page *page);

如果地址存在的话，返回页的内核虚拟地址。对于高端内存来说，只有当内存页被映射后该地址才存在。
该函数定义在<linux/mm.h>中。大多数情况下，使用kmap而不是page_address

kmap相关的函数：

#include <linux/highmem.h>

void *kmap(struct page *page);

void kunmap(struct page *page);

kmap为系统中的页返回内核虚拟地址。对于低端内存页来说，它只返回页的逻辑地址；

对于高端内存，kmap在抓弄的内核地址空间创建特殊的映射。

kmap的映射数量是有限的，不能映射过长的时间。

kmap_atomic相关函数：

#include <linux/highmem.h>

#include <asm/kmap_types.h>

void *kmap_atomic(struct page *page, enum km_type type);

void kunmap_atomic(void *addr, enum km_type type);

kmap_atomic是kmap的高性能版本，以原子的处理

type参数：对驱动程序有意义的只有KM_USER0和KM_USER1。（KM_IRQ0和KM_IRQ1中断）

1.5 页表

处理器必须使用某种机制，将虚拟地址转换为相应的物理地址，这种机制被称为页表。

1.6 虚拟内存区

用于管理进程地址空间中不同区域的内核数据结构。

进程内存映射（至少）包含下面这些区域：

程序的可执行代码（通常称为text）区域
多个数据区，其中包含初始化数据、非初始化数据（BSS）以及程序堆栈。
与每个活动的内存映射对应的区域

查看/proc/<pid>/maps （其中pid要替换为具体的进程ID）文件就能了解进程的内存区域

/proc/self 是一个特殊的文件，始终指向当前进程。

cat /proc/<pid>/maps的结果与vm_area_struct结构中的一个成员相对应。

start

end        该内存区域的起始处和结束处的虚拟地址

perm        内存区域的读、写和执行权限的位掩码。

offset        表示内存区域在映射文件中的起始位置。

major

minor        拥有映射文件的设备的主设备号和次设备号

inode        被映射文件的索引节点号

image        被映射额文件（通常是一个可执行映象）的名称

1.7 vm_area_struct结构

vma的主要成员如下所示，在头文件<linux/mm.h>中定义：

/*

 * This struct defines a memory VMM memory area. There is one of these

 * per VM-area/task.  A VM area is any part of the process virtual memory

 * space that has a special rule for the page-fault handlers (ie a shared

 * library, the executable area etc).

 */

struct vm_area_struct {

    struct mm_struct * vm_mm;   /* The address space we belong to. */

    unsigned long vm_start;     /* Our start address within vm_mm. */

    unsigned long vm_end;       /* The first byte after our end address

                       within vm_mm. */

    /* linked list of VM areas per task, sorted by address */

    struct vm_area_struct *vm_next, *vm_prev;

    pgprot_t vm_page_prot;      /* Access permissions of this VMA. */

    unsigned long vm_flags;     /* Flags, see mm.h. */

    struct rb_node vm_rb;

    /*

     * For areas with an address space and backing store,

     * linkage into the address_space->i_mmap prio tree, or

     * linkage to the list of like vmas hanging off its node, or

     * linkage of vma in the address_space->i_mmap_nonlinear list.

     */

    union {

        struct {

            struct list_head list;

            void *parent;   /* aligns with prio_tree_node parent */

            struct vm_area_struct *head;

        } vm_set;

        struct raw_prio_tree_node prio_tree_node;

    } shared;

    /*

     * A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma

     * list, after a COW of one of the file pages.  A MAP_SHARED vma

     * can only be in the i_mmap tree.  An anonymous MAP_PRIVATE, stack

     * or brk vma (with NULL file) can only be in an anon_vma list.

     */

    struct list_head anon_vma_chain; /* Serialized by mmap_sem &

                      * page_table_lock */

    struct anon_vma *anon_vma;  /* Serialized by page_table_lock */

    /* Function pointers to deal with this struct. */

    const struct vm_operations_struct *vm_ops;

    /* Information about our backing store: */

    unsigned long vm_pgoff;     /* Offset (within vm_file) in PAGE_SIZE

                       units, *not* PAGE_CACHE_SIZE */

    struct file * vm_file;      /* File we map to (can be NULL). */

    void * vm_private_data;     /* was vm_pte (shared mem) */

#ifndef CONFIG_MMU

    struct vm_region *vm_region;    /* NOMMU mapping region */

#endif

#ifdef CONFIG_NUMA

    struct mempolicy *vm_policy;    /* NUMA policy for the VMA */

#endif

};

vm_area_struct

unsigned long vm_start;

unsigned long vm_end;　　　　　　该VMA所覆盖的虚拟地址范围。这是/proc/*/maps中最前面的两个成员

struct file *vm_file;　　　　　　　　指向与该区域（如果存在的话）相关联的file结构指针

unsigned long vm_pgoff;　　　　　　以页为单位，文件中该区域的偏移量。当映射一个文件或者设备时，它是该区域中被映射的第一页在文件中的位置

unsigned long vm_flags;　　　　　　描述该区域的一套标志。驱动程序相关的是VM_IO和VM_RESERVED

struct vm_operations_struct *vm_ops;　　内核能调用的一套函数，用来对该内存区进行操作。

void *vm_private_data;　　　　　　　驱动程序用来保存自身信息的成员

/*

 * These are the virtual MM functions - opening of an area, closing and

 * unmapping it (needed to keep files on disk up-to-date etc), pointer

 * to the functions called when a no-page or a wp-page exception occurs.

 */

struct vm_operations_struct {

    void (*open)(struct vm_area_struct * area);

    void (*close)(struct vm_area_struct * area);

    int (*fault)(struct vm_area_struct *vma, struct vm_fault *vmf);

    /* notification that a previously read-only page is about to become

     * writable, if an error is returned it will cause a SIGBUS */

    int (*page_mkwrite)(struct vm_area_struct *vma, struct vm_fault *vmf);

    /* called by access_process_vm when get_user_pages() fails, typically

     * for use by special VMAs that can switch between memory and hardware

     */

    int (*access)(struct vm_area_struct *vma, unsigned long addr,

              void *buf, int len, int write);

#ifdef CONFIG_NUMA

    /*

     * set_policy() op must add a reference to any non-NULL @new mempolicy

     * to hold the policy upon return.  Caller should pass NULL @new to

     * remove a policy and fall back to surrounding context--i.e. do not

     * install a MPOL_DEFAULT policy, nor the task or system default

     * mempolicy.

     */

    int (*set_policy)(struct vm_area_struct *vma, struct mempolicy *new);

    /*

     * get_policy() op must add reference [mpol_get()] to any policy at

     * (vma,addr) marked as MPOL_SHARED.  The shared policy infrastructure

     * in mm/mempolicy.c will do this automatically.

     * get_policy() must NOT add a ref if the policy at (vma,addr) is not

     * marked as MPOL_SHARED. vma policies are protected by the mmap_sem.

     * If no [shared/vma] mempolicy exists at the addr, get_policy() op

     * must return NULL--i.e., do not "fallback" to task or system default

     * policy.

     */

    struct mempolicy *(*get_policy)(struct vm_area_struct *vma,

                    unsigned long addr);

    int (*migrate)(struct vm_area_struct *vma, const nodemask_t *from,

        const nodemask_t *to, unsigned long flags);

#endif

};

vm_operations_struct

1.8 内存映射处理

每个进程都拥有一个struct mm_struct 结构（在<linux/sched.h>中定义），其中包括虚拟内存区域链表、页表以及其他大量内存管理信息。

还包括信号灯（mmap_sem）和一个自旋锁（page_table_lock）。多数驱动要访问时，使用current->mm

二、mmap设备操作

mmap方法是file_operations结构的一部分，并且执行mmap系统调用时将调用该方法。

这个方法和系统调用的mmap有很大的不同，原型如下：

mmap(caddr_t addr, size_t len, int port, int flags, int fd, off_t offset);

int (*mmap)(struct file *filp, struct vm_area_struct *vma);

vma包含了用于访问设备的虚拟地址的信息

有两种建立页表的方法：

使用remap_pfn_range函数一次全部建立
通过nopage VMA方法每次建立一个页表

2.1 使用remap_pfn_range

int remap_pfn_range(struct vm_area_struct *vma,

    unsigned long virt_addr, unsigned long pfn,

    unsigned long size, pgprot_t port);

int io_remap_page_range(struct vm_area_struct *vma,

    unsigned long virt_addr, unsigned long phys_addr,

    unsigned long size, pgprot_t prot);

vma：虚拟内存区域，在一定范围内的页将被映射到该区域内

virt_addr：重新映射时的起始用户虚拟地址。

pfn：与物理内存对应的页帧号，虚拟内存将要被映射到该物理内存上。

size：以字节为单位，被重新映射的区域大小

prot：新VMA要求的保护属性

2.2 一个简单的实现

如果驱动程序要将设备内存线性地映射到用户地址空间中，程序员基本上就只需要调用remap_pfn_range函数。例子：

static int simple_remap_mmap(struct file *filp, struct vm_area_struct *vma)

{

    if(remap_pfn_range(vma, vma->vm_start, vm->vm_pgoff,

        vma->vm_end - vma->vm_start,

        vma->vm_page_prot))

        return -EAGAIN;

    vma->vm_ops = &simple_remap_vm_ops;

    simple_vma_open(vma);

    return ;

}

2.3 为VMA添加操作

vma_area_struct 包含了一系列针对VMA的操作，当fork进程或者创建一个新的对VMA引用时，随时都会调用open函数。

void simple_vma_open(struct vm_area_struct *vma)

{

    printk(KERN_NOTICE "Simple VMA open, virt %lx, phys %lx\n",

        vma->vm_start, vma->vm_pgoff << PAGE_SHIFT);

}

void simple_vma_close(struct vm_area_struct *vma)

{

    printk(KERN_NOTICE "Simple VMA close.\n");

}

static struct vm_operations_struct simple_remap_vm_ops = {

    .open = simple_vma_open,

    .close = simple_vma_close,

};

使用nopage映射内存

尽管remap_page_range在许多情况下工作良好，但是并不能适应大多数的情况。

如果VMA映射尺寸变小或变大时，使用nopage更适合，不需要做额外的操作。

struct page *(*nopage)(struct vm_area_struct *vma,

    unsigned long address, int *type);

当用户要访问VMA中的页，而该页又不再内存中时，将调用相关的nopage函数

address：包含了引起错误的虚拟地址，被向下圆整到页的开始位置。

nopage：函数必须定位并返回指向用户所需要页的page结构指针。

get_page(struct page *pageptr);

该函数调用get_page宏，用来增加返回的内存页的使用计数

如果使用了nopage，调用mmap的时候，通常只需做一点点工作。

static int simple_nopage_mmap(struct file *filp, struct vm_area_struct *vma)

{

    unsigned long offset = vma->vm_pgoff << PAGE_SHIFT;

    if(offset >= __pa(high_memory) || (filp->f_flags & O_SYNC))

        vma->vm_flags |= VM_IO;

    vma->vm_flags |= VM_RESERVED;

    vma->vm_ops = &simple_nopage_vm_ops;

    simple_vma_open(vma);

    return ;

}

mmap函数将默认的vm_ops指针替换成自己的操作。然后nopage函数小心的每次重新映射一页，并且返回它的page结构指针。

重映射的步骤非常简单：需要的地址定位并返回page结构体的指针，例子如下：

struct page *simple_vma_nopage(struct vm_area_struct *vma,

    unsigned long address, int *type)

{

    struct page *pageptr;

    unsigned long offset = vma->vm_pgoff << PAGE_SHIFT;

    unsigned long physaddr = address - vma->vm_start + offset;

    unsigned long pageframe = physaddr >> PAGE_SHIFT;

    if(!pfn_valid(pageframe))

        return NOPAGE_SIGBUS;

    pageptr = pfn_to_page(pageframe);

    get_page(pageptr);

    if(type)

        *type = VM_FAULT_MINOR;

    return pageptr;

}

只是简单的映射了主内存，并增加了计数引用。需要的步骤是：

计算物理地址，然后通过右移PAGE_SHIFT位，将它转换成页帧号。

pfn_valid确保地址的合理性，超过范围返回NOPAGE_SIGBUS

重映射特定的I/O区域

所有例子都是对/dev/mem的再次实现，一个典型的驱动程序只映射与其外围设备相关的一小段地址，而不是映射全部地址。

下面代码揭示了驱动程序如何对起始于物理地址simple_region_start、大小为simple_region_size字节的区域进行映射的工作过程。

unsigned long off = vma->vm_pgoff << PAGE_SHIFT;

unsigned long physical = simple_region_start + off;

unsigned long vsize = vma->vm_end - vma->vm_start;

unsigned long psize = simpel_region_size - off;

if(vsize > psize)

    return -EINVAL;    /* 跨度过大 */

remap_pfn_range(vma, vma->vm_start, physical, visze, vma->vm_page_prot);

为防止扩展映射最简单的办法是实现一个简单的nopage方法，它会产生一个总线信号传递给故障进程。

struct page *simple_nopage(struct vm_area_struct *vma,

    unsigned long address, int *type)

{    return NOPAGE_SIGBUS; /* 发送SIGBUS */ }

重新映射RAM

remap_pfn_range函数的一个限制是：它只能访问保留页和超出物理内存的物理地址。

在Linux中，在内存映射时，物理地址页被标记为“保留的，表示内存管理对其不起作用”。

使用nopage方法重映射RAM

struct page *scullp_vma_nopage(struct vm_area_struct *vma, unsigned long address, int *type)

{

    unsigned long offset;

    struct scull_dev *ptr, *dev = vma->vm_private_data;

    struct page *page = NOPAGE_SIGBUS;

    void *pageptr = NULL;       /* 默认值是没有 */

    down(&dev->sem);

    offset = (address - vma->vm_start) + (vma->vm_pgoff << PAGE_SHIFT);

    if(offset >= dev->size) goto out;       /* 超出范围 */

    offset >= PAGE_SHIFT;               /* offset是页号 */

    for(ptr=dev;ptr && offset >= dev->qset;) {

        ptr = ptr->next;

        offset -= dev->qset;

    }

    if(ptr && ptr->data) pageptr = ptr->data[offset];

    if(!pageptr)    goto out;           /* 空白区或者文件末尾 */

    page = virt_to_page(pageptr);

    /* 获得该值，现在可以增加计数了 */

    get_page(page);

    if(type)

        *type = VM_FAULT_MINOR;

out:

    up(&dev->sem);

    return page;

}

scullp_vma_nopage

重新映射内核虚拟地址

page = vmalloc_to_page(pageptr);

get_page(page);

if(type)

    *type = VM_FAULT_MINOR;

out:

    up(&dev->sem);

    return page;

三、执行直接I/O访问

无论如何，在字符设别中执行直接I/O是不可行的，也是有害的。只有确定执行设置缓冲I/O的开销特别巨大，才使用直接I/O。请注意块设备和网络设备根本不用担心实现直接I/O的问题。

在这两种情况中，内核中高层代码设置和使用了直接I/O，而驱动程序级的代码升值不需要知道已经执行了直接I/O

2.6中实现直接I/O的关键是名为get_user_pages的函数，它定义在<linux/mm.h>中，原型如下：

int get_user_page(struct task_struct *tsk,

    struct mm_struct *mm,

    unsigned long start,

    int len,

    int write,

    int force,

    struct page **pages,

    struct vm_area_struct **vmas);

tsk：指向执行I/O的任务指针，主要目的是告诉内核，当设置缓冲区时，谁负责解决页错误的问题。

mm：知悉将描述被映射地址空间的内存你管理结构的指针。

start

len：start是用户空间缓冲区的地址，len是页内的缓冲区长度

write

force：如果write非零，对映射的页有写权限（意味着用户空间执行了读操作）

pages

vmas：输出参数。如果调用成功，pages中包含一个描述用户空间缓冲区page结构的指针列表，vmas包含了相应VMA的指针。

get_user_page

get_user_pages函数是一个底层内存管理函数，使用了比较复杂的接口。

它还需要在调用前，将mmap为获得地址空间的读取者/写入者信号量设置为读模式。因此有：

down_read(&cuurent->mm->mmap_sem);

result = get_user_pages(current, current->mm, ...);

up_read(&current->mm->mmap_sem);

result返回一个实际被调用的页数，它可能比请求的数量少，但大于0

1、调用成功后，就有了一个用户空间缓冲区的页数组，它将被锁在内存中。

2、为了能直接操作缓冲区，内核空间的代码必须用kmap或者kmap_atomic函数将每个page结构指针转换成内核虚拟地址。

3、使用直接I/O通常使用DMA操作，因此驱动程序要从page结构指针数组中创建一个分散/聚合链表。

4、一旦直接操作I/O完成，必须是释放用户内存页。如果改变了页的内容，必须通知内核，确保内核认为它是“干净”的

void SetPageDirty(struct page *page);

宏在头文件<linux/page-flags.h>中。使用例子如下：

if(!PageReserved(page))

    SetPageDirty(page);

不管页是否被改变，他们都必须从也缓存中释放，否则他们会永远存在那里，函数：

void page_cache_release(struct page *page);

异步I/O

2.6的新特性是异步I/O，异步I/O允许用户空间初始化操作，但不必等待它们完成，这样执行异步I/O时，应用程序可以进行其他的操作。

字符设备驱动吗程序需要清楚地表示需要异步I/O的支持。如果有恰当的理由需要在同一时刻执行多余一个的I/O操作，则字符设备将会从异步I/O中受益。

支持异步I/O的驱动程序应该包括<linux/aio.h>，有三个用于实现异步I/O的file_operations方法：

ssize_t (*aio_read)(struct kiocb *iocb, char *buffer,

    size_t count, loff_t offset);

ssize_t (*aio_write)(struct kiocb *iocb, const char *buffer,

    size_t count, loff_t offset);

int (*aio_fsync)(struct kiocb *iocb, int datasync);

aio_fsync操作只对文件系统有意义

aio_write与常用的read和write函数非常相似，也有一些不同。

其中一个不同是：offset参数是一个值，异步操作从不改变文件的位置，因此没有必要向它传递指针。

异步I/O

异步I/O的例子：

static ssize_t scullp_aio_read(struct kiocb *iocb, char *buf, size_t count,

    loff_t pos)

{

    return scullp_defer_op(, iocb, buf, count, pos);

}

static ssize_t scullp_aio_write(struct kiocb *iocb, const char *buf, size_t count, loff_t pos)

{

    return scullp_defer_op(, iocb, (char *)buf, count, pos);

}

struct async_work{

    struct kiocb *iocb;

    int result;

    struct work_struct work;

}

static int scullp_defer_op(int write, struct kiocb *iocb, char *buf,

    size_t count, loff_t pos)

{

    struct async_work *stuff;

    int result;

    /* 虽然可以访问缓冲区，但现在要进行拷贝操作 */

    if(write)

        result = scullp_write(iocb->ki_filp, buf, count, &pos);

    else

        result = scullp_read(iocb->ki_filp, buf, count, &pos);

    /* 如果这是一个同步的IOCB，则现在反悔状态值 */

    if(is_sync_kiocb(iocb))

        return result;

    /* 否则把完成操作向后推迟几毫秒 */

    stuff = kmalloc(sizeof(*stuff), GFP_KERNEL);

    if(stuff == NULL)

        return result;

    /* 没有可用内存了，使之完成 */

    stuff->iocb = iocb;

    stuff->result = result;

    INIT_WORK(&stuff->work, scullp_do_deferred_op, stuff);

    schedule_delayed_work(&stuff->work, HZ/);

    return -EIOCBQUEUED;

}

static void scullp_do_defered_op(void *p)

{

    struct async_work *stuff = (struct async_work *)p;

    aio_complete(stuff->iocb, stuff->result, );

    kfree(stuff);

}

异步I/O例子

四、直接访问内存

直接访问内存，或者DMA。是内存中的高级部分。

DMA数据传输概览

第一种情况中，所需要的步骤概括如下：

1.当进程调用read，驱动程序函数分配一个DMA缓冲区，并让硬件将数据传输到这个缓冲区中，进程处于睡眠状态

2.硬件将数据写入到DMA缓冲区中，当写入完毕，产生一个中断

3.中断处理程序获得输入的数据，应答中断，并且唤醒进程，该进程现在即可读取数据。

分配DMA缓冲区

使用DMA缓冲区的主要问题是：当大于一页时，他们必须占据连续的物理页，这是因为设备使用ISA或者PCI系统总线传输数据，而这两种方式使用的都是物理地址。

DIY分配

get_free_pages函数可以分配多达几M字节的内存，但是对较大数量的请求，甚至是远少于129KB的请求也通常会失败。

在引导时，我们可以通过内核传递"mem=参数"的办法保留顶部的RAM。比如系统有256MB内存，参数"mem=255M"将使内核不能使用顶部的1M字节。

dmabuf = ioremap(0xFF00000 /* 255M */, 0x100000 /* 1M */);

总线地址

使用DMA的设备驱动后曾虚将于连接到总线接口上的硬件通信，硬件使用的是物理地址，而程序代码使用的是虚拟地址。

不推荐使用这些函数，在<ams/io.h>中定义的函数：

unsigned long virt_to_bus(volatile void *address);

void *bus_to_virt(unsigned long address);

通用DMA层

DMA操作最终会分配缓冲区，并将总线地址传递给设备。一个可移植的驱动程序要求对所有体系架构都能安全而正确的执行DMA操作，编写这样一个驱动程序的难度超出了一般人的想象。

幸运的是内核提供了一个与总线-----体系架构无关的DMA层，他会隐藏大多数问题。强烈建议使用该层编写。

涉及到的device结构指针，需要包含文件<linux/dma-mapping.h>

处理复杂的硬件

在执行DMA之前，必须确定给定设备是否有能力执行该操作。

默认情况下，内核假设设备都能在32为地址上执行DMA。如果不是这样应该调用下面的函数通知内核：

int dma_set_mask(struct device *dev, u64 mask);

因此一个受限的24位DMA操作应该为：

if(dma_set_mask(dev, 0xffffff))

    card->use_dma = ;

else {

    card->use_dma = ;

    printk(KERN_WARN, "mydev: DMA not supported\n");

}

如何设备支持常见的23位DMA操作，则没有必要调用dma_set_mask。

DMA映射

一个DMA映射是要分配的DMA缓冲区与为该缓冲区生成的、设备可访问地址的组合。

DMA映射必须解决缓存一致性的问题。如果设备改变了主内存找那个的区域，则任何覆盖该区域的处理器缓存都将无效。

否则处理器将使用不正确的主内存映射，从而产生不正确的数据。

DMA映射建立一个新的结构类型------dma_addr_t表示总线地址。

dma_addr_t类型的变量对驱动程序是不透明的，唯一允许的操作是将他们传递给DMA支持例程以及设备本身。

PCI代码区分两种类型的DMA映射：

1.一致性DMA映射

2.流式DM映射

建立一致性DMA映射

驱动程序可调用pci_alloc_consistent函数建立一致性映射：

void *dma_alloc_coherent(struct device *dev, size_t size, dma_addr_t *dma_handle, int flag);

前两个参数是device结构和所需缓冲区的大小

函数在两处返回DMA映射的结果。返回值是缓冲区的内核虚拟地址。

而与其相关的总线地址，返回时保存在dma_handle中

flag参数通常是描述如何分配内存的GFP_值，GFP_KERNEL或者GFP_ATOMIC

当不再需要缓冲区时，调用dma_free_coherent向系统返回缓冲区：

void dma_free_coherent(struct device *dev, size_t size, void *vaddr, dma_addr_t dma_handle);

和通用DMA函数一样，需要提供缓冲区大小、CPU地址、总线地址等参数

DMA池

DMA池是一个生成小型、一致性DMA映射的机制。调用dma_alloc_coherent函数获得最小单位为页的映射。

如果需要再小，就需要DMA池了。在头文件<linux/dmapool.h>中定义了DMA池的函数：

struct dma_pool *dma_pool_create(const char *name, struct device *dev, size_t size, size_t align, size_t allocation);

name：DMA的名字

dev：device结构

size：是从该池中分配的缓冲区的大小

align：是该池分配操作所必须遵守的硬件对齐原则

allocation：如果不为零，表示内存边界不能超越allocation

用完DMA池后，需要调用函数释放：

void dma_pool_destroy(struct dma_pool *pool);

销毁之前必须分返回所有分配的内存

void *dma_pool_alloc(struct dma_pool *pool, int mem_flags, dma_addr_t *handle);

mem_flags：通常设置为GFP_分配标志

返回的DMA地址是内核虚拟地址，并作为总线地址保存在handle中

使用下面函数返回不需要的缓冲区

void dma_pool_free(struct dma_pool *pool, void *vaddr, dma_addr_t addr);

建立流式DMA映射

只有一个缓冲区要被传输的时候，使用dma_map_single函数映射它：

dma_addr_t dma_map_single(struct device *dev, void *buffer, size_t size, enum dma_data_direction direction);

返回值是总线地址，可以把它传递给设备，如果执行错误，返回NULL

当传输完毕后，使用dma_unmap_signle(strcut device *dev, dma_addr_t dma_addr, size_t size, enum dma_data_direction direction);

size和direction采纳数必须与映射缓冲区的参数像匹配

驱动程序需要不经过撤销映射就访问流式DMA缓冲区的内容，内核提供如下调用：

void dma_sync_signle_for_cpu(struct device *dev, dma_handle_t bus_addr,

    size_t size, enum dma_data_direction direction);

在设备访问缓冲区前，应该调用下面的函数将所有权交还给设备

void dma_sync_single_for_device(struct device *dev, dma_handle_t bus_addr,

    size_t size, enum dma_data_direction direction);

处理器在调用该函数后，不能再访问DMA缓冲区了

单页流式映射

dma_addr_t dma_map_page(struct device *dev, struct page *page,

    unsigned long offset, size_t size, enum dma_data_direction direction);

void dma_unmap_page(strcut device *dev, dma_addr_t dma_address,

    size_t size, enum dma_data_direction direction);

分散/聚集映射

映射分散表的第一步是建立并填充一个描述被传送缓冲区的scatterlist结构的数组。该结构在头文件<linux/scatterlist.h>中描述

struct page *page;　　与在scatter/gather操作中用到缓冲区响应的page结构指针

unsigned int length;

unsigned int offset;　　在页内缓冲区的长度和偏移量

PCI双重地址周期映射

一个简单的PCI DMA例子

ISA设备的DMA

注册DMA

与DMA控制器通信

LDD3 第15章内存映射和DMA

一、Linux的内存管理

1.1 地址类型

1.2 物理地址和页

1.3 高端与低端内存

1.4 内存映射和页结构

1.5 页表

1.6 虚拟内存区

1.7 vm_area_struct结构

1.8 内存映射处理

二、mmap设备操作

2.1 使用remap_pfn_range

2.2 一个简单的实现

2.3 为VMA添加操作

使用nopage映射内存

重映射特定的I/O区域

重新映射RAM

三、执行直接I/O访问

异步I/O

四、直接访问内存

DMA数据传输概览

分配DMA缓冲区

DIY分配

总线地址

通用DMA层

DMA映射

建立一致性DMA映射

DMA池

建立流式DMA映射

单页流式映射

LDD3 第15章内存映射和DMA的相关教程结束。

相关推荐

形象谈JVM-第四章-JVM内存结构

有关于malloc申请内存和free内存释放

Linux C申请内存三种基本方式

C++动态申请内存 new T()与new T[]的区别

C语言和C++中动态申请内存

通信方案软件设计（环形动态申请内存，支持USART+IIC+SPI+CAN协议

C++二维数组动态申请内存

C++三种内存分配方式

LDD3 第15章 内存映射和DMA

一、Linux的内存管理

1.1 地址类型

1.2 物理地址和页

1.3 高端与低端内存

1.4 内存映射和页结构

1.5 页表

1.6 虚拟内存区

1.7 vm_area_struct结构

1.8 内存映射处理

二、mmap设备操作

2.1 使用remap_pfn_range

2.2 一个简单的实现

2.3 为VMA添加操作

使用nopage映射内存

重映射特定的I/O区域

重新映射RAM

三、执行直接I/O访问

异步I/O

四、直接访问内存

DMA数据传输概览

分配DMA缓冲区

DIY分配

总线地址

通用DMA层

DMA映射

建立一致性DMA映射

DMA池

建立流式DMA映射

单页流式映射

LDD3 第15章 内存映射和DMA的相关教程结束。

相关推荐

形象谈JVM-第四章-JVM内存结构

有关于malloc申请内存和free内存释放

Linux C申请内存三种基本方式

C++动态申请内存 new T()与new T[]的区别

C语言和C++中动态申请内存

通信方案软件设计（环形动态申请内存，支持USART+IIC+SPI+CAN协议

C++二维数组动态申请内存

C++三种内存分配方式

LDD3 第15章内存映射和DMA

LDD3 第15章内存映射和DMA的相关教程结束。