Linux下用户态和内核态内存共享的实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 引言
Linux 是一类Unix计算机操作系统的统称。Linux 操作系统的内核的名字也是“Linux”。Linux 操作系统也是自由软件和开放源代码发展中最著名的例子。Linux 是一套免费使用和自由传播的类Unix 操作系统。无论是普通用户还是企业用户都可以编写自己的内核代码,再加上对标准内核的裁剪从而制作出适合自己的操作系统。
一个或多个内核模块的实现并不能满足一般 Linux 系统软件的需要,因为内核的局限性太大,如不能在终端上打印,不能做大延时的处理等等。当需要做这些的时候,就需要将在内核态采集到的数据传送到用户态的一个或多个进程中进行处理。这样,内核态与用空间进程通信的方法就显得尤为重要。将列举 Linux 下基于 Netlink 机制的内核态与用户态进程通信的方法以及如何实现用户态和内核态的内存共享。
2 用户态和内核态
用户态与内核态是操作系统的两种运行级别,IntelCPU提供Ring0-Ring33种级别的运行模式。Ring0级别最高Ring3最低。
用户态:当进程在执行用户自己的代码时,则称其处于用户运行态即用户态。此时处理器在特权级最低的(3 级)用户代码中运行。
内核态:当一个任务(进程)执行系统调用而陷入内核代码中执行时,就称进程处于内核运行态或简称为内核态。此时处理器处于特权级最高的 0 级内核代码中执行。当进程处于内核态时,执行
的内核代码会使用当前进程的内核栈。
在内核态下 CPU 可执行任何指令,在用户态下 CPU 只能执行非特权指令。当 CPU 处于内核态,可以随意进入用户态;而当 CPU 处于用户态时,用户从用户态切换到内核态只有在系统调用和中断两种情况下发生,一般程序一开始都是运行于用户态,当程序需要使用系统资源时,就必须通过调用软中断进入内核态。
3 Linux 的用户态和内核态
Linux 使用了 Ring3 级别运行用户态,Ring0 作为内核态。Ring3状态不能访问 Ring0的地址空间包括代码和数据
Linux 进程的 4GB 地址空间,3GB-4GB 部分是共享的,是内核态的地址空间,这里存放着整个内核的代码和所有的内核模块,以及内核所维护的数据。
用户运行一个程序,该程序所创建的进程开始是运行在用户态的,如果要执行文件操作,网络数据发送等操作,必须通过 write,send 等系统调用,这些系统调用会利用内核中的代码来完操作,这时,必须切换到Ring0,然后进入3GB-4GB 中的内核地址空间去执行这些代码,完成操作,完成后,切换回 Ring3,回到用户态。这样,用户态的程序就不
能随意操作内核地址空间,具有一定的安全保护作用。
4实现内核态与用户态的通信
内核与用户空间共享内存的关键是,用户空间必须知道共享内存的起始地址,这就要求内核空间应该有一种通信机制来通知用户空
间。理论上任何内核空间与用户空间的通信方法都可以利用。接下来主要介绍基于 Netlink 机制的实现。
Netlink 在 linux 的内核与用户空间通信中用得很多,其最大优势是接口与网络编程中的 socket 相似,且内核要主动发信息给用户空间很方便。既然涉及到内核与用户空间两个空间,就应该在两个空间各有一套接口。用户空间的接口与一般的 socket 接口相似,标准的 socket API 的函数,socket () ,bind () , sendmsg () , recvmsg () 和 close () 很容易地应用netlink socket;内核空间则稍为复杂:首先也是建立描述符,建立描述符时会注册一个回调函数,然后当用户空间有消息发过来时,函数将被调用;当内核要主动发消息给用户进程时,直接调用一个类 send 函数即可。
Netlink 套接字的最大特点是对中断过程的支持,它在内核空间接收用户空间数据时不再需要用户自行启动一个内核程,而是通过另一个软中断调用用户事先指定的接收函数。如图 1 所示,这里使用了软中断而不是内核线程来接收数据,这样就可以保证数据接收的实时性。
图 1 Netlink 通过软中断调用用户进程
当 Netlink 套接字用于内核空间与用户空间的通信时,在用户空间的创建方法和一般套接字使用类似,但内核空间的创建方法则不同,图 2 是 Netlink 套接字实现此类通信时创建的过程。
图 2 用 Netlink 套接字实现内核态与用户态的通信
5 基于 Netlink 的共享内存
5.1 工作流程
内核部分首先用get_order获取页数,接着调用get_free_page 分配连续的物理内存页,这时返回的是虚拟地址,然后调用SetPageReserved,相当于告诉系统,这个页面已经占了。对于每一个申请到的页面,应该都要这样做,同样地,释放内存时,需要对每一页调用 ClearPageReserved。如果用户空间通过 Netlink 要求获取共享内存的起始物理地址,
将 _get_free_pages 返回的地址 _pa 下发给用户空间。
用户空间调用 open /dev/shm 进行物理内存设备的读写,发送 Netlink 消息给内核,得到共享内存的起始物理地址,最后调用 mmap 上步得到的物理地址。用户空间的进程得到这个地址
后根据这个地址去读取其中的内容。
5.2 设计实现
为了创建一个 Netlink socket,用户需要使用如下参数调用socket ():socket (AF_NETLINK, SOCK_RAW, netlink_type) socket 函数返回的套接字可以交给 bing 等函数调用:
static int skfd;
skfd = socket (PF_NETLINK, SOCK_RAW, NL_IMP2) ;
if (skfd < 0)
{
printf (" can not create a netlink socket\n") ;
exit (0) ;
}
用户空间可以调用 send 函数簇向内核发送消息,如sendto、sendmsg 等。也可以使用 struct sockaddr_nl 来描述一个对端地址,以待 send 函数来调用,与本地地址稍不同的是,因为对端为内核,所以 nl_pid 成员需要设置为 0:
struct sockaddr_nl kpeer;
memset (&kpeer, 0, sizeof (kpeer)) ;
kpeer.nl_family = AF_NETLINK;
kpeer.nl_pid = 0;
kpeer.nl_groups = 0;
当发送完请求后,就可以调用 recv 函数簇从内核接收数据了,