机窝安全--探索SMBGhost RCE PoC

0x00 前言

3月11日，微软公布了SMBGhost漏洞的相关信息，这是内核驱动srv2.sys中SMBv3.1.1消息解压缩过程中的一个整数溢出漏洞。由于SMBGhost漏洞可能导致RCE以及“蠕虫传播”效果，因此受到人们广泛关注。

虽然现在网上有许多公开资料以及实现LPE（本地权限提升）的PoC，然而目前并没有实现RCE的PoC出现。这可能是因为远程内核利用与本地利用区别较大，攻击者无法利用某些有用的操作系统函数，如创建用户态进程、引用PEB、发起系统调用等。此外，Windows 10中引入了一些缓解机制，也导致RCE的实现更加具有挑战性。

在本文中，我将介绍如何实现RCE、突破限制条件及缓解机制，其中比较有趣的一点是我们成功获取了随机化的地址信息（也就是实现了“读原语”）。我本人之前还未使用或看到过这种技术，因此认为值得与大家分享。

0x01 漏洞根源及实现任意写入

许多公开资料已经提到过，SMBGhost是srv2!Srv2DecompressData中存在的一个整数溢出漏洞，该函数用来解压缩请求数据包。在研究如何利用该漏洞之前，我们需要先分析漏洞根源，思考如何滥用该缺陷。

简化版的srv2!Srv2DecompressData代码如下：

signed __int64 __fastcall Srv2DecompressData(SRV2_WORKITEM *workitem) { // declarations omitted ...
  request = workitem->psbhRequest; if ( request->dwMsgSize < 0x10 ) return 0xC000090Bi64;
  compressHeader = *(CompressionTransformHeader *)request->pNetRawBuffer;
  ... // (A) an integer overflow occurs here newHeader = SrvNetAllocateBuffer((unsigned int)(compressHeader.originalCompressedSegSize + compressHeader.offsetOrLength), 0i64); if ( !newHeader ) return 0xC000009Ai64; // (B) the first subsequent buffer overflow occurs in SmbCompressionDecompress if ( SmbCompressionDecompress(
        compression_type,
        &workitem->psbhRequest->pNetRawBuffer[compressHeader.offsetOrLength + 16],
        workitem->psbhRequest->dwMsgSize - compressHeader.offsetOrLength - 16,
        &newHeader->pNetRawBuffer[compressHeader.offsetOrLength],
        compressHeader.OriginalCompressedSegSize,
        &finalDecompressedSize) < 0 || finalDecompressedSize != compressHeader.originalCompressedSegSize) )
  {
    SrvNetFreeBuffer(newHeader); return 0xC000090Bi64;
  } if ( compressHeader.offsetOrLength )
  { // (C) the second buffer overflow occurs here memmove(newHeader->pNetRawBuffer, workitem->psbhRequest->pNetRawBuffer + 16, compressHeader.offsetOrLength);
  }
  newHeader->dwMsgSize = compressHeader.OffsetOrLength + fianlDecompressedSize;
  Srv2ReplaceReceiveBuffer(workitem, newHeader); return 0i64;
}

如上述代码所示，我们可以在“(A)”处看到最主要的整数溢出问题。由于攻击者可以控制compressHeader.originalCompressedSegSize以及compressHeader.offsetOrLength，因此这个漏洞非常直观。此外，如果我们将compressHeader.originalCompressedSegSize设置为一个非常大的值（比如0xffffffff），那么“(B)”处还存在一个缓冲区溢出问题。为了澄清我们可以使用该缓冲区溢出哪些数据，我们需要找到该缓冲区附近存在的数据。

来看一下srvnet!SrvNetAllocateBufferFromPool的代码（在srvnet!SrvNetAllocateBuffer中被调用）：

struct __declspec(align(8)) SRVNET_BUFFER_HDR { LIST_ENTRY List;
  USHORT Flag;
  BYTE unknown0[4];
  WORD unknown1;
  PBYTE pNetRawBuffer;
  DWORD dwNetRawBufferSize;
  DWORD dwMsgSize;
  DWORD dwNonPagedPoolSize;
  DWORD dwPadding;
  PVOID pNonPagedPoolAddr;
  PMDL pMDL1; // points to mdl1 DWORD dwByteProcessed;
  BYTE unknown2[4];
  _QWORD unknown3;
  PMDL pMDL2; // points to mdl2 PSRVNET_RECV pSrvNetWskStruct;
  DWORD unknown4; char unknown5[12]; char unknown6[32];
  MDL mdl1; // variable size MDL mdl2; // variable size };

PSRVNET_BUFFER_HDR __fastcall SrvNetAllocateBufferFromPool(__int64 unused_size, unsigned __int64 size) { // declarations omitted ...
  sizeOfHeaderAndBuf = (unsigned int)size + 0xE8i64;
  ...
  sizeOfMDL = MmSizeOfMdl(0i64, (unsigned int)size + 0xE8i64);
  sizeOfMDLAligned = sizeOfMDL + 8;
  ...
  sizeOfMDLs = 2 * sizeOfMDLAligned;
  ...
  allocSize = sizeOfMDLs + sizeOfHeaderAndBuf;
  ...
  pNonPagedPoolAddr = (BYTE *)ExAllocatePoolWithTag((POOL_TYPE)512, allocSize, 0x3030534Cu);
  ... // the buffer is located above the header(!) pNetRawBuffer = (signed __int64)(pNonPagedPoolAddr + 0x50);
  srbHeader = (PSRVNET_BUFFER_HDR)((unsigned __int64)&pNonPagedPoolAddr[size + 0x57] & 0xFFFFFFFFFFFFFFF8ui64);
  srbHeader->pNonPagedPoolAddr = pNonPagedPoolAddr;
  srbHeader->pMDL2 = (PMDL)(((unsigned __int64)&srbHeader->mdl1 + sizeOfMDLAligned + 7) & 0xFFFFFFFFFFFFFFF8ui64);
  pMDL1 = (_MDL *)(((unsigned __int64)&srbHeader->mdl1 + 7) & 0xFFFFFFFFFFFFFFF8ui64);
  srbHeader->pNetRawBuffer = pNonPagedPoolAddr + 0x50;
  srbHeader->pMDL1 = pMDL1;
  ... return srbHeader;
}

从代码可知，由于某些原因，该缓冲区直接位于头部上方。我不清楚为什么微软开发者会设计出这种内存布局。正是因为这种布局的存在，我们的漏洞利用过程会更加轻松。因此，我们可以利用“(B)”处的缓冲区溢出来覆盖SRVNET_BUFFER_HDR。

在构建写原语时，这一点非常重要。简而言之，如果我们在“(B)”处覆盖pNetRawBuffer，那么就能在“(C)”处实现任意写入。如果想了解更多细节，我建议大家阅读ZecOps之前公布的研究报告及LPE PoC。

大家可能会认为，如果将compressHeader.originalCompressedSegSize设置为错误的值，那么finalDecompressedSize != compressHeader.originalCompressedSegSize条件将返回true，解压缩操作将失败，代码无法执行到“(C)”处。

然而，如ZecOps报告中所述，由于某些原因，srvnet!SmbCompressionDecompress会将finalDecompressedSize赋值为originalCompressedSegSize，该过程只涉及几处检查。因此，该函数可以被当成写原语来使用，足以实现LPE。

目前我们已经讨论过漏洞根源，以及如何构建写原语，这些信息在许多公开报告中也提到过，现在我们可以更进一步分析。为了获得读原语，我们需要用到Lookaside List以及KUSER_SHARED_DATA。

Lookaside List

Lookaside List是Windows内核中提供的一种机制（或者API），用来缓存经常分配和释放的数据结构。由于每次调用ExAllocatePoolWithTag及ExFreePoolWithTag都会花费大量时间，因此内核驱动经常会有对应其数据结构的一个Lookaside List。

由于这个点不是特别重要，因此这里我不会详细介绍这方面内容。这里我们只需要记住系统引入Lookaside List的目的是提高效率。因此，当数据结构由Lookaside List来维护时，相应的初始化及析构操作通常会被跳过。由于Lookaside List中的元素之前应该已经初始化过，因此在大多数情况下，当从列表中获取元素时，我们不需要再次执行初始化操作。

当然，这种情况同样适用于SRVNET_BUFFER_HDR。srvnet!SrvNetAllocateBuffer的默认行为是为SRVNET_BUFFER_HDR提供Lookaside List（我们可以通过注册表修改该行为），而当头部来自于List时，大部分初始化操作会被跳过。这意味着我们可以破坏头部，将其加入List中，然后在后续请求中将其从List中取回，从而保持头部结构处于损坏状态。在构造读原语时，我们需要依赖这种方式，将任意读操作分成2个请求。

KUSER_SHARED_DATA

在最新版的Windows 10中，几乎所有虚拟地址都被随机化处理过，包括栈、堆（甚至HAL堆）、PTE等。目前据我所知，唯一例外的是KUSER_SHARED_DATA，这是映射到用户态和内核态中的一个结构（及页面），其地址为0x7ffe0000以及0xfffff78000000000，用户模式及内核模式下的标志分别为r--及rw-。

由于我们已经拿到了写原语，我们可以将任意数据写入KUSER_SHARED_DATA的映射地址。这一点对我们而言非常有用，可以用来伪造一些结构。此外，由于该映射同时存在于两个空间中，因此我们还可以将用户态及内核态的shellcode存放在该位置，从而可以方便地构造用户态shellcode。

0x02 地址随机化及实现任意读取

这是利用过程中最有趣的一部分。我曾多次提到过，在攻击最新版的Windows时，我们需要知道确切的地址。由于我们目前无法利用可攻击的头部立即获取一些信息，我们需要找到一种巧妙的方法，完成该任务。

第一次尝试

我们碰到的第一个问题在于，被破坏的头部对应的是请求报文，而非响应报文。这表明实现任意读取并不像覆盖pNetRawBuffer或其他成员那样简单。如果简单执行覆盖操作，服务端将保持沉默，或者最多返回正常的响应包。

幸运的是，srv2.sys提供了一个非常方便的函数：srv2!Srv2SetResponseBufferToReceiveBuffer。

struct __declspec(align(16)) SRV2_WORKITEM { ...
  PSRVNET_BUFFER_HDR psbhRequest; // offset +0xf0 PSRVNET_BUFFER_HDR psbhResponse; // offset +0xf8 ...
}; void __fastcall Srv2SetResponseBufferToReceiveBuffer(SRV2_WORKITEM *workitem) {
  ...
  workitem->psbhResponse = workitem->psbhRequest;
  ...
}

由于请求和响应报文在payload中共享许多常用数据，因此该函数可以有效地复用这些缓冲区。实际上，当使用srv2!Srv2SetResponseBufferToReceiveBuffer来处理响应缓冲区时，srv2.sys并不会初始化响应缓冲区。因此，如果我们能够在破坏请求缓冲区后调用该函数，那么就能得到被破坏的响应缓冲区。

此外，srv2!Smb2SetError函数中还会调用srv2!Srv2SetResponseBufferToReceiveBuffer，而当srv2.sys想发送错误消息时就会调用该函数。因此这里总结一下，我们可以精心发送一个请求，使服务端将其识别为“正常但存在错误的”请求，这样就能破坏响应缓冲区。

Memory Descriptor List

但现在我们还碰到一个问题：拿到被破坏的缓冲区后我们该怎么做？这里我们选择使用MDL（Memory Descriptor List，内存描述符列表）来解决该问题。由于tcpip.sys最终会依赖DMA（Direct Memory Access，直接内存访问）来传输数据包，因此驱动会在MDL中维护缓冲区的物理地址。即使微软在官方文档中没有提到物理地址，但MDL结构中实际上会通过8个成员来包含物理地址：

struct _MDL { struct _MDL *Next; CSHORT           Size;
  CSHORT           MdlFlags; struct _EPROCESS *Process; PVOID            MappedSystemVa;
  PVOID            StartVa;
  ULONG            ByteCount;
  ULONG            ByteOffset; // Actually physical addresses follow.  // Therefore, the size of this struct is variable } MDL, *PMDL;

图. MmBuildMdlForNonPagedPool中存放的物理地址

在SRVNET_BUFFER_HDR中，pMDL1及pMDL2为指向MDL结构的指针，描述了由tcpip.sys发送给客户端的内存数据。

伪造MDL结构

现在我们的利用思路逐渐清晰起来。我们希望覆盖请求头中指向MDL的指针，以泄露物理内存信息。然而，这里我们还会面临第三个问题。如果我们像写原语（一个典型的缓冲区溢出）那样覆盖pMDL，那么将导致crash，使漏洞无法正常利用。这是因为溢出缓冲区和pMDL1之间存在pNonPagedPoolAddr，如果我们通过这种方式覆盖pMDL1，那么不可避免地也会覆盖掉pNonPagedPoolAddr。当pNonPagedPoolAddr为无效地址时，由于srvnet!SrvNetFreeBuffer迟早会调用ExFreePoolWithTag(header->pNonPagedPoolAddr, 0x3030534Cu)，因此将导致SEGV。

图. 错误的方法

如果我们将pNonPagedPoolAddr设置为KUSER_SHARED_DATA中的某个位置，有可能避免出现crash，但这种方法太过复杂，几乎不可能完成。此外，即使我们凑巧成功释放了该地址，但由于ExAllocatePoolWithTag可能返回KUSER_SHARED_DATA中的地址（可能导致crash），因此这种方法也不是很方便。

那么我们该怎么办呢？我们应该将offsetOrLength设置为较大的一个值，这样&newHeader->pNetRawBuffer[compressHeader.offsetOrLength]将直接指向pMDL1的地址，这种方法可以避免pNonPagedPoolAddr（至少在“(B)”处的缓冲区溢出点）被覆盖。

但我们还没有完成任务。观察“(C)”处的第二个缓冲区溢出点，由于&newHeader->pNetRawBuffer[compressHeader.offsetOrLength-8]指向pNonPagedPoolAddr，因此memmove会覆盖pNonPagedPoolAddr。我们必须避免出现这种情况，因此我们故意使srvnet!SmbCompressionDecompress返回失败，这样将执行SrvNetFreeBuffer(newHeader)，但被释放的缓冲区在Lookaside List中依然保持被破坏状态，可以稍后取出使用。

使srvnet!SmbCompressionDecompress失败的最简单的一种方法是发送格式错误的LZNT1 payload，这需要稍微逆向分析nt!RtlDecompressBufferLZNT1，但也不难实现。即使我们向nt!RtlDecompressBufferLZNT1提供错误的payload，该函数将继续解压缩payload，直至找到无效的chunk为止。因此，我们既可以覆盖pMDL，又能同时让解压缩操作失败。

现在我们已经可以轻松实现读原语：我们只需要使用写原语，在KUSER_SHARED_DATA中伪造一个MDL结构，然后将pMDL指向伪造结构的地址即可。

0x03 搞定PML4随机化

现在我们已经能够任意读取物理内存，但现代内核大多数不会直接与物理页面打交道，而是通过MMU提供了一种分页机制，对内存数据（除了某些特例外）的所有访问操作都需要通过分页来完成。内核会跟踪可用的物理页面，根据需要将其链接到虚拟地址。我们可以将分页看成一种分配器，因此无法确定哪个物理页面的具体用处。

然而凡事都有例外，这种规则并不适用于启动过程初始阶段分配的物理内存。在这些页面中，我们重点关注分配给PML4的页面，这是分页机制中的顶层转换表。

需要注意的是，Windows分页机制有个独有的特性：self-reference（自引用）。自引用允许PML4作为PDP（Page Directory Pointer）、PD（Page Directory）以及PT（Page Table）来使用。这种技术的主要优点在于，如果设置了自引用条目的索引，由于PTE的所有虚拟地址都会被立即固定，因此我们可以根据给给定的虚拟地址算出PTE的虚拟地址。这方面内容我建议大家阅读Core Security关于Windows分页机制的相关报告了解更多细节。

根据Core Security另一篇文章的描述，在内核利用中，修改PTE是目前用来创建攻击所需内存空间的一种典型方法，但微软已经已经在Anniversary Update中针对该方法推出了缓解机制。这并不意味着Windows 10不再依赖自引用，Windows只是随机化处理了PML4中自引用条目的索引，这样最终导致PML4及PET虚拟地址的随机化。

前面我们解释了PML4虚拟地址的随机化，那么PML4物理地址是什么情况呢？大家可能能够猜到，该地址并没有经过随机化处理。PML4空间在ArchpAllocateAndInitializePageTables中分配，该函数是BIOS/UEFI中实现的一个函数。我们逆向分析了bootmgr.exe及bootmgfw.efi，确认其中并没有专门设置的随机化过程。需要注意的是，这并不意味着其中为PML4定义了固定的物理地址。因此，我们需要再次在qemu、VMWare、VirtualBox及ThinkPad中检查PML4的物理地址。在测试的每个环境中，PML4的物理地址为0x1aa000（BIOS）或者0x1ad000（UEFI）。在未测试的其他环境中（比如hypervisor），这个地址可能有所变化，但我们可以认为在大多数情况下PML4的物理地址为固定值。

因此，现在我们可以使用物理读源于来dump PML4。由于我们可以像MMU一样读取物理页面，现在我们也可以读取PDPE、PDE以及PTE，这样我们就能将虚拟地址转化为物理地址，从而实现虚拟读原语。将虚拟地址转化为对应的物理地址后，我们可以使用物理读源于来读取虚拟地址数据。

0x04 获取IP及绕过CFG

实现读写原语后，我们的漏洞利用也即将成功，我们还需要找到用来控制IP（指令指针）的函数指针。如果大家想复现RCE PoC，这里我提供3种可能采用的策略。

策略1

我们考虑过这个策略，但并没有采用该策略（但可能还有利用价值）。

由于我们可以根据虚拟地址实现任意读取，为了找到IP，我们可以在内核堆的“垃圾”中查找有用的地址。大家可以采用前文类似的方法来完成该任务。

比如，假设pNetRawBuffer的初始值为X。首先，我们覆盖掉pNetRawBuffer，使其指向某个位置（比如地址Y）。随后，srv2.sys中的后续操作会引用Y，这样X将处于未初始化状态。根据前文描述，由于MDL（物理地址为X）用来指定被泄露的数据，因此我们可以在内核堆上看到未初始化内存地址X的数据。通过这种方式拿到有效地址后，我们可以继续利用虚拟读原语来获取更多地址，知道我们找到待覆盖的函数指针为止。

然而，我们并没有采用这种策略，因为以来未初始化数据并不是特别可靠。如果这是常规的用户态利用场景，那么这种方法可能不会那么随机化，或者不会那么不稳定。然而，由于内核中许多线程在运行时会共享内核堆，因此并不满足这种场景。根据这些信息，我们并不能保证每次都能找到有用的地址。

策略2

实际上我们采用的是这个策略，我们在HAL堆上搜索PML4的物理页面。与PML4的物理页面不同，HAL堆的物理地址与操作系统紧密相关。Alex Ionescu在某次演讲中详细解释了这方面内容，后面我也会讨论其中的一些关键点。

虽然HAL堆的物理地址与具体环境紧密相关，但我们可以通过暴力方式来搜索该页面。我们同样在几个环境中测试了物理地址，发现该地址最多为0x10f000。

此外，我们还可以检查泄露处的页面是否为真正的HAL堆。我们寻找的是HalpInterruptController，其中包含指向HAL函数的一些指针。对比泄露地址与这些函数的偏移地址后，我们可以得出准确的结论（虽然这种方法依赖于具体的Windows 10版本，需要我们设定所有可能的偏移地址组合）。

策略3

这可能是更通用的一种策略。我们还没有测试过这种策略，因为我在撰写该报告时才发现别人的演讲资料，我发现该资料能够提供更可靠的方法。参考该资料，我们可以在大多数系统上读取0x1000处的物理地址，从而获取PML4的物理地址以及其他一些有用的虚拟地址。这样漏洞利用起来更快，也更为通用。

0x05 最后的障碍

以上就是我们获取IP、执行内核态shellcode的方式。我的内核态shellcode比较普通，两次调用APC（异步过程调用）来拿到反弹shell，但一开始我并没有成功运行。

在调试内核和shellcode时，我发现用户态CFG未能正确识别用户态shellcode，会拦截我们的利用操作。如下图所示，在转入用户态shellcode前，ntdll!KiUserApcDispatch会调用ntdll!LdrpValidateUserCallTarget。

由于我们可以在内核态shellcode中patch ntdll!LdrpValidateUserCallTarget，因此可以解决该问题（但也花了我1天的时间来调试）。由于互联网上似乎没人提到过这一点，因此我想在这里与大家分享这个细节。

0x06 总结

在本文中，我们引入了一种读原语，成功在最新版Windows上实现了远程内核利用。我们花了很多时间完成此次研究（以及撰写这份报告），因此也很乐意与大家分享。

译文声明