上下文切换 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

3 使用Python加速文件传输和文件复制 Giampaolo Rodola

syscalls and file descriptors can be mixed together - 系统调用：与内核交互的途径 • 内核：与硬件交互的途径系统调用将会触发上下文切换 • 上下文切换将会消耗时间系统调用和文件描述符可以连用 ## Basic socket operations 基础的 socket 操作 ![Image](/uploads/documents/

0 码力 | 78 页 | 654.51 KB | 2 年前
3
RISC-V 开放架构设计之道 1.0.0

和恢复程序（上下文切换）的开销。动态寄存器类型有助于改善此情况。程序员必须告知处理器哪些向量寄存器正在使用，这意味着处理器在上下文切换时仅需保存和恢复这些寄存器。根据 RV32V 约定，软件在不使用向量指令时需要禁用所有向量寄存器，这意味着处理器既具备向量寄存器的性能优势，又仅在向量指令执行过程中发生中断时才引入额外的上下文切换开销。早期的向量架构无论在何时发生中断，都必须在上下文切换时保存和恢复所有向量寄存器。所有向量寄存器。为避免上下文切换过慢，Intel 未在初版 MMX SIMD 扩展中添加寄存器，而是复用现有的浮点寄存器，这意味着无需切换额外的上下文，但程序不能混合使用浮点和多媒体指令。 ### 8.4 向量取数和存数最简单的向量取数和存数操作是处理顺序存放在内存的一维数组。向量取数通过vld指令给出起始地址，将内存地址连续的数据读入向量寄存器。向量寄存器关联的数据类型决定数据元素个偶数编号的 CSR。存器名为 pmpaddr0 到 pmpaddrN，其中 $ N+1 $ 为处理器中实现的 PMP 数量。由于 PMP 的粒度为 4 字节，因此地址寄存器右移了两位。为加速上下文切换，CSR 中的配置寄存器采取密集方式排列，如图 10.12 所示。PMP 的配置由 R、W 和 X 位组成，分别对应取数、存数和取指权限。A 字段用于设置相应 PMP 的地址匹配模式，为 0 时禁用此

0 码力 | 223 页 | 15.31 MB | 2 年前
3
RISC-V 手册 v2（一本开源指令集的指南）

设置为 00000 会禁用向量寄存器。（本图基于[Waterman and Asanovic 2017]的表 17.4。）为了避免上下文切换时间过慢，英特尔尽量避免在原始 MMX SIMD 扩展中添加寄存器。它只是重用现有的浮点寄存器，这意味着没有额外的上下文切换，但程序无法同时出现浮点和多媒体指令。每个 load 和 store 指令都有一个 7 位的无符号立即数偏移量。它对于 load 架构受欢迎的一个原因是：大家担心增加大型向量寄存器会延长中断时保存和恢复程序（上下文切换）的时间。动态寄存器类型对此很有帮助。程序员必须告诉处理器正在使用哪些向量寄存器，这意味着处理器需要在上下文切换中仅保存和恢复那些寄存器。RV32V 约定在不使用向量指令的时候禁用所有向量寄存器，这意味着处理器既可以具有向量寄存器的性能优势，又仅会在向量指令执行过程中发生中断时才会带来额外的上下文切换开销。早期的向量架构在发生中断时，不得不忍受保存和恢复全部向量寄存器的最大的上下文切换开销。 ### 8.4 向量的 Load 和 Store 操作向量 Load 和 Store 操作的最简单情况是处理按顺序存储在内存中的一维数组。向量 Load 用以 vld 指令中地址为起始地址的顺序存储的数据来填充向量寄存器。向量寄存器的数据类型确定数据元素的大小，向量长度寄存器 vl 中设置了要取的元素数量。向量 store 执行 vld 的逆操作。

0 码力 | 164 页 | 8.85 MB | 2 年前
3
openEuler 22.03-LTS 技术白皮书

等速率，支持单播、多播、广播、混杂等网口基本特性，支持 VLAN、流表、TSO、GRO 等高级特性，并利用 NEON 指令实现数据面高速转发。 ## 功能描述原生 DPDK 以轮询代替中断，避免上下文切换开销，并利用多核实现并行 IO，通过旁路内核实现零拷贝，实现用户态高速转发能力。 DPDK 在鲲鹏网卡支持关键特性如下： • 支持 SRIOV：DPDK 可使用多个 VF 进行业务处理，充分挖掘设备在 Gazelle 用户态协议栈 Gazelle 用户态协议栈是基于 DPDK 和 LWIP 开发的，在满足高性能、高可用等诉求的同时，具备良好的通用性和易用性： 1. 高性能：基于用户态开发，无上下文切换，报⽂传输过程零拷贝，⽆锁，灵活 scale-out，自适应调度。通用性：完全兼容 POSIX，应用使用无需修改和重新编译，灵活部署和使用，适用不同类型应用。 ![Image](/uploa

0 码力 | 17 页 | 6.52 MB | 2 年前
3
openEuler 22.03 LTS SP2 技术白皮书

openEuler 嵌入式 Linux 混合部署。 5. 嵌入式软件包支持：350+嵌入式领域常用软件包的构建。 6. 硬实时内核（UniProton）：支持 POSIX 接口（103 个），上下文切换时延 3us、中断延迟 2us。未来还将提供：南向生态：RISC-V、龙芯支持。混合关键性部署框架：围绕生命周期管理、跨 OS 通信、服务化框架、多 OS 协同构建 4 个方面持续打造标准混部框架，支持更多的软实时和硬实时多优先级任务等待队列，在线任务和离线任务分别由不同优先级的 CFS 任务等待队列维护。多核 CPU 负载均衡时，优先从任务等待队列中选择高优先级任务，确保高优先级任务迁移优先得到调度；压制低优先级任务迁移，减少不必要的低优先级任务上下文切换、唤醒抢占等带来的 QoS 干扰及调度性能开销。 ![Image](/uploads/documents/f/8/b/c/f8bc882286c62dc9b898b93415fea6d6/p17_2

0 码力 | 48 页 | 5.62 MB | 2 年前
3
Golang在接入层长连接服务中的实践-黄欣

Golang1.5 — GOMAXPROCS = A — Send goruntine = B — Read goruntine = C 单线程模式效率性能最好，消耗最少多线程并发下，大量上下文切换，sy占用高，且性能低下 – Count (message) = 100000000 |A|B|C|cs|Cpu (us/sy)|Cost (s)| |---|---|---|---|---|---|

0 码力 | 31 页 | 1.67 MB | 2 年前
3
领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践

S(n)=\frac{T(1)}{T(N)}=\frac{1}{\alpha+\frac{1-\alpha}{N}}=\frac{N}{1+\alpha\left(N-1\right)} $$ CPU数个业务线程更少的上下文切换、更少(无)的竞争、更低的LOAD ## 流－分布式 ## 流引用可被远程化系统级的流式贯通 ## 架构治理能力加强： • 回压 • 三角模式透传 • 业务快速截面创新 ![Imag

0 码力 | 27 页 | 1.13 MB | 2 年前
3
openEuler全新升级，成为数字基础设施开源操作系统

_1.jpg) ## 支持基于优先级的抢占和极致的任务抢占和中断延迟，支持裁剪至百KB级别。性能规格如下(不同功能情况下，性能会有不同): 基于STM32F407 168MHz ✓ 上下文切换：<3us ✓ 任务抢占：<3us ✓ 信号量混洗：<7us ✓ 死锁解除：<9us ✓ 消息传递延迟：<4us ✓ 中断延迟：<2us ## 首批基于

0 码力 | 15 页 | 1.35 MB | 2 年前
3
Ceph分布式存储实战 (云计算与虚拟化技术丛书)

Ceph的基石，在接下来的一节中，我们将讨论网络优化在Ceph中的应用。任何时候通过一个套接字（socket）来读写数据时，都会使用一个系统调用（system call），这个调用将触发内核上下文切换（Context Switch），下面描述了一个典型的系统调用流程： 1）Ceph进程调用send()函数发送消息。 2）触发0x80中断，由用户态切换至内核态。 3）内核调用system_ ，进行参数检查，根据系统调用以获得对应的内核函数。 4）执行内核函数，发送数据报文。 5）内核函数执行完毕，切换回内核态。 6）Socket()调用完成。整个数据发送/接收需要触发两次上下文切换，以及若干次内存拷贝，这些操作会消耗大量的时间，我们优化的思路就是减少这些时间损耗。在处理网络IO时需要CPU消耗大量的计算能力，因此我们希望CPU尽可能少地处理这些项碎的IO任务，有足够的处理能 RDMA（Remote Direct Memory Access）可以在不需要操作系统干预的情况下，完成两个主机之间内存数据的传输，见图9-9。传统的套接字接口调用在每次IO过程中需要经历若干次内存拷贝和上下文切换，RDMA技术可以让应用程序在用户态直接将buffer（缓冲区）中的数据写入网卡（NIC）的内存中，以网络为载体，发送到远程网卡，直接写入应用缓存中。在RDMA的工作过程中，使用零拷贝网络技术使得

0 码力 | - 页 | 13.97 MB | 1 年前
3
字节跳动云原生微服务架构原理与开源实践 CloudWeGo 技术白皮书 2024

Protobuf库，当后续我们也会计划对 Protobuf进行优化。 4. 使用独占 CPU 虽然线上应用通常是多个进程共享CPU，但在压测场景下，Client与Server进程都处于极端繁忙的状况，如果同时还共享CPU会导致大量上下文切换，从而使得数据缺乏可参考性，且容易产生前后很大波动。所以我们建议是将Client与Server进程隔离在不同CPU或者不同独占机器上进行。如果还想要进一步避免其他进程产生影响，可以再加上nice-n-20命令调高压测进程的调度优先级。角下的，更无法给线上服务做实际的参考。 4. 使用独占 CPU 虽然线上应用通常是多个进程共享CPU，但在压测场景下，Client与Server进程都处于极端繁忙的状况，此时共享CPU会导致大量上下文切换，从而使得数据缺乏可参考性，且容易产生前后很大波动。所以我们建议是将 Client与 Server进程隔离在不同 CPU或者不同独占机器上进行。如果还想要进一步避免其他进程产生影响，可以再加上 nice

0 码力 | 68 页 | 24.07 MB | 4 月前
3

共 72 条前往

页

分类

语言

格式

3 使用Python加速文件传输和文件复制 Giampaolo Rodola

RISC-V 开放架构设计之道 1.0.0

RISC-V 手册 v2（一本开源指令集的指南）

openEuler 22.03-LTS 技术白皮书

openEuler 22.03 LTS SP2 技术白皮书

Golang在接入层长连接服务中的实践-黄欣

领域驱动设计&中台/淘宝应用架构升级——反应式架构的探索与实践

openEuler全新升级，成为数字基础设施开源操作系统

Ceph分布式存储实战 (云计算与虚拟化技术丛书)

字节跳动云原生微服务架构原理与开源实践 CloudWeGo 技术白皮书 2024

搜索

分类

语言

格式