<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>NVIDIA GPU Driver on Kang&#39;s Blog</title>
        <link>https://blog.coderkang.top/tags/nvidia-gpu-driver/</link>
        <description>Recent content in NVIDIA GPU Driver on Kang&#39;s Blog</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh</language>
        <lastBuildDate>Fri, 07 Nov 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.coderkang.top/tags/nvidia-gpu-driver/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>NVIDIA GPU 驱动持久化</title>
            <link>https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/</link>
            <pubDate>Fri, 07 Nov 2025 00:00:00 +0000</pubDate>
            <guid>https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/</guid>
            <description>&lt;img src=&#34;https://blog.coderkang.top/&#34; alt=&#34;Featured image of post NVIDIA GPU 驱动持久化&#34; /&gt;&lt;h1 id=&#34;nvidia-gpu-驱动持久化配置与故障排查&#34;&gt;NVIDIA GPU 驱动持久化配置与故障排查&#xD;&#xA;&lt;/h1&gt;&lt;h2 id=&#34;概述&#34;&gt;概述&#xD;&#xA;&lt;/h2&gt;&lt;p&gt;本文记录了一次由 GPU 驱动非持久化模式引发的监控异常问题，并介绍了 NVIDIA GPU 驱动持久化的原理与配置方法。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;问题现象&#34;&gt;问题现象&#xD;&#xA;&lt;/h2&gt;&lt;p&gt;在进行算法程序压测时，通过 Grafana 监控面板发现 Nvidia Exporter 服务运行不稳定，呈现时好时坏的状态：&lt;/p&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;Nvidia Exporter Service&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;448px&#34; data-flex-grow=&#34;186&#34; height=&#34;872&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service.png&#34; srcset=&#34;https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service_hu_e4d82039efb1d802.png 800w, https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service_hu_c444077d4475ddc7.png 1600w, https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service.png 1628w&#34; width=&#34;1628&#34;&gt;&lt;/p&gt;&#xA;&lt;h3 id=&#34;初步排查&#34;&gt;初步排查&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;排除 Prometheus Scrape 问题&lt;/strong&gt;&lt;br&gt;&#xA;在目标 GPU 服务器上手动执行 &lt;code&gt;curl http://localhost:9835/metrics&lt;/code&gt; 命令，请求陷入超时状态，确认问题出在 Exporter 服务本身。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;调整日志级别&lt;/strong&gt;&lt;br&gt;&#xA;将 Nvidia Exporter 的日志等级调整为 &lt;code&gt;debug&lt;/code&gt;，但未发现明显的错误信息。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;定位根因&lt;/strong&gt;&lt;br&gt;&#xA;手动执行 Nvidia Exporter 内部使用的查询命令：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;nvidia-smi --query-gpu&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;timestamp,driver_version,vgpu_driver_capability.heterogenous_multivGPU,count,name,serial,uuid,pci.bus_id,pci.domain,pci.bus,pci.device,pci.baseClass,pci.subClass,pci.device_id,pci.sub_device_id,vgpu_device_capability.fractional_multiVgpu,vgpu_device_capability.heterogeneous_timeSlice_profile,vgpu_device_capability.heterogeneous_timeSlice_sizes,vgpu_device_capability.homogeneous_placements,pcie.link.gen.current,pcie.link.gen.gpucurrent,pcie.link.gen.max,pcie.link.gen.gpumax,pcie.link.gen.hostmax,pcie.link.width.current,pcie.link.width.max,index,display_mode,display_active,persistence_mode,addressing_mode,accounting.mode,accounting.buffer_size,driver_model.current,driver_model.pending,vbios_version,inforom.img,inforom.oem,inforom.ecc,inforom.pwr,gpu_recovery_action,gom.current,gom.pending,fan.speed,pstate,clocks_event_reasons.supported,clocks_event_reasons.active,clocks_event_reasons.gpu_idle,clocks_event_reasons.applications_clocks_setting,clocks_event_reasons.sw_power_cap,clocks_event_reasons.hw_slowdown,clocks_event_reasons.hw_thermal_slowdown,clocks_event_reasons.hw_power_brake_slowdown,clocks_event_reasons.sw_thermal_slowdown,clocks_event_reasons.sync_boost,memory.total,memory.reserved,memory.used,memory.free,compute_mode,compute_cap,utilization.gpu,utilization.memory,utilization.encoder,utilization.decoder,utilization.jpeg,utilization.ofa,encoder.stats.sessionCount,encoder.stats.averageFps,encoder.stats.averageLatency,dramEncryption.mode.current,dramEncryption.mode.pending,ecc.mode.current,ecc.mode.pending,ecc.errors.corrected.volatile.device_memory,ecc.errors.corrected.volatile.dram,ecc.errors.corrected.volatile.register_file,ecc.errors.corrected.volatile.l1_cache,ecc.errors.corrected.volatile.l2_cache,ecc.errors.corrected.volatile.texture_memory,ecc.errors.corrected.volatile.cbu,ecc.errors.corrected.volatile.sram,ecc.errors.corrected.volatile.total,ecc.errors.corrected.aggregate.device_memory,ecc.errors.corrected.aggregate.dram,ecc.errors.corrected.aggregate.register_file,ecc.errors.corrected.aggregate.l1_cache,ecc.errors.corrected.aggregate.l2_cache,ecc.errors.corrected.aggregate.texture_memory,ecc.errors.corrected.aggregate.cbu,ecc.errors.corrected.aggregate.sram,ecc.errors.corrected.aggregate.total,ecc.errors.uncorrected.volatile.device_memory,ecc.errors.uncorrected.volatile.dram,ecc.errors.uncorrected.volatile.register_file,ecc.errors.uncorrected.volatile.l1_cache,ecc.errors.uncorrected.volatile.l2_cache,ecc.errors.uncorrected.volatile.texture_memory,ecc.errors.uncorrected.volatile.cbu,ecc.errors.uncorrected.volatile.sram,ecc.errors.uncorrected.volatile.total,ecc.errors.uncorrected.aggregate.device_memory,ecc.errors.uncorrected.aggregate.dram,ecc.errors.uncorrected.aggregate.register_file,ecc.errors.uncorrected.aggregate.l1_cache,ecc.errors.uncorrected.aggregate.l2_cache,ecc.errors.uncorrected.aggregate.texture_memory,ecc.errors.uncorrected.aggregate.cbu,ecc.errors.uncorrected.aggregate.sram,ecc.errors.uncorrected.aggregate.total,ecc.errors.uncorrected.volatile.sram.parity,ecc.errors.uncorrected.volatile.sram.secded,ecc.errors.uncorrected.aggregate.sram.parity,ecc.errors.uncorrected.aggregate.sram.secded,ecc.errors.uncorrected.aggregate.sram.thresholdExceeded,ecc.errors.uncorrected.aggregate.sram.l2,ecc.errors.uncorrected.aggregate.sram.sm,ecc.errors.uncorrected.aggregate.sram.mcu,ecc.errors.uncorrected.aggregate.sram.pcie,ecc.errors.uncorrected.aggregate.sram.other,retired_pages.single_bit_ecc.count,retired_pages.double_bit.count,retired_pages.pending,remapped_rows.correctable,remapped_rows.uncorrectable,remapped_rows.pending,remapped_rows.failure,remapped_rows.histogram.max,remapped_rows.histogram.high,remapped_rows.histogram.partial,remapped_rows.histogram.low,remapped_rows.histogram.none,temperature.gpu,temperature.gpu.tlimit,temperature.memory,power.management,power.draw,power.draw.average,power.draw.instant,power.limit,enforced.power.limit,power.default_limit,power.min_limit,power.max_limit,module.power.draw.average,module.power.draw.instant,module.power.limit,module.enforced.power.limit,module.power.default_limit,module.power.min_limit,module.power.max_limit,clocks.current.graphics,clocks.current.sm,clocks.current.memory,clocks.current.video,clocks.applications.graphics,clocks.applications.memory,clocks.default_applications.graphics,clocks.default_applications.memory,clocks.max.graphics,clocks.max.sm,clocks.max.memory,mig.mode.current,mig.mode.pending,gsp.mode.current,gsp.mode.default,c2c.mode,protected_memory.total,protected_memory.used,protected_memory.free,fabric.state,fabric.status,platform.chassis_serial_number,platform.slot_number,platform.tray_index,platform.host_id,platform.peer_type,platform.module_id,platform.gpu_fabric_guid --format&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;csv&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;关键发现&lt;/strong&gt;：该命令执行时长在 3~10 秒之间波动，明显异常。测试环境中共有 8 块 GPU，其中 2 块正在被算法程序占用，其余 6 块处于空闲状态。&lt;/p&gt;&#xA;&lt;p&gt;回顾 NVIDIA &lt;a class=&#34;link&#34; href=&#34;https://docs.nvidia.com/deploy/driver-persistence/index.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;&#xD;&#xA;    &gt;官方文档关于 GPU 驱动持久化&lt;/a&gt;的说明后，尝试启用持久化模式。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;解决方案&#34;&gt;解决方案&#xD;&#xA;&lt;/h2&gt;&lt;h3 id=&#34;临时启用持久化模式&#34;&gt;临时启用持久化模式&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;执行以下命令立即启用 GPU 驱动持久化：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;nvidia-smi -pm &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;再次执行上述查询命令，响应时间降至毫秒级，&lt;strong&gt;问题解决&lt;/strong&gt;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;配置开机自启动&#34;&gt;配置开机自启动&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;为确保系统重启后持久化配置生效，需要配置 systemd 服务：&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;1. 创建服务配置文件&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo vim /usr/lib/systemd/system/nvidia-persistenced.service&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;2. 添加以下内容&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11&#xA;&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-ini&#34; data-lang=&#34;ini&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;[Unit]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;Description&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;NVIDIA Persistence Daemon&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;Wants&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;network.target&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;[Service]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;Type&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;forking&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;PIDFile&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/var/run/nvidia-persistenced/nvidia-persistenced.pid&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;ExecStart&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/usr/bin/nvidia-persistenced --persistence-mode&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;ExecStopPost&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;/bin/rm -rf /var/run/nvidia-persistenced&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;[Install]&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;na&#34;&gt;WantedBy&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s&#34;&gt;multi-user.target&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;3. 启用并启动服务&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;&#xA;&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td class=&#34;lntd&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-shell&#34; data-lang=&#34;shell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;sudo systemctl &lt;span class=&#34;nb&#34;&gt;enable&lt;/span&gt; nvidia-persistenced.service --now&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;h3 id=&#34;验证效果&#34;&gt;验证效果&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;配置完成后，监控系统恢复正常，GPU 使用情况采集稳定：&lt;/p&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;Nvidia Exporter Service After Fix&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;440px&#34; data-flex-grow=&#34;183&#34; height=&#34;866&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service_after.png&#34; srcset=&#34;https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service_after_hu_a3dbef001b004b7f.png 800w, https://blog.coderkang.top/p/nvidia_gpu_driver_persistence/nvidia_exporter_service_after.png 1589w&#34; width=&#34;1589&#34;&gt;&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;技术原理&#34;&gt;技术原理&#xD;&#xA;&lt;/h2&gt;&lt;h3 id=&#34;gpu-驱动加载机制&#34;&gt;GPU 驱动加载机制&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;NVIDIA GPU 交互依赖内核模式驱动程序，该驱动程序的运行模式分为两种：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;持久化模式&lt;/strong&gt;：驱动程序持续保持活跃状态&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;按需加载模式&lt;/strong&gt;：驱动程序仅在有程序使用 GPU 时加载&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;驱动程序生命周期&#34;&gt;驱动程序生命周期&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;初始化阶段&lt;/strong&gt;&lt;br&gt;&#xA;当首个程序尝试与 GPU 交互时，如果内核驱动未运行，系统会触发驱动加载并初始化 GPU 设备。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;去初始化阶段&lt;/strong&gt;&lt;br&gt;&#xA;当所有 GPU 客户端程序退出后，驱动程序会执行 GPU 去初始化操作，实质上&amp;quot;关闭&amp;quot; GPU 设备。&lt;/p&gt;&#xA;&lt;h3 id=&#34;对用户的影响&#34;&gt;对用户的影响&#xD;&#xA;&lt;/h3&gt;&lt;h4 id=&#34;应用启动延迟&#34;&gt;应用启动延迟&#xD;&#xA;&lt;/h4&gt;&lt;p&gt;首次触发 GPU 初始化时，由于需要执行 ECC 内存检查等操作，会产生 &lt;strong&gt;1~3 秒&lt;/strong&gt;的延迟。若 GPU 已初始化，则无此延迟。&lt;/p&gt;&#xA;&lt;h4 id=&#34;驱动状态丢失&#34;&gt;驱动状态丢失&#xD;&#xA;&lt;/h4&gt;&lt;p&gt;GPU 去初始化后，非持久性状态信息(如功耗限制、时钟频率配置等)会丢失，下次初始化时恢复为默认值。启用持久化模式可避免此问题。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;平台差异&#34;&gt;平台差异&#xD;&#xA;&lt;/h2&gt;&lt;h3 id=&#34;windows-平台&#34;&gt;Windows 平台&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;在 Windows 系统中，内核驱动在系统启动时加载，并保持运行直至系统关闭。因此 Windows 用户通常无需关注驱动持久化问题。&lt;/p&gt;&#xA;&#xD;&#xA;    &lt;blockquote&gt;&#xD;&#xA;        &lt;p&gt;&lt;strong&gt;注意&lt;/strong&gt;：驱动重载事件（如 TDR 触发或驱动更新）会导致非持久性状态重置。&lt;/p&gt;&#xA;&#xD;&#xA;    &lt;/blockquote&gt;&#xD;&#xA;&lt;h3 id=&#34;linux-平台&#34;&gt;Linux 平台&#xD;&#xA;&lt;/h3&gt;&lt;p&gt;Linux 系统的行为取决于运行环境：&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;图形界面环境&lt;/strong&gt;&lt;br&gt;&#xA;若 X Server 运行在目标 GPU 上，内核驱动通常会从开机到关机持续活跃，由 X 进程维持连接。&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong&gt;无头服务器环境&lt;/strong&gt;&lt;br&gt;&#xA;在无图形界面的服务器（Headless Server）上，若缺少长期运行的 GPU 客户端，每次应用启动和停止都会触发驱动的加载与卸载。这在 &lt;strong&gt;高性能计算(HPC)&lt;/strong&gt; 和 &lt;strong&gt;数据中心&lt;/strong&gt;环境中极为常见，也是本次故障的根本原因。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;最佳实践建议&#34;&gt;最佳实践建议&#xD;&#xA;&lt;/h2&gt;&lt;ol&gt;&#xA;&lt;li&gt;&lt;strong&gt;生产环境强烈推荐&lt;/strong&gt;启用 GPU 驱动持久化，特别是无头服务器场景&lt;/li&gt;&#xA;&lt;li&gt;使用 &lt;code&gt;systemd&lt;/code&gt; 服务确保持久化配置在系统重启后自动生效&lt;/li&gt;&#xA;&lt;li&gt;监控系统应在启用持久化后进行充分测试，验证指标采集的稳定性&lt;/li&gt;&#xA;&lt;li&gt;定期检查 &lt;code&gt;nvidia-persistenced&lt;/code&gt; 服务状态，确保其正常运行&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;参考资料&#34;&gt;参考资料&#xD;&#xA;&lt;/h2&gt;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://docs.nvidia.com/deploy/driver-persistence/index.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;&#xD;&#xA;    &gt;NVIDIA Driver Persistence 官方文档&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;</description>
        </item></channel>
</rss>
