专业设计企业网站学广告设计去哪个学校好-Seo优化-河南省网站建设公司

专业设计企业网站,学广告设计去哪个学校好,微信公众号微网站怎么建设,大型网站建设视频在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型如今#xff0c;某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件#xff08;从CPU、NPU到GPU#xff09;在本地高效运行AI模型。在NVIDIA RTX GPU上#xff0c;它利用为RTX定制…在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型如今某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件从CPU、NPU到GPU在本地高效运行AI模型。在NVIDIA RTX GPU上它利用为RTX定制的NVIDIA TensorRT执行提供程序并借助GPU的Tensor Core以及FP8和FP4等架构优势为基于Windows的RTX AI PC提供最快的AI推理性能。“Windows ML为GeForce RTX和RTX Pro GPU解锁了完整的TensorRT加速功能在Windows 11上提供了卓越的AI性能”某中心副总裁、杰出工程师Logan Iyer表示。“我们很高兴它今天正式向开发者开放以便大规模构建和部署强大的AI体验。”Windows ML与为RTX优化的TensorRT EP概述Windows ML构建于用于推理的ONNX Runtime API之上。它扩展了ONNX Runtime API以处理PC上跨CPU、NPU和GPU硬件的执行提供程序的动态初始化和依赖管理。此外Windows ML还会根据需要自动下载必要的执行提供程序从而减少了应用开发者跨多个不同硬件供应商管理依赖项和软件包的需求。为RTX优化的NVIDIA TensorRT执行提供程序为使用ONNX Runtime的Windows ML开发者带来了多项优势与之前在NVIDIA RTX GPU上的DirectML实现相比以低延迟推理运行ONNX模型吞吐量提升50%如下图所示。通过其灵活的EP架构以及与ORT的集成直接与WindowsML集成。为最终用户设备上的简化部署提供即时编译。了解更多关于TensorRT for RTX内的编译过程。此编译过程在ONNX Runtime中作为EP上下文模型受支持。利用Tensor Core上的架构进步如FP8和FP4。轻量级软件包仅不到200 MB。支持多种模型架构从LLM通过ONNX Runtime GenAI SDK扩展、扩散模型、CNN等。了解更多关于TensorRT for RTX的信息。选择执行提供程序与WindowsML一同提供的ONNX Runtime 1.23.0版本提供了与供应商和执行提供程序无关的设备选择API。这极大地减少了为每个硬件供应商平台利用最优执行提供程序所需的应用程序逻辑。请参阅以下代码摘录了解如何有效实现此操作并在NVIDIA GPU上获得最佳性能。// 注册所需的各种供应商执行提供程序库autoenvOrt::Env(ORT_LOGGING_LEVEL_WARNING);env.RegisterExecutionProviderLibrary(nv_tensorrt_rtx,Lonnxruntime_providers_nv_tensorrt_rtx.dll);// 选项 1: 依赖ONNX Runtime执行策略Ort::SessionOptions sessions_options;sessions_options.SetEpSelectionPolicy(OrtExecutionProviderDevicePolicy_PREFER_GPU);// 选项 2: 遍历EpDevices以执行手动设备选择std::vectorOrt::ConstEpDeviceep_devicesenv.GetEpDevices();std::vectorOrt::ConstEpDeviceselected_devicesselect_ep_devices(ep_devices);Ort::SessionOptions session_options;Ort::KeyValuePairs ep_options;session_options.AppendExecutionProvider_V2(env,selected_devices,ep_options);# 注册所需的各种供应商执行提供程序库ort.register_execution_provider_library(NvTensorRTRTXExecutionProvider,onnxruntime_providers_nv_tensorrt_rtx.dll)# 选项 1: 依赖ONNX Runtime执行策略session_optionsort.SessionOptions()session_options.set_provider_selection_policy(ort.OrtExecutionProviderDevicePolicy.PREFER_GPU)# 选项 2: 遍历EpDevices以执行手动设备选择ep_devicesort.get_ep_devices()ep_deviceselect_ep_devices(ep_devices)provider_options{}sess_options.add_provider_for_devices([ep_device],provider_options)提供快速加载时间的预编译运行时模型运行时现在可以使用ONNX Runtime内的EP上下文ONNX文件进行预编译。每个执行提供程序都可以利用此功能优化ONNX模型的整个子图并提供EP特定的实现。此过程可以序列化到磁盘以便与WindowsML实现快速加载通常这比之前Direct ML中传统的基于算子的方法更快。下图显示TensorRT for RTX EP需要时间进行编译但由于优化已经序列化加载和模型推理速度更快。此外TensorRT for RTX EP内的运行时缓存功能确保编译阶段生成的内核被序列化并存储到目录中这样在后续推理时无需重新编译。通过ONNX Runtime设备API和Windows ML实现最小的数据传输开销新的ONNX Runtime设备API在Windows ML中也可用枚举了每个执行提供程序的可用设备。利用这个新概念开发者现在可以分配设备特定的张量而无需额外的依赖于EP的类型规范。通过利用CopyTensors和IOBinding此API使开发者能够以最小的运行时数据传输开销执行与EP无关的GPU加速推理从而提高性能并实现更清晰的代码设计。图5展示了利用ONNX Runtime设备API的Stable Diffusion 3.5 Medium模型。下面的图4展示了同一模型在扩散循环中单次迭代所需的时间分别在有设备IO绑定和没有设备IO绑定的情况下。使用Nsight系统可以可视化在不使用IO绑定时由于主机和设备之间重复复制而产生的性能开销在每次推理运行之前都会执行输入张量的复制操作在我们的性能分析中以绿色高亮显示而输出的设备到主机复制也大约需要相同的时间。此外ONNX Runtime默认使用可分页内存对于这种内存设备到主机的复制是隐式同步的尽管ONNX Runtime使用了cudaMemCpyAsync API。另一方面当输入和输出张量被IO绑定时输入的主机到设备复制仅在多模型推理流水线开始之前发生一次。输出的设备到主机复制同样如此之后我们再次同步CPU和GPU。上面的异步Nsight跟踪描述了循环中的多次推理运行期间没有任何复制操作或同步操作甚至在此期间释放了CPU资源。这导致设备复制时间为4.2毫秒一次性的主机复制时间为1.3毫秒使得总复制时间仅为5.5毫秒与推理循环中的迭代次数无关。作为参考这种方法使30次迭代循环的复制时间减少了约75倍TensorRT for RTX特定优化TensorRT for RTX执行提供自定义选项以进一步优化性能。最重要的优化如下CUDA图通过设置enable_cuda_graph来启用以捕获TensorRT启动的所有CUDA内核到一个图中从而减少CPU上的启动开销。如果TensorRT图启动许多小内核以致GPU执行这些内核的速度快于CPU提交它们的速度这一点就非常重要。此方法为LLM带来约30%的性能提升并且对许多模型类型包括传统AI模型和CNN架构都有用。运行时缓存nv_runtime_cache_path指向一个目录与使用EP上下文节点结合可以在其中缓存编译好的内核以实现快速加载时间。动态形状通过设置三个选项profile_{min|max|opt]_shapes来覆盖已知的动态形状范围或者通过指定静态形状使用AddFreeDimensionOverrideByName来固定模型的输入形状。目前此功能处于实验模式。总结很高兴与某中心合作为Windows应用程序开发者带来Windows ML和TensorRT for RTX EP以在NVIDIA RTX GPU上实现最大性能。包括Topaz Labs和Wondershare Filmora在内的顶级Windows应用程序开发者目前正在努力将Windows ML和TensorRT for RTX EP集成到他们的应用程序中。通过以下资源开始使用Windows ML、ONNX Runtime API和TensorRT for RTX EPWindows ML文档Windows ML示例ONNX Runtime API示例构建专为ONNX Runtime GenAI和NVIDIA TensorRT for RTX优化的LLM模型ONNX Runtime的API文档TensorRT for RTX EP文档请持续关注未来的改进并通过我们的示例演示的新API加快学习速度。如果您有任何功能请求欢迎在GitHub上提出问题并告知我们致谢感谢Gaurav Garg、Kumar Anshuman、Umang Bhatt和Vishal Agarawal对本博客的贡献。更多精彩内容请关注我的个人公众号公众号办公AI智能小助手或者我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

专业设计企业网站学广告设计去哪个学校好

手机网站建设林肖定制开发app到底要多少钱

学生如何建设网站友情链接在线观看

做创意美食的视频网站有哪些wordpress 数据迁移

烟台城发建设集团网站谢闵行

万网网站发布诸暨北京有哪些网站制作公司

中山专业网站建设公司做微信公众号的网站