专业设计企业网站学广告设计去哪个学校好

张小明 2026/1/2 8:12:21
专业设计企业网站,学广告设计去哪个学校好,微信公众号微网站怎么建设,大型网站建设视频在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型 如今#xff0c;某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件#xff08;从CPU、NPU到GPU#xff09;在本地高效运行AI模型。在NVIDIA RTX GPU上#xff0c;它利用为RTX定制…在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型如今某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件从CPU、NPU到GPU在本地高效运行AI模型。在NVIDIA RTX GPU上它利用为RTX定制的NVIDIA TensorRT执行提供程序并借助GPU的Tensor Core以及FP8和FP4等架构优势为基于Windows的RTX AI PC提供最快的AI推理性能。“Windows ML为GeForce RTX和RTX Pro GPU解锁了完整的TensorRT加速功能在Windows 11上提供了卓越的AI性能”某中心副总裁、杰出工程师Logan Iyer表示。“我们很高兴它今天正式向开发者开放以便大规模构建和部署强大的AI体验。”Windows ML与为RTX优化的TensorRT EP概述Windows ML构建于用于推理的ONNX Runtime API之上。它扩展了ONNX Runtime API以处理PC上跨CPU、NPU和GPU硬件的执行提供程序的动态初始化和依赖管理。此外Windows ML还会根据需要自动下载必要的执行提供程序从而减少了应用开发者跨多个不同硬件供应商管理依赖项和软件包的需求。为RTX优化的NVIDIA TensorRT执行提供程序为使用ONNX Runtime的Windows ML开发者带来了多项优势与之前在NVIDIA RTX GPU上的DirectML实现相比以低延迟推理运行ONNX模型吞吐量提升50%如下图所示。通过其灵活的EP架构以及与ORT的集成直接与WindowsML集成。为最终用户设备上的简化部署提供即时编译。了解更多关于TensorRT for RTX内的编译过程。此编译过程在ONNX Runtime中作为EP上下文模型受支持。利用Tensor Core上的架构进步如FP8和FP4。轻量级软件包仅不到200 MB。支持多种模型架构从LLM通过ONNX Runtime GenAI SDK扩展、扩散模型、CNN等。了解更多关于TensorRT for RTX的信息。选择执行提供程序与WindowsML一同提供的ONNX Runtime 1.23.0版本提供了与供应商和执行提供程序无关的设备选择API。这极大地减少了为每个硬件供应商平台利用最优执行提供程序所需的应用程序逻辑。请参阅以下代码摘录了解如何有效实现此操作并在NVIDIA GPU上获得最佳性能。// 注册所需的各种供应商执行提供程序库autoenvOrt::Env(ORT_LOGGING_LEVEL_WARNING);env.RegisterExecutionProviderLibrary(nv_tensorrt_rtx,Lonnxruntime_providers_nv_tensorrt_rtx.dll);// 选项 1: 依赖ONNX Runtime执行策略Ort::SessionOptions sessions_options;sessions_options.SetEpSelectionPolicy(OrtExecutionProviderDevicePolicy_PREFER_GPU);// 选项 2: 遍历EpDevices以执行手动设备选择std::vectorOrt::ConstEpDeviceep_devicesenv.GetEpDevices();std::vectorOrt::ConstEpDeviceselected_devicesselect_ep_devices(ep_devices);Ort::SessionOptions session_options;Ort::KeyValuePairs ep_options;session_options.AppendExecutionProvider_V2(env,selected_devices,ep_options);# 注册所需的各种供应商执行提供程序库ort.register_execution_provider_library(NvTensorRTRTXExecutionProvider,onnxruntime_providers_nv_tensorrt_rtx.dll)# 选项 1: 依赖ONNX Runtime执行策略session_optionsort.SessionOptions()session_options.set_provider_selection_policy(ort.OrtExecutionProviderDevicePolicy.PREFER_GPU)# 选项 2: 遍历EpDevices以执行手动设备选择ep_devicesort.get_ep_devices()ep_deviceselect_ep_devices(ep_devices)provider_options{}sess_options.add_provider_for_devices([ep_device],provider_options)提供快速加载时间的预编译运行时模型运行时现在可以使用ONNX Runtime内的EP上下文ONNX文件进行预编译。每个执行提供程序都可以利用此功能优化ONNX模型的整个子图并提供EP特定的实现。此过程可以序列化到磁盘以便与WindowsML实现快速加载通常这比之前Direct ML中传统的基于算子的方法更快。下图显示TensorRT for RTX EP需要时间进行编译但由于优化已经序列化加载和模型推理速度更快。此外TensorRT for RTX EP内的运行时缓存功能确保编译阶段生成的内核被序列化并存储到目录中这样在后续推理时无需重新编译。通过ONNX Runtime设备API和Windows ML实现最小的数据传输开销新的ONNX Runtime设备API在Windows ML中也可用枚举了每个执行提供程序的可用设备。利用这个新概念开发者现在可以分配设备特定的张量而无需额外的依赖于EP的类型规范。通过利用CopyTensors和IOBinding此API使开发者能够以最小的运行时数据传输开销执行与EP无关的GPU加速推理从而提高性能并实现更清晰的代码设计。图5展示了利用ONNX Runtime设备API的Stable Diffusion 3.5 Medium模型。下面的图4展示了同一模型在扩散循环中单次迭代所需的时间分别在有设备IO绑定和没有设备IO绑定的情况下。使用Nsight系统可以可视化在不使用IO绑定时由于主机和设备之间重复复制而产生的性能开销在每次推理运行之前都会执行输入张量的复制操作在我们的性能分析中以绿色高亮显示而输出的设备到主机复制也大约需要相同的时间。此外ONNX Runtime默认使用可分页内存对于这种内存设备到主机的复制是隐式同步的尽管ONNX Runtime使用了cudaMemCpyAsync API。另一方面当输入和输出张量被IO绑定时输入的主机到设备复制仅在多模型推理流水线开始之前发生一次。输出的设备到主机复制同样如此之后我们再次同步CPU和GPU。上面的异步Nsight跟踪描述了循环中的多次推理运行期间没有任何复制操作或同步操作甚至在此期间释放了CPU资源。这导致设备复制时间为4.2毫秒一次性的主机复制时间为1.3毫秒使得总复制时间仅为5.5毫秒与推理循环中的迭代次数无关。作为参考这种方法使30次迭代循环的复制时间减少了约75倍TensorRT for RTX特定优化TensorRT for RTX执行提供自定义选项以进一步优化性能。最重要的优化如下CUDA图通过设置enable_cuda_graph来启用以捕获TensorRT启动的所有CUDA内核到一个图中从而减少CPU上的启动开销。如果TensorRT图启动许多小内核以致GPU执行这些内核的速度快于CPU提交它们的速度这一点就非常重要。此方法为LLM带来约30%的性能提升并且对许多模型类型包括传统AI模型和CNN架构都有用。运行时缓存nv_runtime_cache_path指向一个目录与使用EP上下文节点结合可以在其中缓存编译好的内核以实现快速加载时间。动态形状通过设置三个选项profile_{min|max|opt]_shapes来覆盖已知的动态形状范围或者通过指定静态形状使用AddFreeDimensionOverrideByName来固定模型的输入形状。目前此功能处于实验模式。总结很高兴与某中心合作为Windows应用程序开发者带来Windows ML和TensorRT for RTX EP以在NVIDIA RTX GPU上实现最大性能。包括Topaz Labs和Wondershare Filmora在内的顶级Windows应用程序开发者目前正在努力将Windows ML和TensorRT for RTX EP集成到他们的应用程序中。通过以下资源开始使用Windows ML、ONNX Runtime API和TensorRT for RTX EPWindows ML文档Windows ML示例ONNX Runtime API示例构建专为ONNX Runtime GenAI和NVIDIA TensorRT for RTX优化的LLM模型ONNX Runtime的API文档TensorRT for RTX EP文档请持续关注未来的改进并通过我们的示例演示的新API加快学习速度。如果您有任何功能请求欢迎在GitHub上提出问题并告知我们致谢感谢Gaurav Garg、Kumar Anshuman、Umang Bhatt和Vishal Agarawal对本博客的贡献。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

手机网站建设林肖定制开发app到底要多少钱

因子归因:量化策略的风险诊断与收益解码 【免费下载链接】gs-quant 用于量化金融的Python工具包。 项目地址: https://gitcode.com/GitHub_Trending/gs/gs-quant 你的量化策略是否隐藏着未知的风险敞口?那些看似优秀的超额收益背后,究…

张小明 2025/12/31 5:26:42 网站建设

学生如何建设网站友情链接在线观看

第一章:Open-AutoGLM长按识别技术的演进与定位Open-AutoGLM长按识别技术是面向多模态内容理解的一项前沿创新,旨在通过长按交互触发智能语义解析,实现图像、文本乃至混合媒介的即时认知响应。该技术融合了视觉定位、手势识别与大语言模型的上…

张小明 2025/12/30 6:03:44 网站建设

做创意美食的视频网站有哪些wordpress 数据迁移

核心概述 【免费下载链接】BFS-Prover-V2-32B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/BFS-Prover-V2-32B 字节跳动Seed团队最新发布的BFS-Prover-V2-32B,是一款基于Qwen2.5-32B大模型架构开发的Lean4战术生成器。该模型创新性地融合了…

张小明 2025/12/30 1:38:45 网站建设

烟台城发建设集团网站谢闵行

LangFlow版本更新日志解读:新功能亮点汇总 在AI应用开发的战场上,时间就是创新的生命线。当一个团队还在为调试LangChain的链式调用焦头烂额时,另一支队伍可能已经通过拖拽几个节点,几分钟内跑通了完整的RAG流程——这种效率差距…

张小明 2025/12/31 17:42:52 网站建设

万网网站发布诸暨北京有哪些网站制作公司

引言:当 Agent 都“逻辑正确”,系统却开始随机出错在单 Agent 世界里,失败通常是:推理错了计划不合理工具用错了错误是“局部可解释的”。但当你引入多个 Agent 后,你会看到一种非常诡异的现象:单独看每个 …

张小明 2025/12/29 17:15:52 网站建设

中山专业网站建设公司做微信公众号的网站

基于注意力的多尺度卷积神经网络轴承故障诊断 针对传统方法在噪声环境下诊断精度低的问题,提出了一种多尺度卷积神经网络的滚动轴承故障诊断方法 首先,构建多尺度卷积提取不同尺度的故障特征,同时引入通道注意力自适应地选择包含故障特征的通…

张小明 2026/1/1 13:36:30 网站建设