作者:简水虹发布时间:2026-06-15 13:56:53 点击数:62972

今日官方渠道披露行业动态洪涛回应歌手淘汰庾澄庆 很高兴为您解答这个问题,让我来帮您详细说明一下。品牌授权报修电话,快速上门服务

山西省吕梁市岚县四川省成都市新都区井陉县测鱼镇银川市贺兰县山东省德州市齐河县青海省海南藏族自治州贵德县云南省西双版纳傣族自治州勐腊县黑龙江省伊春市金林区青海省海西蒙古族藏族自治州德令哈市陕西省咸阳市兴平市丰台区长辛店镇蚌埠市蚌山区宝坻区牛家牌镇青海省玉树藏族自治州治多县云南省大理白族自治州云龙县江西省鹰潭市余江区辽宁省铁岭市开原市昌平区延寿镇福建省莆田市城厢区焦作市中站区山西省运城市夏县丰台区长辛店镇青海省海北藏族自治州门源回族自治县四川省凉山彝族自治州昭觉县西青区精武镇四川省乐山市许昌市建安区江苏省徐州市丰县山东省泰安市泰山区井陉县吴家窑乡江西省鹰潭市余江区广东省珠海市斗门区青秀区朝阳区双井街道陕西省宝鸡市眉县云南省玉溪市新平彝族傣族自治县淮南市大通区山东省青岛市城阳区贵州省黔东南苗族侗族自治州天柱县四川省凉山彝族自治州甘洛县云南省西双版纳傣族自治州勐腊县和平区南市街道隆安县怀柔区宝山镇江西省宜春市宜丰县云南省玉溪市新平彝族傣族自治县甘肃省庆阳市镇原县山东省滨州市山西省阳泉市平定县蚌埠市龙子湖区重庆市市辖区北碚区山东省青岛市城阳区海南省海口市美兰区山西省晋城市高平市山西省晋城市高平市江西省吉安市吉安县行唐县龙州镇福建省福州市罗源县甘肃省庆阳市镇原县塔城地区和布克赛尔蒙古自治县江西省吉安市吉安县平山县岗南镇四川省凉山彝族自治州西昌市甘肃省庆阳市镇原县山西省朔州市山阴县山东省青岛市城阳区四川省遂宁市蓬溪县海淀区青龙桥街道四川省乐山市江西省萍乡市上栗县贵州省黔南布依族苗族自治州惠水县四川省宜宾市珙县山东省聊城市茌平区青海省果洛藏族自治州静海区西翟庄镇黑龙江省大兴安岭地区呼玛县芜湖市南陵县陕西省汉中市西乡县山西省朔州市山阴县钦州市银川市贺兰县怀柔区宝山镇云南省文山壮族苗族自治州广南县山西省阳泉市平定县山西省晋中市榆社县桂林市秀峰区巴音郭楞蒙古自治州和硕县博尔塔拉蒙古自治州温泉县海南省海口市美兰区赞皇县西龙门乡山东省淄博市临淄区福建省南平市建瓯市亳州市利辛县桂林市兴安县四川省甘孜藏族自治州九龙县甘肃省陇南市武都区密云区河南寨镇云南省普洱市景东彝族自治县丰台区和义街道赞皇县院头镇

今日研究机构公开最新行业进展还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速,很高兴为您解答这个问题,让我来帮您详细说明一下:官方服务专线,支持多品牌报修

黑龙江省伊春市金林区宝坻区牛家牌镇淮南市大通区合肥市庐阳区桂林市秀峰区山东省青岛市城阳区蓟州区东二营镇山西省忻州市定襄县蚌埠市龙子湖区辽宁省大连市旅顺口区四川省遂宁市蓬溪县广东省佛山市三水区山东省威海市四川省广元市云南省文山壮族苗族自治州广南县密云区不老屯镇密云区不老屯镇黑龙江省七台河市桃山区密云区不老屯镇湖北省宜昌市夷陵区云南省普洱市景东彝族自治县江苏省南京市浦口区崇左市四川省甘孜藏族自治州丹巴县青海省海南藏族自治州贵德县黑龙江省七台河市桃山区云南省红河哈尼族彝族自治州绿春县辽宁省铁岭市开原市甘肃省天水市秦州区西藏山南市贡嘎县内蒙古乌海市乌达区广东省佛山市三水区北辰区广东省汕头市龙湖区山西省阳泉市平定县四川省甘孜藏族自治州泸定县丰台区和义街道顺义区空港街道山西省晋中市灵石县北辰区广源街道广东省汕头市龙湖区博尔塔拉蒙古自治州温泉县陕西省宝鸡市千阳县四川省乐山市河西区桃园街道四川省成都市双流区青海省海南藏族自治州贵德县四川省甘孜藏族自治州九龙县山东省滨州市西藏拉萨市达孜区福建省莆田市城厢区重庆市县巫山县山西省晋城市泽州县西藏拉萨市达孜区黑龙江省大兴安岭地区呼玛县广东省惠州市龙门县亳州市利辛县西藏山南市贡嘎县昌平区延寿镇山东省烟台市牟平区山东省淄博市临淄区青海省海西蒙古族藏族自治州德令哈市四川省凉山彝族自治州西昌市密云区高岭镇山东省德州市齐河县静海区西翟庄镇江西省吉安市吉安县辽宁省本溪市溪湖区黑龙江省鹤岗市西青区精武镇贵州省六盘水市水城县西藏阿里地区日土县昌平区阳坊镇云南省红河哈尼族彝族自治州绿春县百色市靖西市南开区长虹街道湖北省宜昌市宜都市江西省宜春市宜丰县甘肃省白银市景泰县防城港市东兴市黑龙江省鹤岗市江西省吉安市吉安县山西省临汾市安泽县钦州市山东省烟台市牟平区四川省成都市新都区乌鲁木齐市沙依巴克区桥西区苑东街道怀柔区宝山镇西青区精武镇山西省临汾市安泽县蓟州区官庄镇桥西区留营街道静海区大邱庄镇甘肃省兰州市元氏县云南省红河哈尼族彝族自治州泸西县江苏省南京市浦口区辽宁省辽阳市白塔区湖北省宜昌市秭归县

全球服务区域:山东省聊城市冠县昌平区小汤山镇河西区桃园街道四川省广元市黑龙江省佳木斯市汤原县湖北省宜昌市夷陵区淮南市大通区江苏省连云港市赣榆区山西省吕梁市中阳县江西省鹰潭市余江区四川省甘孜藏族自治州丹巴县塔城地区和布克赛尔蒙古自治县陕西省商洛市山阳县蓟州区东二营镇元氏县苏村乡四川省甘孜藏族自治州泸定县湖北省宜昌市秭归县江西省吉安市吉安县山东省东营市垦利区辽宁省沈阳市浑南区百色市田林县福建省南平市内蒙古锡林郭勒盟镶黄旗四川省乐山市甘肃省天水市秦州区福建省厦门市湖里区静海区西翟庄镇山西省运城市夏县山西省阳泉市平定县四川省甘孜藏族自治州泸定县朝阳区管庄地区朝阳区双井街道江苏省连云港市赣榆区长安区南村镇西藏阿里地区日土县河东区大直沽街道辽宁省沈阳市湖北省宜昌市宜都市山东省东营市垦利区平顶山市卫东区静海区大邱庄镇贵州省黔东南苗族侗族自治州天柱县鹿泉区白鹿泉乡甘肃省定西市渭源县甘肃省陇南市鹿泉区寺家庄镇朝阳区小红门地区陕西省西安市未央区四川省遂宁市蓬溪县陕西省西安市未央区福建省厦门市海沧区赞皇县院头镇内蒙古锡林郭勒盟正镶白旗朝阳区小红门地区桥西区东华街道辽宁省朝阳市北票市辽宁省沈阳市沈河区丰台区宛平城地区贵州省黔南布依族苗族自治州惠水县内蒙古锡林郭勒盟正镶白旗南开区长虹街道江苏省南通市启东市辽宁省辽阳市白塔区云南省西双版纳傣族自治州勐腊县山东省聊城市茌平区蓟州区东赵各庄镇云南省玉溪市新平彝族傣族自治县甘肃省甘南藏族自治州南开区体育中心街道南开区体育中心街道青海省海北藏族自治州门源回族自治县广东省汕头市南澳县蚌埠市蚌山区焦作市河东区大直沽街道内蒙古锡林郭勒盟正镶白旗山东省烟台市龙口市洛阳市汝阳县赞皇县院头镇江西省九江市武宁县南阳市内乡县怀柔区宝山镇塔城地区和布克赛尔蒙古自治县西城区月坛街道福建省南平市建瓯市辽宁省铁岭市开原市甘肃省定西市渭源县内蒙古鄂尔多斯市鄂托克旗江苏省苏州市相城区山东省潍坊市青州市广东省汕头市南澳县密云区古北口镇云南省玉溪市新平彝族傣族自治县无极县大陈镇蚌埠市蚌山区湖北省宜昌市夷陵区山西省吕梁市岚县山西省运城市夏县阿克苏地区新和县甘肃省甘南藏族自治州

今日官方渠道传达最新成果还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速,很高兴为您解答这个问题,让我来帮您详细说明一下:售后服务维修中心电话,支持多渠道服务

全国服务区域:塔城地区和布克赛尔蒙古自治县四川省宜宾市江安县福建省福州市永泰县山西省晋城市泽州县蚌埠市龙子湖区蚌埠市蚌山区防城港市东兴市长安区广安街道桂林市兴安县蚌埠市龙子湖区山西省运城市夏县广东省江门市防城港市东兴市西藏拉萨市达孜区静海区大邱庄镇密云区古北口镇南开区体育中心街道辽宁省沈阳市辽宁省沈阳市浑南区河西区桃园街道广东省汕头市南澳县江苏省南通市启东市河西区桃园街道甘肃省定西市渭源县山西省长治市襄垣县江西省景德镇市昌江区江西省宜春市宜丰县黑龙江省哈尔滨市巴彦县黑龙江省哈尔滨市巴彦县内蒙古锡林郭勒盟镶黄旗山西省朔州市山阴县元氏县苏村乡黑龙江省绥化市明水县门头沟区大峪街道塔城地区和布克赛尔蒙古自治县湖北省宜昌市西陵区湖北省宜昌市秭归县南开区长虹街道芜湖市南陵县山西省忻州市定襄县陕西省宝鸡市千阳县平山县宅北乡赞皇县院头镇山西省长治市襄垣县湖北省孝感市汉川市山西省晋城市泽州县江苏省徐州市北辰区山西省忻州市宁武县西乡塘区百色市靖西市青海省玉树藏族自治州治多县陕西省汉中市西乡县银川市贺兰县黑龙江省七台河市桃山区湖北省恩施土家族苗族自治州恩施市山西省吕梁市岚县巴音郭楞蒙古自治州和硕县内蒙古锡林郭勒盟镶黄旗江西省宜春市宜丰县湖北省襄阳市襄州区广东省珠海市斗门区蚌埠市龙子湖区甘肃省定西市渭源县内蒙古锡林郭勒盟正镶白旗重庆市市辖区北碚区黑龙江省佳木斯市汤原县四川省宜宾市翠屏区西青区精武镇内蒙古兴安盟乌兰浩特市濮阳市南乐县辽宁省大连市旅顺口区防城港市东兴市开封市通许县山西省吕梁市中阳县四川省乐山市桥西区东华街道无极县大陈镇鹿泉区白鹿泉乡百色市田林县四川省甘孜藏族自治州丹巴县防城港市东兴市内蒙古呼伦贝尔市阿荣旗四川省宜宾市珙县桥西区留营街道西藏山南市无极县大陈镇塔城地区和布克赛尔蒙古自治县陕西省汉中市留坝县山东省泰安市东平县密云区古北口镇甘肃省陇南市武都区蓟州区东施古镇内蒙古兴安盟乌兰浩特市广东省惠州市龙门县赞皇县西龙门乡平顶山市湛河区山东省德州市齐河县辽宁省锦州市义县广东省佛山市三水区

售后服务上门服务电话,智能分配单据:还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

机器之心编辑部

5 月 22 日,Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道:「经过一些数学重写,结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue(矩阵乘法加尾声)。给定一些优化的原语,LLM(以及新手)就可以为所有 Transformer 操作编写光速内核!」

Tri Dao 是 FlashAttention 系列的核心作者之一,而这条推文则指向了他们当天发布的一篇论文:CODA

论文标题:CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs论文地址:https://arxiv.org/abs/2605.19269代码地址:https://github.com/HanGuo97/coda-kernels

这个名字,读起来像「终曲」,念起来像「CUDA」。来自 MIT、普林斯顿、Together AI 和 Meta 的研究者,试图用一套新的编程抽象,把 Transformer 训练里那些鲜少被人关注、却持续消耗时间的「散碎计算」,系统性地消化掉。

背景:训练大模型的「偷懒税」

要理解 CODA 在解决什么问题,先要明白大模型训练的时间都去哪了。

在一块英伟达 H100 上训练一个 LLaMA-3 风格的 1B 参数模型,大部分人会直觉地认为:时间都花在矩阵乘法和注意力计算上,毕竟那才是「真正的计算」。这个直觉大体上没错:矩阵乘法(GEMM)和注意力确实占据了主要算力

但如果你打开性能分析器仔细看,会发现还有一批「小算子」在安静地消耗着时间:归一化(RMSNorm)、激活函数(SwiGLU、RoPE)、残差加法、跨层规约……它们单个计算量不大,却频繁地把大型中间张量从显存里搬进搬出。

这就是所谓的「内存带宽瓶颈」:好比一个厨艺绝顶的厨师,但每做一道菜都要把食材从远处的仓库搬来、用完再送回去,而不是放在手边的台面上。厨师的手速再快,等待搬运的时间也是真实的浪费。

更糟糕的是,随着英伟达的 FP8、FP4 等低精度格式让矩阵计算越来越快,这些「搬运」操作的相对成本反而在上升:矩阵乘法加速了,但张量搬进搬出的成本并没有同比缩短。

论文中有一组数据很直观:在 H100 上用 TorchTitan 训练 1B 参数模型时,非矩阵乘法操作占据了相当一部分的端到端运行时间,且随着 FP8 精度的引入,这一比例还会进一步凸显。

现有的编程框架对此几乎无能为力。PyTorch 把 Transformer 的计算表达成一串算子序列,算子之间有清晰的边界。这种边界对于自动微分(autograd)非常友好,却恰好阻止了跨算子的融合优化:每一个算子边界,往往就是一次不必要的显存写回。

CODA:「尾声」里藏着宝藏

CODA 的出发点是一个朴素的观察。

在 GPU 上,一个高性能的矩阵乘法(GEMM)内核在结构上分为两个部分:主循环(mainloop)负责核心的矩阵分块乘加计算,尾声(epilogue)负责在结果写回显存之前做一些收尾处理,比如加偏置、类型转换、简单缩放。

尾声存在的意义,在于此时矩阵乘法的输出还「活在」片上寄存器里,还没有落地到全局显存。这是一个短暂的黄金窗口:如果能在这个时刻多做一些计算,就可以完全省掉一次显存写入再读出的往返。

CODA 的核心洞察是:Transformer 里那些内存密集型操作,其实很多可以被代数地重新参数化,塞进这个「尾声」窗口里执行。

这需要一点数学技巧。以最常见的 GEMM-RMSNorm-GEMM 模式为例:一个矩阵乘法的结果,经过残差加法、RMS 归一化,然后再做另一个矩阵乘法。传统做法是三个独立算子串行执行,中间结果两次落地显存。

CODA 团队发现,RMS 归一化中的行缩放因子 r,因为是每行共享的标量,它和后面的矩阵乘法满足交换律:可以把 r 的应用从「第二个 GEMM 之前」推迟到「第二个 GEMM 的尾声」。推迟之后,第一个 GEMM 的尾声只需要计算局部的「分块均方根」(partial RMS),由一个极轻量的辅助规约内核合并,而完整的 RMSNorm 计算消失了。

类似的重新参数化,对 SwiGLU、RoPE(旋转位置编码)、交叉熵损失等操作同样适用,甚至对反向传播也成立。论文中有一个定理证明:只要前向尾声是「分块局部」的,反向传播就自动继承相同的结构。具体请访问原论文查看。

五种「积木」和一套「乐高语言」

CODA 不是一个具体的融合内核,而是一套编程抽象。

它固定住经过专家优化的 GEMM 主循环,然后在尾声位置暴露五类可组合的基本原语:

逐元素变换(residual 加法、激活函数、RoPE)向量加载与存储(广播 RMSNorm 权重)矩阵分块加载与存储(保存中间激活供反向传播使用)分块规约(局部均方根、分块 log-sum-exp)有状态变换(在线归一化所需的 max 和 sum-exp 统计)

用这五类积木,一个标准 Transformer 的前向和反向传播中、除注意力之外的几乎全部操作都可以被覆盖。

更有意思的是这套抽象对「谁来写代码」的宽容度。论文在实验中评估了两种实现模式:一种是人工程序员撰写,另一种是用 Claude Code 来生成 —— 给定 CODA 的原语说明、若干示例和实现日志,由 AI 完成大部分内核代码,人工轻度监督。

两种模式的性能表现均达到了较高水平。Tri Dao 在推文中说「LLM 以及新手就可以编写光速内核」,这正是论文实验结果在现实层面的映射。

实验结果

CODA 的基准测试选择的是较为苛刻的对手:cuBLAS 加上 torch.compile,以及专为 LLM 优化的 Liger Kernel 和 FlashInfer。

论文对每个内核评估了两种实现:CODA (LLM)由 Claude Code 生成,研究者提供原语说明、若干示例和一份持续更新的实现技巧日志,AI 完成主体代码,人工做轻度监督;CODA (Human)由人工程序员独立编写,使用同样的高层重参数化思路,但不依赖 CODA 原语集本身。两组结果都与 cuBLAS + torch.compile、Liger Kernel、FlashInfer 等优化库进行对比。

在单算子层面,以 GEMM-RMSNorm-GEMM 这一典型模式为例,CODA 在对应 1B、7B、70B 三个模型规模的隐藏维度下均实现了对 cuBLAS + PyTorch 基线的超越。SwiGLU、RoPE、交叉熵等尾声组合也有类似表现。

LLM 生成的内核在大多数基准上与人工手写版本不相上下,个别配置下甚至略有超越。这在 GPU 内核优化这个历来门槛极高的领域,是一个颇为罕见的结论。

反向传播的收益尤为突出:GEMM-Residual-PartialRMS-GEMM 的反向内核相比基线加速幅度可达 1.6 至 1.8 倍,SwiGLU 反向也有约 1.4 至 1.6 倍的提升。这个方向上,LLM 与人工实现的差距同样微小。这并不奇怪:反向传播天然涉及更多中间张量的存取,尾声融合的收益就更大;而 CODA 的原语设计足够清晰,使得 AI 模型能够正确地完成组合。

在完整 Transformer 层的端到端基准中,CODA 的前向加速在不同规模下约为 5% 至 20%,在较大模型尺寸(对应 70B 规模的隐藏维度)下效果更为显著。

数值精度方面,CODA 的重参数化调整了 RMSNorm 缩放因子的应用时机,但实验表明其数值误差与 PyTorch 参考实现相当,在某些配置下误差甚至更小 —— 得益于 GEMM 主循环本身具有更高精度的累加器。

CODA 能做什么:一张速查单

在进入更大的视角之前,先把 CODA 的能力边界说清楚。

覆盖范围:标准 Transformer(如 LLaMA 架构)的前向和反向传播中,除注意力和词嵌入之外的几乎全部计算,包括 RMSNorm、残差加法、SwiGLU 激活、RoPE 旋转位置编码、交叉熵损失,以及上述操作的反向梯度计算。加速效果:在对应 1B 至 70B 规模的隐藏维度下,单算子层面相比 cuBLAS + torch.compile 基线有不同程度的提升,其中反向传播收益最为显著(部分内核可达 1.6 倍以上);完整 Transformer 层的端到端前向加速约为 5% 至 20%,在较大模型尺寸下效果更突出。谁能用:CODA 基于 CuTeDSL(NVIDIA CUTLASS 的 Python DSL)实现,支持人工程序员和 AI 模型两种内核编写方式,且两种方式均能达到高性能。当前限制:目前仅支持单 GPU 场景,不涉及分布式训练;重参数化主要针对标准 Transformer 架构,其他架构的适用性有待验证。

CODA 并非孤立的工作。它是一类思想的具体实现:在 GPU 上,真正的优化空间往往不在「算什么」,而在「怎么搬」。

FlashAttention 让注意力计算「住进」了片上内存,CODA 试图让归一化和激活函数也「住进去」。Triton 降低了写自定义内核的门槛,ThunderKittens、TileLang 等进一步在不同层次上探索这一空间。这些工作共同指向同一个方向:把 PyTorch 算子图的表达便利性,与接近手写 CUDA 的执行效率,真正统一在一套可编程的框架里。

Tri Dao 推文的最后一句话值得再回味:「LLM 以及新手就可以为所有 Transformer 操作编写光速内核。」这背后有一个更深的逻辑:当编程抽象设计得足够好,AI 模型本身就可以参与到自身训练基础设施的优化中。这个循环,才是 CODA 最耐人寻味的地方。

从这个角度看,「CODA」这个名字或许另有深意。在古典音乐中,Coda 是乐曲末尾收束全篇的段落。在这里,它是 GEMM 内核的「尾声」—— 而写好这段尾声,或许正是 Transformer 训练系统效率提升的下一个重要章节。

今日行业报告发布行业新变化还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速

机器之心编辑部

5 月 22 日,Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道:「经过一些数学重写,结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue(矩阵乘法加尾声)。给定一些优化的原语,LLM(以及新手)就可以为所有 Transformer 操作编写光速内核!」

Tri Dao 是 FlashAttention 系列的核心作者之一,而这条推文则指向了他们当天发布的一篇论文:CODA

论文标题:CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs论文地址:https://arxiv.org/abs/2605.19269代码地址:https://github.com/HanGuo97/coda-kernels

这个名字,读起来像「终曲」,念起来像「CUDA」。来自 MIT、普林斯顿、Together AI 和 Meta 的研究者,试图用一套新的编程抽象,把 Transformer 训练里那些鲜少被人关注、却持续消耗时间的「散碎计算」,系统性地消化掉。

背景:训练大模型的「偷懒税」

要理解 CODA 在解决什么问题,先要明白大模型训练的时间都去哪了。

在一块英伟达 H100 上训练一个 LLaMA-3 风格的 1B 参数模型,大部分人会直觉地认为:时间都花在矩阵乘法和注意力计算上,毕竟那才是「真正的计算」。这个直觉大体上没错:矩阵乘法(GEMM)和注意力确实占据了主要算力

但如果你打开性能分析器仔细看,会发现还有一批「小算子」在安静地消耗着时间:归一化(RMSNorm)、激活函数(SwiGLU、RoPE)、残差加法、跨层规约……它们单个计算量不大,却频繁地把大型中间张量从显存里搬进搬出。

这就是所谓的「内存带宽瓶颈」:好比一个厨艺绝顶的厨师,但每做一道菜都要把食材从远处的仓库搬来、用完再送回去,而不是放在手边的台面上。厨师的手速再快,等待搬运的时间也是真实的浪费。

更糟糕的是,随着英伟达的 FP8、FP4 等低精度格式让矩阵计算越来越快,这些「搬运」操作的相对成本反而在上升:矩阵乘法加速了,但张量搬进搬出的成本并没有同比缩短。

论文中有一组数据很直观:在 H100 上用 TorchTitan 训练 1B 参数模型时,非矩阵乘法操作占据了相当一部分的端到端运行时间,且随着 FP8 精度的引入,这一比例还会进一步凸显。

现有的编程框架对此几乎无能为力。PyTorch 把 Transformer 的计算表达成一串算子序列,算子之间有清晰的边界。这种边界对于自动微分(autograd)非常友好,却恰好阻止了跨算子的融合优化:每一个算子边界,往往就是一次不必要的显存写回。

CODA:「尾声」里藏着宝藏

CODA 的出发点是一个朴素的观察。

在 GPU 上,一个高性能的矩阵乘法(GEMM)内核在结构上分为两个部分:主循环(mainloop)负责核心的矩阵分块乘加计算,尾声(epilogue)负责在结果写回显存之前做一些收尾处理,比如加偏置、类型转换、简单缩放。

尾声存在的意义,在于此时矩阵乘法的输出还「活在」片上寄存器里,还没有落地到全局显存。这是一个短暂的黄金窗口:如果能在这个时刻多做一些计算,就可以完全省掉一次显存写入再读出的往返。

CODA 的核心洞察是:Transformer 里那些内存密集型操作,其实很多可以被代数地重新参数化,塞进这个「尾声」窗口里执行。

这需要一点数学技巧。以最常见的 GEMM-RMSNorm-GEMM 模式为例:一个矩阵乘法的结果,经过残差加法、RMS 归一化,然后再做另一个矩阵乘法。传统做法是三个独立算子串行执行,中间结果两次落地显存。

CODA 团队发现,RMS 归一化中的行缩放因子 r,因为是每行共享的标量,它和后面的矩阵乘法满足交换律:可以把 r 的应用从「第二个 GEMM 之前」推迟到「第二个 GEMM 的尾声」。推迟之后,第一个 GEMM 的尾声只需要计算局部的「分块均方根」(partial RMS),由一个极轻量的辅助规约内核合并,而完整的 RMSNorm 计算消失了。

类似的重新参数化,对 SwiGLU、RoPE(旋转位置编码)、交叉熵损失等操作同样适用,甚至对反向传播也成立。论文中有一个定理证明:只要前向尾声是「分块局部」的,反向传播就自动继承相同的结构。具体请访问原论文查看。

五种「积木」和一套「乐高语言」

CODA 不是一个具体的融合内核,而是一套编程抽象。

它固定住经过专家优化的 GEMM 主循环,然后在尾声位置暴露五类可组合的基本原语:

逐元素变换(residual 加法、激活函数、RoPE)向量加载与存储(广播 RMSNorm 权重)矩阵分块加载与存储(保存中间激活供反向传播使用)分块规约(局部均方根、分块 log-sum-exp)有状态变换(在线归一化所需的 max 和 sum-exp 统计)

用这五类积木,一个标准 Transformer 的前向和反向传播中、除注意力之外的几乎全部操作都可以被覆盖。

更有意思的是这套抽象对「谁来写代码」的宽容度。论文在实验中评估了两种实现模式:一种是人工程序员撰写,另一种是用 Claude Code 来生成 —— 给定 CODA 的原语说明、若干示例和实现日志,由 AI 完成大部分内核代码,人工轻度监督。

两种模式的性能表现均达到了较高水平。Tri Dao 在推文中说「LLM 以及新手就可以编写光速内核」,这正是论文实验结果在现实层面的映射。

实验结果

CODA 的基准测试选择的是较为苛刻的对手:cuBLAS 加上 torch.compile,以及专为 LLM 优化的 Liger Kernel 和 FlashInfer。

论文对每个内核评估了两种实现:CODA (LLM)由 Claude Code 生成,研究者提供原语说明、若干示例和一份持续更新的实现技巧日志,AI 完成主体代码,人工做轻度监督;CODA (Human)由人工程序员独立编写,使用同样的高层重参数化思路,但不依赖 CODA 原语集本身。两组结果都与 cuBLAS + torch.compile、Liger Kernel、FlashInfer 等优化库进行对比。

在单算子层面,以 GEMM-RMSNorm-GEMM 这一典型模式为例,CODA 在对应 1B、7B、70B 三个模型规模的隐藏维度下均实现了对 cuBLAS + PyTorch 基线的超越。SwiGLU、RoPE、交叉熵等尾声组合也有类似表现。

LLM 生成的内核在大多数基准上与人工手写版本不相上下,个别配置下甚至略有超越。这在 GPU 内核优化这个历来门槛极高的领域,是一个颇为罕见的结论。

反向传播的收益尤为突出:GEMM-Residual-PartialRMS-GEMM 的反向内核相比基线加速幅度可达 1.6 至 1.8 倍,SwiGLU 反向也有约 1.4 至 1.6 倍的提升。这个方向上,LLM 与人工实现的差距同样微小。这并不奇怪:反向传播天然涉及更多中间张量的存取,尾声融合的收益就更大;而 CODA 的原语设计足够清晰,使得 AI 模型能够正确地完成组合。

在完整 Transformer 层的端到端基准中,CODA 的前向加速在不同规模下约为 5% 至 20%,在较大模型尺寸(对应 70B 规模的隐藏维度)下效果更为显著。

数值精度方面,CODA 的重参数化调整了 RMSNorm 缩放因子的应用时机,但实验表明其数值误差与 PyTorch 参考实现相当,在某些配置下误差甚至更小 —— 得益于 GEMM 主循环本身具有更高精度的累加器。

CODA 能做什么:一张速查单

在进入更大的视角之前,先把 CODA 的能力边界说清楚。

覆盖范围:标准 Transformer(如 LLaMA 架构)的前向和反向传播中,除注意力和词嵌入之外的几乎全部计算,包括 RMSNorm、残差加法、SwiGLU 激活、RoPE 旋转位置编码、交叉熵损失,以及上述操作的反向梯度计算。加速效果:在对应 1B 至 70B 规模的隐藏维度下,单算子层面相比 cuBLAS + torch.compile 基线有不同程度的提升,其中反向传播收益最为显著(部分内核可达 1.6 倍以上);完整 Transformer 层的端到端前向加速约为 5% 至 20%,在较大模型尺寸下效果更突出。谁能用:CODA 基于 CuTeDSL(NVIDIA CUTLASS 的 Python DSL)实现,支持人工程序员和 AI 模型两种内核编写方式,且两种方式均能达到高性能。当前限制:目前仅支持单 GPU 场景,不涉及分布式训练;重参数化主要针对标准 Transformer 架构,其他架构的适用性有待验证。

CODA 并非孤立的工作。它是一类思想的具体实现:在 GPU 上,真正的优化空间往往不在「算什么」,而在「怎么搬」。

FlashAttention 让注意力计算「住进」了片上内存,CODA 试图让归一化和激活函数也「住进去」。Triton 降低了写自定义内核的门槛,ThunderKittens、TileLang 等进一步在不同层次上探索这一空间。这些工作共同指向同一个方向:把 PyTorch 算子图的表达便利性,与接近手写 CUDA 的执行效率,真正统一在一套可编程的框架里。

Tri Dao 推文的最后一句话值得再回味:「LLM 以及新手就可以为所有 Transformer 操作编写光速内核。」这背后有一个更深的逻辑:当编程抽象设计得足够好,AI 模型本身就可以参与到自身训练基础设施的优化中。这个循环,才是 CODA 最耐人寻味的地方。

从这个角度看,「CODA」这个名字或许另有深意。在古典音乐中,Coda 是乐曲末尾收束全篇的段落。在这里,它是 GEMM 内核的「尾声」—— 而写好这段尾声,或许正是 Transformer 训练系统效率提升的下一个重要章节。


宁波慈溪市公安机关工作发现,2025年4月至8月,犯罪嫌疑人张某伙同赵某等人,以高薪招聘吸引日结兼职人员入职私人工作室,并以兼职登记为由让日结兼职人员提供身份证、人脸等信息配合工作,在对方不知情的情况下开通实名手机号、虚拟号,并实名注册多个社交APP账号,同时设置统一密码后出售给上家用于电信网络诈骗、刷单炒信等黑灰业务,该团伙非法牟取利益合计30余万元,出售手机号、APP账号合计2万余个。
华体汇电竞-华体汇(中国) 华体汇电竞-华体汇(中国)-555com羞羞app-555com羞羞2026最新V.2.76.66-芒果TV

华体汇电竞-华体汇(中国)

洪涛回应歌手淘汰庾澄庆
洪涛回应歌手淘汰庾澄庆

洪涛回应歌手淘汰庾澄庆

百万最新免费软件游戏

下载

洪涛回应歌手淘汰庾澄庆
首页>>孙颖莎王楚钦混双搭档第九年默契拉满
洪涛回应歌手淘汰庾澄庆

华体汇电竞-华体汇(中国):洪涛回应歌手淘汰庾澄庆

华体汇电竞-华体汇(中国):「活动」首次登录送19元红包

80.14MB
版本{版本}
下载APK高速下载
下载再还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速安装你想要的应用 更方便 更快捷 发现更多
喜欢35%好评(27人)
评论61
还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速截图0还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速截图1还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速截图2还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速截图3还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速截图4
详细信息
  • 软件大小:46.55MB
  • 最后更新:2026-06-15 13:56:53
  • 最新版本:{版本}
  • 文件格式:apk
  • 应用分类:ios-Android还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速
  • 使用语言:中文
  • :需要联网
  • 系统要求:8.25以上
应用介绍
?第一步:访问《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》官网?首先,打开您的浏览器,输入《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》。您可以通过搜索引擎搜索或直接输入网址来访问.?
?第二步:点击注册按钮?一旦进入《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站官网,您会在页面上找到一个醒目的注册按钮。点击该按钮,您将被引导至注册页面。??
?第三步:填写注册信息 ?在注册页面上,您需要填写一些必要的个人信息来创建《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站账户。通常包括用户名、密码、电子邮件地址、手机号码等。请务必提供准确完整的信息,以确保顺利完成注册。?
?第四步:验证账户?填写完个人信息后,您可能需要进行账户验证。《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站会向您提供的电子邮件地址或手机号码发送一条验证信息,您需要按照提示进行验证操作。这有助于确保账户的安全性,并防止不法分子滥用您的个人信息。??
?第五步:设置安全选项?《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站通常要求您设置一些安全选项,以增强账户的安全性。例如,可以设置安全问题和答案,启用两步验证等功能。请根据系统的提示设置相关选项,并妥善保管相关信息,确保您的账户安全。?
?第六步:阅读并同意条款?在注册过程中,《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站会提供使用条款和规定供您阅读。这些条款包括平台的使用规范、隐私政策等内容。在注册之前,请仔细阅读并理解这些条款,并确保您同意并愿意遵守。??
?第七步:完成注册?一旦您完成了所有必要的步骤,并同意了《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站的条款,恭喜您!您已经成功注册了《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站账户。现在,您可以畅享《还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速》网站提供的丰富体育赛事、刺激的游戏体验以及其他令人兴奋!??
【联系华体汇(中国)】
客服热线
加载更多
版本更新
{版本}
还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速
  • 主持人熹菲抗癌10年去世 年仅37岁
  • 27岁小伙按摩店正骨,“咔咔”声后胸部以下失去知觉 医生提醒
  • 流动中见活力 开放中显自信(和音)
  • 第二十一届海峡旅游博览会在厦门开幕
  • 国台办回应美对台湾货品加征10%关税
  • 国际友谊赛中国男足2比1胜新加坡队
  • 上海海关创新推出“总单+拼箱”模式 释放中小微企业外贸动能
  • 父亲送孩子进考场后抱妻子掩面哭泣
  • 官媒评小区531户仅25户交物业费
  • (经济观察)以港聚势兴业 重庆九龙坡如何锻造铝产业开放竞争新优势?
  • “恐龙公园:龙口脱险”沉浸展在国家自然博物馆开幕
  • 华裔Z视界|马来西亚华裔青年:“中文”与“中国”从来不是遥远的概念
  • 从5G、5G-A到6G,新一代通信网加速到来
  • 2026天津米其林美食节启幕 民众解锁“星”级滋味

    一案牵天下 新编粤剧《提刑官宋慈》首演

    华体汇电竞-华体汇(中国):五一档票房破6亿!“电影+”激活假日经济新活力

    详情
查看更多
加载中加载中,请稍等...

华体汇电竞-华体汇(中国): 还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速类似软件

  • 日本7-Eleven创始人铃木敏文逝世历史警钟必须长鸣——起底日本在菲律宾的罪行与图谋

    粉丝高铁偶遇“大衣哥” 他坐二等座用老款手机 微笑面对镜头

  • 受降雨影响 未来两天国铁广州局部分列车停运还想用“双标定价”收割中国市场?国际足联该看看这些前车之鉴

    中国最大直径长江隧道掘进抵达江底75米

  • 国足6月5日客战新加坡 双方FIFA排名相差53位中国有望引领全球6G部署

    AI长图:多彩假日游,燃动中国经济新活力

  • 【这个城市有点潮】云南昆明:五月的春城 浪漫“紫”属于你鲁比奥:如果俄乌谈判再无进展 美方不愿再“浪费时间”

    40余款AI大模型集中亮相

  • 多位书记省长会见谢国民 释放重要合作信号中俄元首会晤牵动世界目光

    宁夏银川:田间白菜喜获丰收

  • 韩国“顶流”朴宝剑在上海排队吃的辣椒炒肉,为什么让韩国人“真香”了?澳门特区立法会举办开放日活动 公众近距离了解立法会运作机制

    华北北部东北中南部有雷雨 华南仍有分散性强降水

  • 山西将加快建设黄河中游和华北地区生态屏障新疆乌恰:凌晨突降雨夹雪 民警连夜奋战护平安

    国家网信办发布《中国个人信息保护报告(2025年)》

  • 三百万只萤火虫点亮一座城 浙江丽水莲都的突围路广东海外联谊会访阿代表团举行“侨助经济高质量发展座谈会”

    罗家英发文悼念师兄刘洵

  • 探馆中俄博览会:中国元素焕新 非遗技艺亮眼华侨图书馆西班牙中华书店图书漂流站揭牌落成

    劳动者杯中国职工气排球系列赛开赛

  • 马来西亚重申遵守2026年原油产量目标“人工智能+”走向规模化落地

    深圳“卷尺哥”找茬1000多次之后

  • 全国劳模吴志民:扎根电力三十余载 匠心守护万家灯火广西南宁现假日榴莲采购潮

    贾永婕喊“不当台湾人就离开”被怒怼:台湾是中国的,不当中国人请离开

  • 现象级影视IP《狂飙》首度搬上音乐剧舞台辽宁:创多项“中国第一” 工业机器人如何在高端焊装领域实现国产突围

    阅读推广人:点亮一座城的书香灯火

  • DeepSeek V4最大的遗憾是什么5000余部短剧遭盗版搬运,怎么证明“未经许可”?侵权数量如何认定?

    陆军第九五六医院赴西藏墨脱开展“健康戍边”巡诊活动

  • 向太谈《给阿嬷的情书》北京迎今年首场明显降雨

    2026壹戏剧大赏落幕 《苍穹》斩获年度大戏

  • 特朗普称与伊朗的谈判进展顺利燕子在淋浴喷头上搭窝 房东:先住着

    (文化中国行)内蒙古哈民遗址博物馆数智化展现史前文明

  • 5月13日央行开展5亿元7天期逆回购操作一影带百业!“电影+”激活消费新生态

    《日月潭》牵两岸情 台湾青年踏上寻根之旅

  • 连呈经典剧目 杭州越剧院晋京献演国家大剧院中国足球小将捧起“小世界杯”

    【文脉华章】习言道|一个博物馆就是一所大学校

  • 王楚钦“打哭”小勒布伦近期多地持续降雨 出行如何避免安全隐患

    李志希谈《康熙来了》:经典不会落伍 好的内容会留下来

  • 外媒:伊朗总统下令恢复国际互联网接入启境汽车进一步完善华体汇电竞-华体汇(中国)布局

    《主角》热播带火取景地 西安老厂房变身文旅新地标

  • 印度与中国电网建设差距有多大16位美国商界领袖随特朗普访华

    上海周浦侨联义诊组坚守四十载:医者侨心 薪火相传

  • 对话高之国:实现海洋安全的意义重大 事关强国建设和民族复兴长沙82岁老太独自出国参赛夺季军

    云南多地发布暴雨预警 7州市启动防汛Ⅳ级应急响应

  • 各地深入开展树立和践行正确政绩观学习教育13只机器人主题ETF总规模达574亿元

    直击山西沁源留神峪煤矿瓦斯爆炸事故救援现场

  • 述评:透过浙江红色根脉档案珍品 华体汇(中国)看到了什么?数字经济专题展区惊艳亮相第35届“哈洽会”

    以刀刻雅韵 非遗紫砂雕刻展在沪开幕

  • 以刀刻雅韵 非遗紫砂雕刻展在沪开幕义乌式发展的开放样本

    巴西队被吐槽已成一人球队

  • 火箭军10套发射架震撼起竖这群年轻人,出手即“王炸”

    中国驻菲大使:中国人不是好欺负的

  • 知情人士:伊朗将按自身立场修订伊美协议草案陆军:教练射击 两栖装甲射手快速适应大海

    追觅请5万员工带薪玩迪士尼

  • 日本民众集会抗议高市政府扩军修宪危险动向推动中朝关系与时俱进取得更大发展(和音)

    Color Walk走红,年轻人的“色彩情绪”各城怎么接

  • “新时代中国青少年合唱曲创作与表演人才培养”项目在京启动今年假期比去年多5天

    无限流短剧《Enemy》爆火

  • 一习话·人民之心丨“先做学生,吃透情况” 习近平的调研之道顺丰速运站点标语被指冒犯毕业生

    全球侨界青年成都共话“一带一路”创新创业新机遇

  • 把文旅体商“流量”变为发展“留量”马刺首节8记三分打懵雷霆

    荷兰新增一例汉坦病毒感染病例

  • 向太谈《给阿嬷的情书》孙颖莎空降深圳大学

    算法“养猪”、数据“种地”,AI智能体如何重塑现代农业格局?

  • “全球治理之友小组”会议联合公报日本民众抗议政府修宪扩军 反对解禁杀伤性武器出口

    斑块逆转并非梦 中国原创疗法或改变心血管疾病治疗策略

  • 全链发力 养老服务机器人满足多元需求【理响中国·作品选登】新时代的中国外交

    今年高考命题有何特点

  • 体育+健康+公益 健康科普主题“医超”在上海“开战”小小冰箱贴,撬动大文创

    “各民族的传统节日都是中华民族节日”

  • 唐徕渠银川段启动防溺水专项整治行动 筑牢水域安全防线法国这一举动,戳中西方博物馆们最怕的“敏感点”丨真相

    河南车辆追尾事故致13死3伤 公安部派工作组指导调查处置工作

  • 微视频|青年大有可为美加墨世界杯转播权博弈:中国市场不做“冤大头”

    2026北京白塔文化周启幕 特展聚焦“阿尼哥和他的艺术时代”

相关攻略
  • 【好评中国】河声丨“百日行动”进校园,“职”引青春向未来
    2026-06-15 13:56:53
包含 饿了么 的应用集
  • 国家自然博物馆推出馆藏精品展 175件精选标本呈现“自然档案” 宁夏固原首所高职院校获批 填补区域高职教育空白 以色列机场航班减少 乘客滞留
    南方降雨降温齐登场 江西广东等地局地有暴雨
    江西深化与大湾区跨境电商产业合作 助力企业出海发展
    146413152186722026-06-15 13:56:53
  • “自行车进地铁”在部分线站试点 服务时间为双休日 以军称袭击超150个黎巴嫩真主党目标 丢掉全球汽车销量冠军后,日系车企财报又迎集体“哑火”
    特朗普:乐见普京与泽连斯基会面
    5月9日“农华体汇电竞-华体汇(中国)批发价格200指数”比昨天下降0.21个点
    33136346647362026-06-15 13:56:53
  • 三星堆首次发现陨铁器 上海湾区·金山城市沙滩国际音乐烟花秀璀璨启幕 深中通道单日车流量首破19万车次
    国际足联为中国市场低头
    张嘉益谈《主角》:慢工细作展秦腔之韵
    5447789555135937832026-06-15 13:56:53
  • 世界杯近18万张门票待售 陕西入境旅客综合服务平台正式启用 《主角》里哪些演员演技好”
    中国“三北”治沙:库布其展开绿色新画卷
    曝男演员金泽去世 年仅33岁
    9328317488612622026-06-15 13:56:53
  • 国产动力电池赋能全球航运电动化 伊朗侨领马正华:构建 “侨团搭台,企业唱戏” 的中伊务实合作格局模式 武警官兵健美比赛实力“炫腹”
    全国多地高考今日结束
    中法“青年使者学习交流计划”数字商业与跨境电商创新交流活动在广东湛江举行
    679973084606892026-06-15 13:56:53
  • 海外华媒走进成都东部新区 感受成都发展新动能 西藏8座高原车站完成股道无缝化施工 交通更有序 出行更从容——从三个场景看“五一”出行服务新升级
    广西梧州通报公交车坠翻事故:车上6人已脱困并送医治疗
    整治“心机商标”:你以为的“0添加”,可能只是商标
    394090630334232026-06-15 13:56:53
  • 探访海南琼海更路簿博物馆 解码古代南海“北斗导航” 中国女足国家队球员古雅沙退役 男子带4少女去水库2人溺亡 判赔9.2万
    生态环境部发布《流域水生态环境质量标准制订技术导则》
    韩国女球迷遭墨西哥球迷拉眼角歧视
    62316831007922026-06-15 13:56:53
  • 由涉汉坦病毒疫情邮轮疏散的一名法国人确诊感染 2026年西藏自治区“六一”少儿文艺晚会在拉萨市举行 首次来大陆的台湾居民可免门票游西藏A级景区
    浙江杭州:中国美院毕业展多件作品吸引观众打卡
    外交部:希望欧方客观理性看待中欧经贸关系
    1697968089093337022026-06-15 13:56:53
  • 非洲埃博拉疫情:乌干达派医疗队支援刚果(金)抗击埃博拉 全球首次 我国实现千亿级分子库秒速检索筛选 印尼羽毛球公开赛:石宇奇首轮过关 “凤凰”组合成功“复仇”
    新华社权威快报|中办、国办印发《美丽中国建设成效考核办法》
    活力中国调研行|一枚光谱芯片如何让水会“说话”
    112273283087202026-06-15 13:56:53
  • 拖拽暗访记者致骨折的非法代孕华体汇电竞-华体汇(中国)已经营异常 广西柳州再发生5.2级地震 当地学生回忆地震发生瞬间 成都与比利时弗拉芒·布拉邦共庆友城十五载 携手挖掘合作新机遇
    办理临时身份证、免费乘车……各地推出暖心服务护航高考
    女车主将雨中受困祖孙二人送回家
    717200156354362026-06-15 13:56:53
  • 猫咪一晚抓27只老鼠整齐摆身旁邀功 古田会议永放光芒(伟大征程) 中国国家话剧院《青蛇》重排启动 经典十三年再焕新生
    中国企业自主研制的无人车全链路补能体系发布 可实现自动充电
    未来五年将出现史上最热一年
    496439680195771472026-06-15 13:56:53
  • “它属于中国 应该归还” 美以伊最新局势一文速览:若伊美最终敲定谅解备忘录,将讨论核问题 “郎在对门唱山歌” 安康陕南民歌推广首演走进西安音乐学院
    (活力中国调研行)应用场景持续“上新” 中国AI赋能千行百业
    司法部:重点纠治乱罚款、趋利性执法
    34964443728846772026-06-15 13:56:53
  • 2026年电影票房超157亿元 超50部影片定档2026暑期档 泰国实施五项紧迫政策强化国家治理 《给阿嬷的情书》,票房超10亿元
    “五一”假期湖南出入境人数创七年同期新高 港澳台增幅亮眼
    中外嘉宾点赞中国人形机器人:从实验室走进生活
    2562450662205236322026-06-15 13:56:53
  • 辽宁盘锦这个“家”里暖意浓 市场监管总局:一季度全国新设经营主体509.8万户 【中新画报】探寻浙江义乌发展新貌:从鸡毛换糖到“世界超市”
    美称敲定“谅解备忘录”遭伊朗否认
    首只在印尼出生的大熊猫幼仔公开亮相
    616688962887002026-06-15 13:56:53
  • 刘晓明同俄罗斯副外长鲁登科举行磋商 伊朗外交部:伊美潜在谅解仅为继续对话 非最终协议 全国小麦收获有序推进 已近五成
    专业服务赋能经济发展 德勤中国副主席吴卫军谈“重庆机遇”
    西藏高原电网有多强?海拔4500米还有5G信号
    670612918107529802026-06-15 13:56:53
  • 全网刷屏的“粉色蓝莓”是真的吗?记者探访 A股开盘:超4100只个股飘红,三大指数集体高开 2026年度长江流域水生生物资源监测全面启动
    接续奋斗 凯歌前行 各地开展形式多样的五四青年节主题团日活动
    平潭边检站便捷通关 助力口岸经济一季度“开门红”
    8622534068816403102026-06-15 13:56:53
  • 菜市场里唱KTV?记者带你打卡中国最后通公路县的菜市场 泉州斗尾港区首次出口丙烯 心相近|中俄多彩主题年,拉紧人文交流纽带
    一秒穿越“天上阿里”!在京城“解锁”西藏非遗盛宴
    黑龙江哈尔滨:中医文化“圈粉”市民
    821235907718962026-06-15 13:56:53
  • 兰州一高校服务器遭木马入侵 网警开展溯源调查工作 美第三批涉UFO档案披露离奇现象 第25届“汉语桥”世界大学生中文比赛德国区决赛举行
    我国服务贸易持续扩能提质
    西九龙站海关查获一名出境旅客行李藏匿古钱币240枚
    13571683238230542026-06-15 13:56:53
  • 第一观察|中美关系新定位为两国相向而行指引方向 坚持高质量发展要成为领导干部政绩观的重要内容(深入学习贯彻习近平新时代中国特色社会主义思想) 联合国多机构共同应对埃博拉疫情
    康明斯矿山百年积淀再迎里程碑:首台国产QSK60矿用发动机在渝交付
    柬埔寨前4月批准184个投资项目 资本流入增长
    359914798706224212026-06-15 13:56:53
  • SpaceX市值已超美七巨头2家 “大理大学在洱海蓝藻水华防控研究中取得重要进展 推理悬疑和历史玄幻与网文作家国际推介会在京举行
    美国新墨西哥州三人接触不明物质死亡
    因凡蒂诺回应世界杯天价门票:没问题
    127475398637952026-06-15 13:56:53
  • 人工智能能力建设国际合作之友小组举办人工智能治理首次全球对话筹备吹风会 杭州通报非法代孕窝点情况 2026年上海科技节开幕
    民众漫步巢湖岸边 邂逅落日美景
    民生调查局丨“1袋半”被指“心机商标”,今麦郎为何就是不改?
    848647251342952026-06-15 13:56:53
  • 热气腾腾 劳动闪光 存储芯片产业爆发 业内:市场已透支 接好运!“偶遇”云南迪庆梅里雪山日照金山
    (友城故事)中德友城对话:古城保护利用要讲究“平衡之道”
    安徽休宁:落日熔金醉晚霞
    57975896681990882026-06-15 13:56:53
  • 安徽池州:云雾绕奇峰 九华入幻境 一见・中美关系新定位里的时代深意 张嘉益谈主角创作“心怀敬畏”
    最新城市人口版图:增长冠军是深圳
    奔驰或在美国面临禁售禁产
    618923538676772026-06-15 13:56:53
友情链接
  • 创业板大涨,创历史新高!
    2026-06-15 13:56:53
  • 甘肃:看“00后”团队把校运会拍成“奥运会”
    2026-06-15 13:56:53
  • 湖南省永州市委原常委、秘书长唐能武接受审查调查
    2026-06-15 13:56:53
安卓手机网上最贴心的Android软件应用平台!版权所有:还在手写CUDA内核?CODA来了!LLM和新手也能让Transformer跑出光速有限华体汇电竞-华体汇(中国)备案号:京ICP备17065190号-1
华体汇电竞-华体汇(中国)

<small id='dStQl2'></small><noframes id='mRCx'>

    <tbody id='3GxvG3U'></tbody>

  • <tfoot id='d34RZ5H'></tfoot>

          <legend id='F9ZEC'><style id='fBw6jbV'><dir id='MDYaiw'><q id='npt6Dj'></q></dir></style></legend>
          <i id='QZpS'><tr id='at3CAQ'><dt id='miVkw'><q id='dTZp'><span id='1HP5e'><b id='m2JUPuu'><form id='nj37e1'><ins id='hLZfFmi'></ins><ul id='2xzncN'></ul><sub id='mvxjTH'></sub></form><legend id='SdEDw'></legend><bdo id='xDhsJ'><pre id='27IO8SW'><center id='nVqct'></center></pre></bdo></b><th id='0Iy0QK8'></th></span></q></dt></tr></i><div id='dPdpk5D'><tfoot id='8J9w'></tfoot><dl id='YM6eLB'><fieldset id='ddtvOf'></fieldset></dl></div>

              <bdo id='zu39jY'></bdo><ul id='L17n'></ul>

                  1. <li id='xCV8'><abbr id='dzkC822'></abbr></li>