作者：张美琇发布时间：2026-06-17 17:34:52 点击数：83385

昨日官方发布最新研究成果乌无人机袭击扎波罗热核电站运输车间很高兴为您解答这个问题，让我来帮您详细说明一下。品牌授权报修电话，快速上门服务

江苏省南通市启东市福建省漳州市龙海市西乡塘区山东省烟台市龙口市吉林省四平市铁西区四川省凉山彝族自治州昭觉县四川省广元市辽宁省铁岭市清河区阿克苏地区拜城县内蒙古锡林郭勒盟正镶白旗福建省厦门市湖里区桂林市秀峰区昌平区阳坊镇江苏省南京市浦口区赞皇县西龙门乡甘肃省陇南市辽宁省大连市旅顺口区甘肃省庆阳市镇原县广东省汕头市南澳县四川省甘孜藏族自治州丹巴县江苏省镇江市句容市南开区体育中心街道西城区天桥街道怀柔区雁栖地区丰台区和义街道黑龙江省绥化市明水县贵州省铜仁市印江土家族苗族自治县马鞍山市博望区四川省凉山彝族自治州甘洛县门头沟区大峪街道内蒙古兴安盟乌兰浩特市合肥市庐阳区湖北省宜昌市秭归县黑龙江省鸡西市鸡冠区桂林市兴安县山东省东营市垦利区防城港市东兴市四川省乐山市四川省德阳市广汉市湖北省恩施土家族苗族自治州恩施市云南省普洱市景东彝族自治县山东省聊城市冠县蓟州区东施古镇宝坻区牛家牌镇广东省深圳市西城区月坛街道云南省丽江市宁蒗彝族自治县四川省凉山彝族自治州甘洛县江苏省徐州市新沂市吉林省长春市双阳区赞皇县院头镇蚌埠市蚌山区江西省赣州市石城县广东省云浮市新兴县西乡塘区山东省东营市垦利区无极县大陈镇北辰区广源街道固原市西吉县湖北省恩施土家族苗族自治州建始县甘肃省陇南市武都区内蒙古兴安盟乌兰浩特市山西省晋中市榆社县山西省晋中市太谷区南开区长虹街道山东省威海市海南省海口市美兰区山东省聊城市冠县西城区月坛街道平山县上观音堂乡平山县岗南镇上海市市辖区嘉定区北海市海城区山西省阳泉市平定县西藏山南市福建省莆田市仙游县喀什地区麦盖提县赞皇县院头镇四川省成都市双流区福建省厦门市湖里区广东省汕头市龙湖区广东省惠州市龙门县甘肃省甘南藏族自治州广东省珠海市斗门区元氏县元氏县长安区广安街道江西省景德镇市昌江区四川省遂宁市蓬溪县江西省吉安市吉安县青秀区云南省丽江市宁蒗彝族自治县伊犁哈萨克自治州昭苏县青秀区江苏省徐州市丰县山东省青岛市城阳区江西省萍乡市上栗县广东省云浮市新兴县四川省甘孜藏族自治州江苏省徐州市新沂市

本月研究机构公开新进展CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流，很高兴为您解答这个问题，让我来帮您详细说明一下:官方服务专线，支持多品牌报修

山西省朔州市山阴县陕西省商洛市山阳县黑龙江省哈尔滨市巴彦县四川省德阳市广汉市西青区精武镇西藏山南市许昌市建安区南阳市内乡县平山县宅北乡辽宁省本溪市溪湖区井陉县测鱼镇四川省宜宾市珙县密云区不老屯镇河东区东新街道平顶山市卫东区亳州市利辛县山西省吕梁市中阳县贵州省铜仁市玉屏侗族自治县山西省忻州市宁武县四川省成都市金牛区福建省厦门市海沧区辽宁省朝阳市北票市江苏省连云港市赣榆区崇左市贵州省安顺市普定县江西省景德镇市昌江区广东省云浮市新兴县青秀区山东省滨州市青海省海北藏族自治州门源回族自治县辽宁省锦州市义县山西省晋城市泽州县山东省聊城市茌平区元氏县苏村乡山西省阳泉市平定县巴音郭楞蒙古自治州和硕县江苏省徐州市新沂市辽宁省朝阳市北票市内蒙古呼伦贝尔市阿荣旗青海省海南藏族自治州贵德县平顶山市卫东区陕西省汉中市西乡县江西省九江市武宁县贵州省铜仁市玉屏侗族自治县山西省忻州市定襄县甘肃省庆阳市镇原县辽宁省沈阳市贵州省六盘水市水城县井陉县吴家窑乡湖北省恩施土家族苗族自治州建始县山西省晋中市榆社县山西省忻州市定襄县福建省漳州市龙海市山西省晋中市灵石县平山县小觉镇云南省玉溪市新平彝族傣族自治县江西省景德镇市昌江区百色市田林县山东省枣庄市台儿庄区顺义区空港街道江西省宜春市宜丰县四川省甘孜藏族自治州泸定县钦州市西藏山南市蓟州区官庄镇甘肃省兰州市四川省遂宁市蓬溪县黑龙江省绥化市明水县延庆区康庄镇朝阳区酒仙桥街道黑龙江省伊春市金林区宝坻区牛家牌镇南开区长虹街道银川市贺兰县山东省德州市齐河县山东省东营市垦利区蚌埠市蚌山区山东省枣庄市台儿庄区贵州省安顺市普定县江苏省徐州市丰县山东省德州市齐河县青海省海南藏族自治州贵德县山东省威海市固原市西吉县南开区长虹街道江西省宜春市奉新县广东省珠海市斗门区福建省三明市梅列区阿克苏地区新和县广东省广州市越秀区黑龙江省佳木斯市富锦市福建省厦门市海沧区合肥市瑶海区河东区大直沽街道信阳市平桥区许昌市建安区平顶山市湛河区福建省漳州市龙海市江西省景德镇市昌江区辽宁省锦州市义县

全球服务区域:云南省红河哈尼族彝族自治州绿春县甘肃省天水市秦州区怀柔区龙山街道行唐县龙州镇贵州省安顺市普定县井陉县测鱼镇淮南市大通区黑龙江省佳木斯市富锦市朝阳区管庄地区四川省凉山彝族自治州甘洛县海南省海口市美兰区甘肃省甘南藏族自治州隆安县四川省遂宁市蓬溪县内蒙古呼伦贝尔市阿荣旗山西省晋城市高平市四川省泸州市江阳区山西省吕梁市中阳县平山县小觉镇南阳市内乡县鹿泉区白鹿泉乡内蒙古锡林郭勒盟正镶白旗甘肃省定西市渭源县平山县宅北乡山东省聊城市冠县江苏省徐州市丰县内蒙古兴安盟乌兰浩特市湖北省恩施土家族苗族自治州建始县乌鲁木齐市沙依巴克区宝坻区牛家牌镇黑龙江省七台河市桃山区合肥市瑶海区贵州省黔南布依族苗族自治州惠水县宝坻区牛家牌镇内蒙古乌海市乌达区西藏山南市贡嘎县武清区汊沽港镇云南省玉溪市新平彝族傣族自治县昌平区回龙观街道福建省漳州市龙海市西藏山南市丰台区和义街道江苏省徐州市丰县朝阳区管庄地区喀什地区叶城县贵州省黔南布依族苗族自治州惠水县长安区广安街道陕西省咸阳市兴平市西青区精武镇芜湖市南陵县青海省海西蒙古族藏族自治州德令哈市广东省汕头市南澳县山西省晋中市灵石县丰台区宛平城地区黑龙江省鸡西市鸡冠区贵州省安顺市普定县四川省成都市金牛区新乐市协神乡四川省广元市陕西省汉中市南郑区密云区不老屯镇山西省忻州市宁武县马鞍山市博望区湖北省孝感市汉川市福建省福州市永泰县吉林省白山市浑江区甘肃省陇南市昌平区阳坊镇辽宁省沈阳市浑南区亳州市利辛县四川省宜宾市江安县北海市海城区湖北省恩施土家族苗族自治州建始县广东省汕头市南澳县南开区长虹街道广东省广州市越秀区山东省聊城市冠县平顶山市湛河区密云区不老屯镇广东省汕头市南澳县辽宁省沈阳市福建省莆田市仙游县江西省九江市武宁县黑龙江省绥化市明水县广东省广州市越秀区湖北省宜昌市夷陵区辽宁省铁岭市开原市云南省红河哈尼族彝族自治州泸西县银川市贺兰县内蒙古呼伦贝尔市阿荣旗江苏省镇江市句容市甘肃省甘南藏族自治州福建省漳州市龙海市吉林省长春市双阳区四川省成都市新都区芜湖市南陵县崇左市宁明县西藏拉萨市达孜区山东省聊城市冠县蓟州区官庄镇

今日行业报告传递政策变化CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流，很高兴为您解答这个问题，让我来帮您详细说明一下:售后服务维修中心电话，支持多渠道服务

全国服务区域：甘肃省庆阳市镇原县山东省泰安市泰山区山西省吕梁市岚县内蒙古呼伦贝尔市阿荣旗黑龙江省七台河市桃山区乌鲁木齐市沙依巴克区甘肃省陇南市辽宁省沈阳市沈河区湖北省宜昌市西陵区河东区大直沽街道甘肃省定西市渭源县芜湖市南陵县元氏县苏村乡陕西省汉中市西乡县丰台区和义街道丰台区右安门街道内蒙古锡林郭勒盟正镶白旗山西省吕梁市中阳县内蒙古兴安盟乌兰浩特市防城港市东兴市新乐市协神乡西藏山南市贡嘎县银川市贺兰县江西省吉安市永新县桥西区东华街道和平区南市街道山西省晋中市榆社县四川省凉山彝族自治州西昌市怀柔区雁栖地区广东省惠州市龙门县鹿泉区白鹿泉乡蚌埠市蚌山区四川省凉山彝族自治州昭觉县山西省长治市襄垣县南开区长虹街道丰台区宛平城地区开封市通许县钦州市内蒙古乌海市乌达区广东省云浮市新兴县朝阳区豆各庄地区山东省淄博市临淄区延庆区沈家营镇山西省阳泉市平定县青海省玉树藏族自治州治多县丰台区和义街道福建省三明市梅列区朝阳区小关街道山西省临汾市安泽县广东省汕头市南澳县云南省红河哈尼族彝族自治州绿春县内蒙古鄂尔多斯市鄂托克旗辽宁省锦州市义县朝阳区管庄地区黑龙江省大兴安岭地区呼玛县平山县上观音堂乡西城区月坛街道甘肃省陇南市井陉县测鱼镇长安区广安街道丰台区长辛店镇甘肃省天水市秦州区江西省宜春市宜丰县西城区天桥街道四川省凉山彝族自治州昭觉县山西省阳泉市平定县巴音郭楞蒙古自治州和硕县青秀区云南省大理白族自治州云龙县银川市贺兰县江西省吉安市永新县武清区上马台镇山东省潍坊市青州市武清区汊沽港镇云南省红河哈尼族彝族自治州泸西县焦作市沁阳市赞皇县院头镇黑龙江省七台河市桃山区西乡塘区山西省运城市夏县鹿泉区白鹿泉乡巴音郭楞蒙古自治州和硕县山西省晋中市太谷区北海市海城区平山县宅北乡贵州省铜仁市玉屏侗族自治县辽宁省沈阳市沈河区江苏省徐州市青海省果洛藏族自治州喀什地区叶城县广东省佛山市三水区内蒙古鄂尔多斯市康巴什区广东省江门市吉林省四平市铁西区湖北省宜昌市秭归县四川省宜宾市珙县钦州市山西省晋城市高平市防城港市东兴市黑龙江省鹤岗市

售后服务上门服务电话，智能分配单据：CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流

模型正从影像识别走向高效适配、临床语义理解与跨模态推理。

作者丨郑佳美

编辑丨马晓宁

医学 AI 过去很长一段时间都在回答一个问题：模型能不能看得比人更准？

于是，大量研究围绕病灶识别、器官分割、影像分类和报告生成展开，目标是在标准数据集上取得更高指标。但现在，这个问题已经不够了。

真实的医学与生物科研场景并不是一个干净、统一、标注充分的 benchmark，而是由不同设备、不同协议、不同数据质量、不同任务目标和不同专业知识共同组成的复杂系统。

因此，新的研究重点开始发生转移。一个模型是否有价值，不再只取决于它在某个数据集上的分数，而取决于它能否在新实验室的数据上快速适配，能否用更少标注学到有效推理，能否把 CT、超声、病理、报告、空间转录组、运动传感器、脑活动和多视角 X-ray 等异质信息连接起来。

也就是说，医学与生物视觉正在从“会看图”走向“会理解任务”，从“模型本身更大”走向“系统整体更有用”。

CVPR 2026 相关论文中也能看到这种趋势：一方面，AI agent、数据筛选和轻量化适配方法正在减少人工调参、数据标注和模型微调成本；

另一方面，三维 CT 基础模型、超声图文预训练、空间转录组预测、IMU-视频对齐、fMRI 视频重建和双视角 X-ray 推理等工作，则不断扩展医学视觉模型能够处理的信息边界。

这些研究共同指向一个方向：医学 AI 的下一步，不只是训练更大的模型，而是让模型真正进入真实科研与临床流程。

少数据、少微调、少人工

来自加州理工学院、康奈尔大学、德克萨斯大学奥斯汀分校和伦斯勒理工学院的研究团队在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中，关注的是如何用简单的 AI agent 自动优化生物医学图像分析工作流。

研究的重点不是重新训练一个新模型，而是让 agent 为已有的成熟工具自动编写图像预处理和后处理代码，从而解决不同实验室、不同成像设备、不同数据分布下工具效果下降的问题。

论文在 Polaris、Cellpose 和 MedSAM 这 3 个真实生物医学图像分析流程上进行了实验，覆盖单分子点检测、细胞实例分割和医学图像分割等不同尺度任务，结果发现简单的基础 agent 就能超过专家手写的官方优化方案，尤其在 MedSAM 任务上提升非常明显。

论文地址：https://arxiv.org/pdf/2512.06006v1

研究的亮点在于，它证明了在这种工程性很强、数据量有限、目标明确的科研工作流优化场景中，简单、透明、低成本的 agent 往往已经足够有效，复杂的 agent 架构、专家函数库或 AutoML 并不一定稳定带来收益，甚至可能因为任务差异、搜索空间偏置或小验证集过拟合而降低效果；

同时，论文还分析了不同任务中 API 空间和参数空间的差异，解释了为什么同一种 agent 设计在不同工具上表现不同。雷峰网

整体来看，这项工作把 LLM agent 从泛泛的自动化概念落到了真实科研工具适配中，说明 agent 可以帮助科研人员减少大量手工调参和代码适配工作，并有潜力成为生物医学图像分析工具落地应用中的实用辅助系统。

在工具工作流的自动适配之外，《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把问题转向医学推理模型的训练数据选择。

来自华东师范大学、穆罕默德·本·扎耶德人工智能大学、蒙纳士大学和上海人工智能实验室的研究团队提出 DIQ，即 Difficulty-Influence Quadrant，希望用极少量微调数据提升医学推理模型的效率。

研究指出，医学 VLM / LLM 的监督微调通常依赖大量带推理链的数据，但其中存在许多重复、低质量或优化价值不高的样本，直接扩大数据规模会带来较高计算成本，也不一定提升复杂临床推理能力。

论文认为，单纯按“难度”选数据容易选到噪声大、过难且难以优化的样本，单纯按“梯度影响”选数据又容易偏向浅层、好学但推理不深的样本，因此 DIQ 同时计算每个样本的医学推理难度和训练影响力，把样本划分到不同象限，并优先选择“高难度、高影响力”的数据，让模型在很小数据量下也能学到有价值的临床推理模式。

实验显示，在 Huatuo 和 FineMed 等医学推理数据上，DIQ 只用 1% 选中数据就能接近甚至超过全量微调效果，用 10% 数据时整体优于随机选择、困惑度选择、相似度选择和 LESS 等基线；同时在人类和 LLM-as-a-judge 评估中，DIQ 选出的数据在鉴别诊断、安全检查和证据引用等方面更符合专家临床推理习惯。

论文地址：https://arxiv.org/pdf/2508.01450v3

它的亮点在于，不是继续堆更多医学推理数据，而是从“样本是否有推理价值”和“样本是否真正推动模型优化”两个角度做精细筛选，说明高质量数据选择比粗暴扩大数据规模更有效；

同时，DIQ 的影响力计算基于一阶梯度点积，避免传统影响函数的高成本，难度分数又通过医学 BiomedBERT 分类器估计，因此整体方法相对轻量、可复用。雷峰网

整体来看，这项工作为医学推理模型提供了一种更省数据、更省计算的微调方案，尤其适合医学数据昂贵、标注困难、但又需要模型具备可靠临床推理能力的场景。

进一步来看，《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》关注的不是训练数据筛选，而是视觉语言模型在特定领域中的轻量化适配。

亚马逊云科技和加州大学洛杉矶分校的研究团队提出 CRAFT，全称是 Codebook Regulated Fine-Tuning，主要研究如何在不改动大语言模型部分的情况下，让大型视觉语言模型更好适应医学图像、细粒度分类、植物病害识别等特定视觉领域。

论文指出，现有方法通常会微调视觉编码器、投影层或 LLM，但这样容易造成视觉特征空间变化，需要重新对齐语言模型，甚至会让模型在短答案数据上过拟合，损害原本的指令遵循和解释能力；

CRAFT 的核心思路是只微调离散视觉编码器，并把视觉特征锚定到一个固定的离散 codebook 中，让视觉编码器学会选择和排列已有的“视觉词汇”，从而向冻结的语言模型传递更适合目标领域的视觉信息。

训练时，方法结合 surrogate LLM 的对齐损失、commitment loss 和对比学习损失，保证离散 token 既贴近图像内容，又能被语言模型理解；推理时还加入基于 token 稀有度的剪枝机制，去掉大量背景或重复 token，让模型更关注关键视觉区域。

实验覆盖 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 个分类和视觉问答基准，结果显示 CRAFT 相比原始离散模型平均提升 13.51%，在最强设置下平均准确率达到 68.58%，并且在推理解释能力上比 LoRA、projector fine-tuning 和连续特征微调更稳定。

论为地址：https://arxiv.org/pdf/2602.19449v1

它的亮点在于把“视觉适配”和“语言推理”解耦：只更新视觉编码器，不重新训练或破坏 LLM，却能让同一个适配后的编码器迁移到共享 codebook 的不同语言模型上；

同时，离散 codebook 起到了稳定接口的作用，避免连续特征微调带来的跨模态错位。整体来看，这项工作为领域专用 LVLM 适配提供了一种更轻量、更可复用的方法，尤其适合那些视觉分布特殊、但又不希望重新训练大语言模型的应用场景。

从三维 CT 到超声图文理解

在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中，荷兰埃因霍温理工大学电气工程系（ARIA 实验室、AIMS 实验室）提出了面向三维 CT 的开放式基础模型 SPECTRE。

它的目标是学习既包含体积影像空间结构、又包含放射科报告临床语义的通用 CT 表征。论文关注的核心问题是：三维 CT 不同于普通二维图像，直接使用常规视觉基础模型会遇到 token 数量过大、体素各向异性、扫描范围和层厚不一致、医学报告监督噪声较强等困难。

论文地址：https://arxiv.org/pdf/2511.17209v2

为此，作者设计了“局部 ViT + 全局 ViT”的两级纯 Transformer 架构，先在局部三维窗口中提取精细结构特征，再在全局层面整合完整扫描信息；训练上则结合自监督学习和 CT-文本跨模态对齐，让模型同时具备几何理解能力和临床语义理解能力。

实验显示，SPECTRE 在肿瘤生物标志物预测、器官分割和文本到 CT 检索等任务上整体优于多数基线，尤其在文本检索影像任务中提升明显。

论文的亮点在于，它不是简单把二维视觉模型扩展到三维医学影像，而是针对体积 CT 的计算结构、空间特性和报告语义进行了系统设计；

同时，它强调使用公开数据训练并开源模型和代码，降低了医学影像基础模型对私有数据的依赖。整体来看，这项工作为三维 CT 基础模型提供了一个更可复现、更适合体积医学影像特点的方案，也说明纯 Transformer 架构在经过合适设计后，可以在 CT 表征学习中兼顾空间细节和临床语义。

与 SPECTRE 面向三维 CT 的体积建模不同，《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重点放在超声这一更依赖临床经验、图像表现更复杂、诊断属性更细粒度的医学影像模态上。

来自浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属妇产科医院、浙江大学医学院附属第一医院和香港城市大学的研究团队提出 Ultrasound-CLIP，主要研究如何为超声图像构建更适合临床语义理解的图文预训练模型。

现有 CLIP 或医学 VLP 模型大多偏向 CT、MRI、病理等模态，超声数据占比很低，而且超声报告里有很多专门的诊断属性，比如回声、边界、后方声学现象和血流情况，普通图文对比学习很难准确处理这些细粒度语义。

为了解决这个问题，论文先构建了大规模超声图文数据集 US-365K，包含约 36.4 万对图像—文本样本，覆盖 52 个解剖类别；

论为地址：https://arxiv.org/pdf/2604.01749v1

同时提出超声诊断分类体系 UDT，把解剖层级和 9 类诊断属性统一起来，再基于这些知识设计 Ultrasound-CLIP，通过语义软标签减少“相似病例被当成完全负样本”的问题，并用异构图编码器建模病灶和诊断属性之间的结构关系。

实验显示，该方法在超声多属性分类、图文检索以及下游零样本、线性探测和微调任务上都优于通用 CLIP 和多种医学 CLIP 基线，例如平均分类准确率达到 59.61%，明显高于最强基线 BiomedCLIP 的 33.81%，图像到文本检索的 R@10 也提升到 0.3745。

这项工作的亮点在于，它不是简单收集超声数据后套用标准 CLIP，而是把超声影像特有的解剖层级、诊断属性和语义相似性显式放进训练目标中，使模型更能理解超声报告里的临床语言；

同时，数据集、分类体系和模型框架一起提出，也为后续超声图文理解、检索、辅助诊断和跨数据集泛化提供了比较系统的基础资源。

从病理、运动到 X-ray 双视角

《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》来自厦门大学、上海人工智能实验室、清华大学和鹏城实验室的合作研究，关注的是如何从病理 H&E 全切片图像中预测空间转录组的基因表达。

论文提出的方法叫 HyperST，核心问题在于：现有方法大多只做单个 spot 图像和基因表达之间的局部匹配，容易忽略空间转录组数据本身的层次结构，例如单个 spot 与周围组织微环境 niche 之间的关系，以及病理形态信息与更细粒度分子表达信息之间的不对称关系。

为了解决这个问题，论文把图像和基因表达都建模成多层级表示，一方面提取 spot 级和 niche 级的病理图像特征与基因表达特征，另一方面把这些表示投影到双曲空间中，通过层次化对比对齐和层次化蕴含约束，让模型显式学习“spot 到 niche”“图像到基因表达”这类由粗到细、由一般到具体的结构关系，从而得到更有分子语义的图像表征。

实验方面，论文在来自 HEST-1K 的肾脏、结直肠、皮肤和肺部 4 个公开空间转录组数据集上验证，结果显示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指标上整体优于 TRIPLEX、StNet、BLEEP、Stem 等方法，其中相对第二强的 TRIPLEX，在 PCC@200 上分别提升约 10.95%、3.24%、2.52% 和 16.7%；

论文还做了临床下游验证，用在结直肠数据上训练的模型对外部 TCGA-COADREAD 数据进行零样本基因表达预测，再用于 MSI 状态分类，HyperST 在 MSI-H 和 MSS 上的 AUROC 达到 0.719 和 0.601，也高于最强基线。

论文地址：https://arxiv.org/pdf/2511.22107

它的亮点在于没有把空间转录组预测简单看成普通图像回归问题，而是抓住了空间组学中天然存在的层级结构，并用双曲几何来表示这种树状、层次化关系；

同时，它不仅利用局部 spot 图像，还引入周围 niche 的组织上下文，并在图像侧用病理基础模型 UNI 加 LoRA 做高效适配，使模型能同时保留组织形态信息和分子表达语义；

消融实验也支持这一设计，去掉完整的层次双曲对齐模块会造成 PCC@200 明显下降，说明双曲空间和层级约束确实是性能提升的关键。

整体来看，这项工作把几何深度学习引入空间转录组预测，用更符合生物组织层次结构的方式连接病理图像和基因表达，为低成本、可扩展的空间转录组推断提供了一个更稳健的建模思路。

在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中，阿德莱德大学澳大利亚机器学习研究所将问题聚焦在可穿戴 IMU 传感器信号与视频中 2D 人体姿态序列之间的细粒度对齐。

论文提出的方法叫 MoBind，目标是学习一个统一的跨模态表示，使系统能够完成 IMU 到视频检索、视频到 IMU 检索、时间同步、人物和身体部位定位以及人体动作识别等任务。

它的核心思路不是直接对齐原始视频像素，而是先从视频中提取骨架运动信息，以减少背景干扰，再把全身运动拆成不同身体部位，让每个部位轨迹与对应的 IMU 传感器进行局部对齐，最后通过 token 级、局部身体部位级和全局全身级的层次化对比学习来同时保留亚秒级时间同步能力和整体动作语义。

论文在 mRi、TotalCapture 和 EgoHumans 三个多模态数据集上验证了方法，结果显示 MoBind 在跨模态检索中稳定超过 IMU2CLIP、DeSPITE、SyncNet 等基线，在时间同步任务中也明显更强，例如在随机引入 [-7, 7] 秒偏移的 20 秒片段上，MoBind 在 TotalCapture 和 EgoHumans 上的平均误差分别只有 0.05 秒和 0.04 秒，并且在 200 ms 容忍范围内的准确率达到 0.98 和 1.00。

论文地址：https://arxiv.org/pdf/2602.19004v1

这项工作的亮点在于，它针对 IMU-视频对齐中最难的几个问题给出了比较完整的设计：一是用骨架姿态替代原始图像，避免模型被无关视觉背景影响；

二是显式建模多传感器和身体部位之间的结构关系，不只是把所有 IMU 信号简单拼接；三是通过层次化对比学习解决重复动作、相位偏移和短时间错位带来的细粒度同步困难；四是加入 Masked Token Prediction 辅助任务，避免模型只关注局部同步而丢失动作类别语义。

整体来看，它把可穿戴传感器和视频人体运动之间的对应关系做得更细、更稳，不仅能用于无需人工校准的多模态时间同步，也能用于多人物场景下判断哪个人佩戴了哪个传感器、传感器位于哪个身体部位，并且在传感器缺失时仍保持较强鲁棒性，因而对运动分析、康复监测、体育训练和多模态数据采集都有较直接的应用意义。

从可穿戴传感器和视频之间的运动对齐继续延伸，《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》进一步研究脑活动与视觉内容之间的映射关系。

北京邮电大学和萨里大学的研究团队提出 SemVideo，尝试从人观看视频时记录到的 fMRI 脑活动中重建其看到的动态视觉内容。

它的核心目标是解决现有 fMRI 到视频重建方法中常见的两个问题：一是跨帧主体外观不稳定，导致同一个物体在生成视频里前后不一致；二是时间连续性差，容易出现动作错位或帧间突变。

论文的思路不是直接让脑信号恢复每一帧像素，而是先用 SemMiner 从原始视频中挖掘三层语义信息，包括第一帧静态锚点描述、面向动作的运动叙事和整体视频摘要，再让 SemVideo 通过语义对齐解码器 SAD 将 fMRI 信号对齐到这些语义嵌入，通过运动适配解码器 MAD 建模动态运动潜变量，最后用条件视频渲染模块把语义和运动信息融合生成视频。

实验在 CC2017 和 HCP 7T 两个公开 fMRI-video 数据集上进行，论文称方法在语义、像素和时空三个层面的 10 个指标中的 8 个达到最好结果；在 CC2017 上，SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分别达到 0.865、0.264、0.526 和 4.788，说明它不仅更能恢复视频中的语义对象，也能更好保持动作和时序一致性。

论文地址：https://arxiv.org/pdf/2602.21819v2

它的亮点在于把“人脑看视频时更偏向关键语义和动作记忆，而不是逐像素逐帧处理”的认知假设转化成可训练框架，用多层级语义作为中间监督来弥补 fMRI 时间分辨率低、语义稀疏的问题；

同时，论文通过消融实验证明三类语义提示都很重要，其中去掉运动叙事 Cmotion 会明显损害像素级和时空指标，去掉 MAD 后帧序对齐能力大幅下降，说明运动提升不是单纯来自文本到视频模型的先验，而是确实从脑信号和运动语义中解码出来的。

另一个有价值的点是，作者还做了脑区重要性可视化，发现锚点语义更依赖高级视觉皮层，运动语义与 MT、MST、TPOJ 等运动相关脑区更匹配，整体语义则分布在视觉和运动相关区域，这让方法不仅是一个生成模型，也提供了一定的神经科学可解释性。

整体来看，这项工作把 fMRI 视频重建从“生成看起来像的视频”推进到“同时保持对象语义、动作轨迹和时间连贯性”的方向，为未来基于脑活动重建动态视觉体验提供了一个更结构化、更可解释的框架。

如果说 MoBind 和 SemVideo 都是在时间序列层面做跨模态对齐，那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》则把跨模态思想用于空间几何推理，尤其是安检 X-ray 场景中的双视角理解。

来自北京交通大学信息科学研究所和北京航空航天大学复杂与关键软件环境国家重点实验室的研究团队关注安检场景中的 X-ray 违禁品检测，核心问题是：现实安检人员通常会同时观察俯视和侧视两张 X-ray 图像来判断物体结构、遮挡关系和空间位置，但现有视觉语言模型多依赖单视角图像或文本提示，缺乏对“双视角几何一致性”的显式推理；

因此论文提出一个很有意思的观点——第二视角图像能否像语言一样，为模型提供额外约束。围绕这个问题，作者构建了 DualXrayBench，这是一个结合双视角图像和多模态标注的基准，包含 45,613 对双视角图像、12 类违禁物品，以及 1,594 个专家验证的视觉问答样本，用来测试计数、识别、遮挡、空间关系、摆放属性等 8 类跨视角推理能力。

方法上，论文提出 GSR，即 Geometric-Semantic Reasoner，基于 Qwen3-VL-MoE-8B 构建，通过视觉编码器、特征对齐模块和语言推理模块，把俯视图、侧视图和文本问题统一到一个推理流程中，并进一步构建 GSXray 数据集，将推理过程组织成、、这样的结构化 Chain-of-Thought，让模型先分别理解两个视角，再综合得出结论。

实验结果显示，GSR-8B 在 DualXrayBench 上取得 65.4 的准确率、70.6 的 F1 和 52.3 的 mIoU，明显超过 GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型，也优于单视角 X-ray 视觉语言模型；

消融实验还表明，单纯加入第二视角并不一定足够，只有把双视角信息和结构化推理标签结合起来，才能稳定提升几何对齐、遮挡判断和空间关系理解能力。

论文地址：https://arxiv.org/pdf/2511.18385v1

它的亮点在于，不只是把两张图简单拼接做多模态输入，而是把第二视角当成一种“类语言模态”，用来约束和补充主视角中的不确定信息；

同时，论文同时贡献了数据集、评测任务和模型框架，为安检 X-ray 场景中更接近人工检查流程的跨视角推理提供了系统方案。

整体来看，这项工作把视觉语言模型从单图像语义理解推进到双视角几何—语义联合推理，对于复杂遮挡、相似物体区分和未知违禁品泛化都有较强的应用意义。

这次去 CVPR 现场，一定不要错过

【认识大牛+赚外快】的机会

需要你做什么：把你最关注的10个大会报告，每页PPT都拍下来

你能获得什么？

认识大牛：你将可以进入CVPR名师博士社群；

钱多活少：提供丰厚奖金，任务量精简；

听会自由：你的行程你做主，顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR，想边听会边赚钱，还能顺便为AI学术社区做贡献、认识更多大牛，欢迎联系华体汇(中国)：[添加微信号:MS_Yahei]

【限额5位，先到先得】

本周监管部门更新行业通报CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流

模型正从影像识别走向高效适配、临床语义理解与跨模态推理。

作者丨郑佳美

编辑丨马晓宁

医学 AI 过去很长一段时间都在回答一个问题：模型能不能看得比人更准？

于是，大量研究围绕病灶识别、器官分割、影像分类和报告生成展开，目标是在标准数据集上取得更高指标。但现在，这个问题已经不够了。

也就是说，医学与生物视觉正在从“会看图”走向“会理解任务”，从“模型本身更大”走向“系统整体更有用”。

CVPR 2026 相关论文中也能看到这种趋势：一方面，AI agent、数据筛选和轻量化适配方法正在减少人工调参、数据标注和模型微调成本；

这些研究共同指向一个方向：医学 AI 的下一步，不只是训练更大的模型，而是让模型真正进入真实科研与临床流程。

少数据、少微调、少人工

论文地址：https://arxiv.org/pdf/2512.06006v1

同时，论文还分析了不同任务中 API 空间和参数空间的差异，解释了为什么同一种 agent 设计在不同工具上表现不同。雷峰网

在工具工作流的自动适配之外，《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把问题转向医学推理模型的训练数据选择。

论文地址：https://arxiv.org/pdf/2508.01450v3

进一步来看，《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》关注的不是训练数据筛选，而是视觉语言模型在特定领域中的轻量化适配。

论为地址：https://arxiv.org/pdf/2602.19449v1

从三维 CT 到超声图文理解

论文地址：https://arxiv.org/pdf/2511.17209v2

实验显示，SPECTRE 在肿瘤生物标志物预测、器官分割和文本到 CT 检索等任务上整体优于多数基线，尤其在文本检索影像任务中提升明显。

论文的亮点在于，它不是简单把二维视觉模型扩展到三维医学影像，而是针对体积 CT 的计算结构、空间特性和报告语义进行了系统设计；

为了解决这个问题，论文先构建了大规模超声图文数据集 US-365K，包含约 36.4 万对图像—文本样本，覆盖 52 个解剖类别；

论为地址：https://arxiv.org/pdf/2604.01749v1

同时，数据集、分类体系和模型框架一起提出，也为后续超声图文理解、检索、辅助诊断和跨数据集泛化提供了比较系统的基础资源。

从病理、运动到 X-ray 双视角

论文地址：https://arxiv.org/pdf/2511.22107

消融实验也支持这一设计，去掉完整的层次双曲对齐模块会造成 PCC@200 明显下降，说明双曲空间和层级约束确实是性能提升的关键。

论文地址：https://arxiv.org/pdf/2602.19004v1

这项工作的亮点在于，它针对 IMU-视频对齐中最难的几个问题给出了比较完整的设计：一是用骨架姿态替代原始图像，避免模型被无关视觉背景影响；

北京邮电大学和萨里大学的研究团队提出 SemVideo，尝试从人观看视频时记录到的 fMRI 脑活动中重建其看到的动态视觉内容。

论文地址：https://arxiv.org/pdf/2602.21819v2

论文地址：https://arxiv.org/pdf/2511.18385v1

它的亮点在于，不只是把两张图简单拼接做多模态输入，而是把第二视角当成一种“类语言模态”，用来约束和补充主视角中的不确定信息；

同时，论文同时贡献了数据集、评测任务和模型框架，为安检 X-ray 场景中更接近人工检查流程的跨视角推理提供了系统方案。

这次去 CVPR 现场，一定不要错过

【认识大牛+赚外快】的机会

需要你做什么：把你最关注的10个大会报告，每页PPT都拍下来

你能获得什么？

认识大牛：你将可以进入CVPR名师博士社群；

钱多活少：提供丰厚奖金，任务量精简；

听会自由：你的行程你做主，顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR，想边听会边赚钱，还能顺便为AI学术社区做贡献、认识更多大牛，欢迎联系华体汇(中国)：[添加微信号:MS_Yahei]

【限额5位，先到先得】

湖北多地创新政策举措，允许缴存人提取公积金用于支付新建商品房契税、住宅专项维修资金，同时将同小区车位购置纳入公积金提取范围，全方位覆盖购房全流程配套需求。

华体汇电竞-华体汇(中国) 华体汇电竞-华体汇(中国)-k频道网红分享系统1官方版-k频道网红分享系统12026最新V.33.32.34-当当网

华体汇电竞-华体汇(中国)

乌无人机袭击扎波罗热核电站运输车间

华体汇电竞-华体汇(中国):乌无人机袭击扎波罗热核电站运输车间

华体汇电竞-华体汇(中国):「活动」首次登录送19元红包

61.53MB

版本{版本}

下载APK 高速下载

下载再CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流安装你想要的应用更方便更快捷发现更多

26%好评(58人)

详细信息

软件大小:52.22MB
最后更新:2026-06-17 17:34:52
最新版本:{版本}
文件格式:apk
应用分类:ios-AndroidCVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流
使用语言:中文
:需要联网
系统要求:9.72以上

应用介绍

?第一步：访问《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》官网?首先,打开您的浏览器,输入《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》。您可以通过搜索引擎搜索或直接输入网址来访问.?
?第二步：点击注册按钮?一旦进入《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站官网，您会在页面上找到一个醒目的注册按钮。点击该按钮，您将被引导至注册页面。??
?第三步：填写注册信息 ?在注册页面上，您需要填写一些必要的个人信息来创建《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站账户。通常包括用户名、密码、电子邮件地址、手机号码等。请务必提供准确完整的信息，以确保顺利完成注册。??
?第四步：验证账户?填写完个人信息后，您可能需要进行账户验证。《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站会向您提供的电子邮件地址或手机号码发送一条验证信息，您需要按照提示进行验证操作。这有助于确保账户的安全性，并防止不法分子滥用您的个人信息。?
?第五步：设置安全选项?《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站通常要求您设置一些安全选项，以增强账户的安全性。例如，可以设置安全问题和答案，启用两步验证等功能。请根据系统的提示设置相关选项，并妥善保管相关信息，确保您的账户安全。??
?第六步：阅读并同意条款?在注册过程中，《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站会提供使用条款和规定供您阅读。这些条款包括平台的使用规范、隐私政策等内容。在注册之前，请仔细阅读并理解这些条款，并确保您同意并愿意遵守。??
?第七步：完成注册?一旦您完成了所有必要的步骤，并同意了《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站的条款，恭喜您！您已经成功注册了《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站账户。现在，您可以畅享《CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流》网站提供的丰富体育赛事、刺激的游戏体验以及其他令人兴奋!?
【联系华体汇(中国)】
客服热线

加载更多

版本更新

{版本}

CVPR 2026 医学影像?AI 趋势梳理：从看懂影像，到接管科研工作流