arXivDaily每日学术速递，同步arXiv全量数据，AI总结、翻译，覆盖人工智能、机器人、计算机、金融、统计学、数学、物理学、生物学、经济学、电气&系统等方向。

2605.10237 2026-05-12 cs.LG

The Benefits of Temporal Correlations: SGD Learns k-Juntas from Random Walks Efficiently

Elisabetta Cornacchia, Dan Mikulincer, Elchanan Mossel

AI总结本文研究了数据中的时间相关性如何使某些稀疏学习问题能够被梯度方法高效求解。研究聚焦于布尔k-juntas这一经典稀疏学习问题，发现当样本由超立方体上的懒惰随机游走生成时，使用带时间差分损失的两层ReLU网络进行训练，可以高效学习该问题，样本复杂度几乎与环境维度线性相关。相比之下，使用标准凸点wise损失的大批量梯度方法则无法获得相同优势。

Comments 10 pages main body, 3 figures

2605.10230 2026-05-12 cs.LG

FORGE: Fragment-Oriented Ranking and Generation for Context-Aware Molecular Optimization

Qingchuan Zhang, He Cao, Hao Li, Yanjun Shao, Zhiyuan Liu, Shihang Wang, Shufang Xie, Shenghua Gao, Xinwu Ye

AI总结 FORGE 是一种面向分子优化的两阶段框架，旨在通过局部编辑在保持分子结构相似性的前提下提升其性质。该方法利用自动挖掘的片段编辑对替代人工标注，第一阶段基于分子上下文对候选片段进行排序以注入化学先验知识，第二阶段生成具体的片段替换方案。FORGE 在多个基准测试中表现优于现有方法，展示了基于片段级监督的分子优化新路径。

2605.10229 2026-05-12 cs.CV cs.CY

VPD-100K: Towards Generalizable and Fine-grained Visual Privacy Protection

Xiaobin Hu, Enpu Zuo, Lanping Hu, Kaiwen Yang, Dianshu Liao, Tianyi Zhang, Bo Yin, Yinsi Zhou, Shidong Pan, Xiaoyu Sun

AI总结随着视觉数据共享的普及，隐私保护成为一项重要需求，但现有隐私检测算法因缺乏全面数据集而面临挑战。为此，本文提出一个大规模、细粒度的视觉隐私数据集 VPD-100K，涵盖人类存在、屏幕上的个人身份信息、物理标识符和位置指示等四个领域，包含10万张图像和19万标注对象实例，具有长尾分布、小目标和高视觉复杂度等特点。同时，研究设计了一种基于频率增强的轻量模块，有效提升了对敏感信息细微特征的捕捉能力，实验表明该数据集和方法在多种基准测试中均表现出色。

Comments Accepted at the 43rd International Conference on Machine Learning (ICML 2026)

2605.10224 2026-05-12 cs.AI

Hypothesis-Driven Deep Research with Large Language Models: A Structured Methodology for Automated Knowledge Discovery

Michael Chin

AI总结本文提出了一种基于假设驱动的深度研究方法（HDRI），旨在通过将假设作为研究过程的组织工具，提升人工智能辅助科研的系统性和主动性。该方法引入了六项核心原则和八阶段流程，重点创新包括基于缺口驱动的迭代研究机制和可追溯的事实推理框架，从而实现自动化的知识发现与验证。实验表明，该方法在事实密度、主体匹配准确率和多源验证置信度等方面均有显著提升，并通过五个案例验证了其实际应用价值。

2605.10223 2026-05-12 cs.AI cs.SE

Beyond Autonomy: A Dynamic Tiered AgentRunner Framework for Governable and Resilient Enterprise AI Execution

Kai Pan, Rong Hou

AI总结当前大型语言模型代理框架过于强调自主性，缺乏企业级部署所需的安全可控机制。本文提出了一种动态分层的AgentRunner框架，通过风险自适应分层、权力分离架构和设计韧性机制，实现了在安全性与效率之间的帕累托最优平衡，为企业级AI执行提供了更安全、可控和可靠的解决方案。

Comments 9 pages, 2 figures, 3 tables

2605.10218 2026-05-12 cs.CL

Relative Score Policy Optimization for Diffusion Language Models

Zichao Yu, Shengze Xu, Bingqing Jiang, Wenyi Zhang, Difan Zou

AI总结扩散语言模型（dLLMs）在并行和高效文本生成方面具有潜力，但其推理能力的提升需要有效的后训练方法。传统基于可验证奖励的强化学习（RLVR）方法因缺乏可计算的序列级对数比率而难以直接应用于dLLMs，导致依赖高方差的ELBO近似，影响训练稳定性。本文提出了一种新的RLVR方法——相对得分策略优化（RSPO），通过将奖励优势解释为当前策略与参考策略之间的相对对数比率目标，从而校准噪声估计，提升策略更新的准确性。实验表明，RSPO在规划任务中表现出显著优势，在数学推理任务中也具有竞争力。

2605.10216 2026-05-12 cs.CL

The Impact of Editorial Intervention on Detecting Native Language Traces

Ahmet Yavuz Uluslu, Mark Gales, Kate Knill, Gerold Schneider

AI总结本文研究了编辑干预对识别作者母语痕迹的影响，探讨在不同程度的语法纠错和改写处理下，母语识别模型的鲁棒性。研究发现，母语特征不仅依赖于表面语法错误，还涉及词汇语义选择、语用迁移和文化视角等深层因素，而轻微编辑能够保留这些特征，保持较高的识别准确率，而过度改写则会显著削弱模型性能。

2605.10211 2026-05-12 cs.CL cs.AI cs.IR

To Redact, or not to Redact? A Local LLM Approach to Deliberative Process Privilege Classification

Maik Larooij, David Graus

AI总结该研究针对政府文件中需脱敏发布的“审议过程特权”信息，提出了一种基于本地大语言模型的自动分类方法，以替代依赖第三方云API的处理方式。研究采用Qwen3.5 9B等小型模型，在消费级硬件上实现高精度分类，并通过结合思维链提示和基于错误示例的少样本提示，显著提升了召回率和F2分数，性能接近商业模型Gemini 2.5 Flash。分析表明，审议性内容常包含第一人称和表达意见的动词，这些语言特征是分类的关键依据。

Comments Accepted to The First Workshop on Artificial Intelligence & Open Government at the 21st International Conference on Artificial Intelligence and Law (ICAIL), June 8, 2026, Singapore

2605.10210 2026-05-12 cs.RO cs.CV

Nano-U: Efficient Terrain Segmentation for Tiny Robot Navigation

Federico Pizzolato, Francesco Pasti, Nicola Bellotto

AI总结本文研究了如何在微型机器人上实现高效的地形分割，以支持其在户外非结构化环境中的自主导航。为了解决现有模型在资源受限的微控制器上部署困难的问题，作者提出了一种名为 Nano-U 的轻量二值分割网络，并结合量化感知蒸馏方法进行训练，显著提升了模型性能。该模型在多个数据集上表现优异，并通过改进的编译器工具链成功部署在低成本微控制器上，实现了低功耗、低延迟的实时地形感知。

Comments Code repository: https://github.com/federico-pizz/Nano-U

2605.10205 2026-05-12 cs.LG

Unveiling High-Probability Generalization in Decentralized SGD

Jiahuan Wang, Ping Luo, Ziqing Wen, Dongsheng Li, Tao Sun

AI总结本文研究了去中心化随机梯度下降（D-SGD）在大规模分布式学习中的泛化性能，旨在填补传统SGD与D-SGD在高概率泛化界上的理论差距。作者提出了基于点态均匀稳定性的学习理论，推导出D-SGD在凸、强凸和非凸设置下的高概率泛化界，达到了最优的$\mathcal{O}\left(\frac{1}{\sqrt{mn}}\log (1/δ)\right)$收敛速率，并分析了非凸场景下的梯度基度量和优化误差界。研究还考虑了通信开销，分析了时变框架下本地模型的泛化性能。

2605.10204 2026-05-12 cs.CV

3DReflecNet: A Large-Scale Dataset for 3D Reconstruction of Reflective, Transparent, and Low-Texture Objects

Zhicheng Liang, Haoyi Yu, Boyan Li, Dayou Zhang, Zijian Cao, Tianyi Gong, Junhua Liu, Shuguang Cui, Fangxin Wang

AI总结本文介绍了3DReflecNet，一个专为重建具有反射、透明和低纹理表面物体的3D视觉方法而设计的大规模数据集。该数据集包含超过12万个基于物理渲染的合成样本和1000多个使用消费级设备采集的真实物体，总数据量超过22TB，涵盖了多种材质、复杂光照条件和几何形态。研究还设计了五个核心任务的基准测试，揭示了现有方法在处理这类复杂材料时的性能局限，推动了更鲁棒的3D视觉模型的发展。

Comments This paper has been accepted by CVPR 2026 Oral

2605.10203 2026-05-12 cs.SD eess.AS

Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Music with Acoustic-Informed Attention Calibration

Haowen Li, Tianxiang Li, Yi Yang, Boyu Cao, Qi Liu

AI总结该研究提出了一种名为Polyphonia的零样本音色迁移框架，旨在解决多声部音乐中对特定音轨进行音色编辑时背景伴奏易被破坏的问题。其核心方法是引入基于声学信息的注意力校准机制，通过概率声学先验建立粗略边界，从而在保持非目标音轨语义完整性的同时，更精确地定位并修改目标音轨。实验表明，该方法在目标音轨对齐度上比现有方法提升了15.5%，同时保持了较高的音乐保真度和非目标音轨的完整性。

Comments Accepted by ICML 2026

2605.10202 2026-05-12 cs.LG cs.CL

Task-Aware Calibration: Provably Optimal Decoding in LLMs

Tim Tomov, Dominik Fuchsgruber, Rajeev Verma, Stephan Günnemann

AI总结本文研究了大语言模型（LLM）解码过程中因模型预测分布与真实生成分布不一致而导致的次优决策问题。作者提出了一种任务感知校准（Task Calibration）方法，通过在任务诱导的潜在空间中对模型预测分布进行校准，从而实现更优的解码策略。该方法基于最小贝叶斯风险（MBR）解码理论，证明了在任务校准后的潜在分布上进行解码能够获得最优的生成效果，并引入任务校准误差（TCE）作为衡量校准质量的指标，实验表明该方法在多个任务上有效提升了生成质量。

2605.10199 2026-05-12 cs.CL eess.AS

How Should LLMs Listen While Speaking? A Study of User-Stream Routing in Full-Duplex Spoken Dialogue

Hui Lu, Xueyuan Chen, Huimeng Wang, Shuhai Peng, Shiyin Kang, Xixin Wu, Zhiyong Wu

AI总结本文研究了在全双工语音对话中，大语言模型（LLM）如何在生成自身语音响应的同时持续监听用户输入的问题。作者提出用户流在LLM中的路由方式是影响系统性能的关键架构问题，并设计了两种路由策略进行对比：一种是直接将用户流注入模型输入，另一种是通过交叉注意力机制访问外部记忆。实验表明，直接注入方式在语义理解和问答任务中表现更优，但在用户打断等场景下容易导致上下文混乱；而交叉注意力路由虽然问答性能稍逊，但能更好地保持生成上下文的稳定性，更具鲁棒性。研究为全双工语音对话系统的设计提供了重要的指导。

2605.10198 2026-05-12 cs.LG cs.AI

Empty SPACE: Cross-Attention Sparsity for Concept Erasure in Diffusion Models

Nicola Novello, Andrea M. Tonello

AI总结本文研究如何从文本到图像的扩散模型中去除特定概念，以避免生成受版权保护或不适当的内容。为了解决现有封闭形式概念去除方法在大模型上效果下降的问题，作者提出了一种基于稀疏交叉注意力的高效概念去除方法SPACE，通过迭代更新模型的交叉注意力参数，同时实现概念去除和参数稀疏化，显著提升了去除效果和模型鲁棒性，并大幅降低了存储需求。

2605.10196 2026-05-12 cs.LG

Many Needles in a Haystack: Active Hit Discovery for Perturbation Experiments

Andrea Rubbi, Arpit Merchant, Samuel Ogden, Amir Akbarnejad, Pietro Liò, Sattar Vakili, Mo Lotfollahi

AI总结该研究针对高通量基因扰动实验中如何高效发现具有显著表型效应的干预策略这一问题，提出了一种基于概率的主动实验设计方法。核心方法是引入“Probability-of-Hit”获取函数，通过后验概率直接评估候选扰动是否超过预设效应阈值，从而更高效地识别有效干预。该方法在合成数据和真实生物数据上均表现出优越性能，相比基线方法在某些数据集上提升了6.4%的效果。

Comments To be published in International Conference on Machine Learning (ICML) 2026

2605.10194 2026-05-12 cs.AI cs.LG

TRACE: Distilling Where It Matters via Token-Routed Self On-Policy Alignment

Jiaxuan Wang, Xuan Ouyang, Zhiyu Chen, Yulan Hu, Zheng Pan, Xin Li, Lan-Zhe Guo

AI总结本文提出了一种名为TRACE的新型策略，用于改进基于验证奖励的强化学习中的自蒸馏方法。该方法通过仅在注释者标记的关键推理片段上进行对齐，有效减少了冗余梯度更新和特权信息泄露的问题。TRACE结合了正向KL散度、反向KL散度和GRPO等技术，并在训练初期逐步减少KL通道的影响。实验表明，TRACE在多个数学基准测试中优于现有方法，同时保持了模型在分布外任务上的性能，展示了其在提升推理能力和泛化能力方面的有效性。

Comments work in progress

2605.10190 2026-05-12 cs.CV

DetRefiner: Model-Agnostic Detection Refinement with Feature Fusion Transformer

Soichiro Okazaki, Tatsuya Sasaki, Hiroki Ohashi

AI总结 DetRefiner 是一种用于开放词汇目标检测的模型无关检测优化框架，旨在提升对已见和未见类别的检测性能。该方法通过轻量级的 Transformer 编码器融合全局图像特征和局部图像块特征，生成属性可靠性信息以校准基础检测模型的置信度。DetRefiner 不依赖于基础模型的内部特征或重新训练，仅在推理阶段对检测结果进行辅助校准，显著提升了多个开放词汇检测模型在多个数据集上的性能，尤其在未见类别上取得了最高达 +10.1 AP 的提升。

Comments CVPR 2026 Findings

2605.10189 2026-05-12 cs.LG cs.AI

ProteinOPD: Towards Effective and Efficient Preference Alignment for Protein Design

Yulin Zhang, He Cao, Zihao Jiang, Chenyi Zi, Zhipeng Zhou, Zijing Liu, Yu Li, Jia Li, Ziqi Gao

AI总结本文提出了一种名为ProteinOPD的多目标偏好对齐框架，旨在解决蛋白质设计中偏好引导与保持模型原始设计能力之间的矛盾。该方法借鉴了On-Policy Distillation（OPD）的思想，通过在学生模型的轨迹上进行标记级的知识蒸馏，将多个偏好目标的教师模型知识整合到一个共享的学生模型中，从而在保持蛋白质语言模型设计能力的同时，有效平衡多个竞争目标。实验表明，ProteinOPD在提升目标偏好性能的同时，显著加快了训练速度，优于基于强化学习的对齐方法。

2605.10186 2026-05-12 cs.CL cs.AI

LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

Sijia Chen, Hang Yin, Shunfan Zhou

AI总结该论文提出了一个名为 LegalCiteBench 的基准，用于评估法律语言模型在无外部信息支持下的引用可靠性问题。研究发现，即使是最强大的模型在闭卷设置下也难以准确恢复或生成正确的法律引用，错误率高达94%以上。该基准包含五个以引用为核心的任务，旨在诊断模型在缺乏外部依据时生成错误引用、验证引用准确性以及放弃回答的行为。

Comments Preprint. 23 pages including references and appendices

详情

英文摘要

Large language models (LLMs) are increasingly integrated into legal drafting and research workflows, where incorrect citations or fabricated precedents can cause serious professional harm. Existing legal benchmarks largely emphasize statutory reasoning, contract understanding, or general legal question answering, but they do not directly study a central common-law failure mode: when asked to provide case authorities without external grounding, models may return plausible-looking but incorrect citations or cases. We introduce LegalCiteBench, a benchmark for studying closed-book citation recovery, citation verification, and case matching in legal language models. LegalCiteBench contains approximately 24K evaluation instances constructed from 1,000 real U.S. judicial opinions from the Case Law Access Project. The benchmark covers five citation-centric tasks: citation retrieval, citation completion, citation error detection, case matching, and case verification and correction. Across 21 LLMs, exact citation recovery remains highly challenging in this closed-book setting: even the strongest models score below 7/100 on citation retrieval and completion. Within the evaluated models, scale and legal-domain pretraining provide limited gains and do not resolve this difficulty. Models also frequently provide concrete but incorrect or low-overlap authorities under our evaluation protocol, with Misleading Answer Rates (MAR) exceeding 94% for 20 of 21 evaluated models on retrieval-heavy tasks. A prompt-only abstention experiment shows that explicit uncertainty instructions reduce some confident fabrication but do not improve citation correctness. LegalCiteBench is intended as a diagnostic framework for studying authority generation failures, verification behavior, and abstention when external grounding is absent, incomplete, or bypassed.

URL PDF HTML ☆

赞 0 踩 0

2605.10184 2026-05-12 cs.CV cs.AI

Developing a foundation model for high-resolution remote sensing data of the Netherlands

Paul Vermeeren, Heysem Kaya

AI总结本文提出了一种基于荷兰高分辨率（1.2米）卫星影像的基座模型，结合卷积神经网络与视觉Transformer，以同时捕捉景观的细纹理、边缘、小物体以及大范围地形结构、高程模式和土地覆盖分布等特征。通过引入时间序列数据，模型能够学习跨时间的上下文信息，提升对地形特征、土地覆盖变化和季节动态等时序依赖关系的建模能力，从而减少特征歧义、增强表征学习并提高小样本下的泛化性能。实验表明，该模型在荷兰植被监测等任务中表现优异，并在多个全球基准数据集上取得了与先进模型相当的性能，展现了在有限数据和参数规模下学习通用表征的能力。

Comments 9 pages, 4 figures, under review in a journal

2605.10183 2026-05-12 cs.LG

Fix the Loss, Not the Radius: Rethinking the Adversarial Perturbation of Sharpness-Aware Minimization

Jinping Wang, Qinhan Liu, Zhiwu Xie, Zhiqiang Gao

AI总结该论文重新审视了尖锐度感知最小化（SAM）方法中的损失与扰动半径之间的不匹配问题，提出了一种新的方法——损失均衡SAM（LE-SAM），通过固定损失空间预算而非传统固定的参数空间扰动半径，有效削弱梯度模长主导的学习信号，使优化过程更关注曲率主导的平坦极小值。实验表明，LE-SAM在多个基准任务中表现出更强的泛化能力，优于原始SAM及其变体，达到了当前最优性能。

Comments Accepted by ICML2026

2605.10179 2026-05-12 cs.LG cs.AI

One-Step Graph-Structured Neural Flows for Irregular Multivariate Time Series Classification

Mengzhou Gao, Kaiwei Wang, Pengfei Jiao

AI总结该研究提出了一种名为图结构神经流（GSNF）的一步式模型，用于处理不规则多变量时间序列分类问题。为了解决现有方法在变量间交互建模方面的不足，GSNF引入了两种辅助轨迹自监督策略，通过轨迹发散和逆向时间生成增强图结构学习的效果。实验表明，该方法在多个真实数据集上取得了最先进的分类性能，同时保持了较高的训练效率和较低的内存消耗。

2605.10177 2026-05-12 cs.CV cs.AI cs.RO

MTA-RL: Robust Urban Driving via Multi-modal Transformer-based 3D Affordances and Reinforcement Learning

Guangli Chen, Dianzhao Li, Wenjian Zhong, Bangquan Xie, Ostap Okhrin

AI总结本文提出了一种名为MTA-RL的框架，通过基于多模态Transformer的3D可操作性表示和强化学习，提升城市自动驾驶的鲁棒性。该方法将RGB图像和LiDAR点云融合，生成结构化的几何感知可操作性表示，作为强化学习策略的输入，从而提高决策效率和稳定性。实验表明，MTA-RL在不同密度的交通场景中均优于现有方法，并在未见过的城市环境中表现出优异的零样本泛化能力。

2605.10174 2026-05-12 cs.CV

BathyFacto: Refraction-Aware Two-Media Neural Radiance Fields for Bathymetry

Markus Brezovsky, Anatol Günthner, Frederik Schulte, Lukas Winiwarter, Boris Jutzi, Gottfried Mandlburger

AI总结 BathyFacto 是一种针对水下测绘的折射感知双介质神经辐射场方法，旨在解决传统光束法重建在水下场景中因光折射导致的深度偏差问题。该方法通过引入介质条件颜色头和基于哈希网格的密度场，结合斯涅尔定律模拟光线在空气-水界面的折射路径，从而实现更精确的水下点云重建。实验表明，BathyFacto 在模拟场景中显著提升了重建精度和完整性，优于传统方法和未考虑折射的神经辐射场基线。

Comments 16 pages, 8 figures, 3 tables. Submitted to ISPRS Open Journal of Photogrammetry and Remote Sensing, Special Issue "3D Underwater Mapping from Above and Below"

2605.10172 2026-05-12 cs.CV cs.CL

V-ABS: Action-Observer Driven Beam Search for Dynamic Visual Reasoning

Zhiwei Ning, Xuanang Gao, Jiaxi Cao, Gengming Zhang, Shengnan Ma, Wenwen Tong, Hanming Deng, Jie Yang, Wei Liu

AI总结本文提出了一种名为V-ABS的行动观察者驱动的束搜索框架，用于解决动态视觉推理中的多步骤复杂任务。该方法通过引入思考者-行动者-观察者迭代机制，结合基于熵的自适应加权算法，有效缓解了想象-行动-观察者偏差（IAO偏差），提升了推理的稳定性和最优性。实验表明，V-ABS在多个基准测试中均取得领先性能，显著优于现有模型。

2605.10171 2026-05-12 cs.CL cs.AI

When Reviews Disagree: Fine-Grained Contradiction Analysis in Scientific Peer Reviews

Sandeep Kumar, Yash Kamdar, Abid Hossain, Bharti Kumari, Tanik Saikh, Asif Ekbal

AI总结科学同行评审中常常存在专家意见不一致的现象，随着会议投稿数量的增加，识别和理解这些分歧变得越来越具有挑战性。本文提出了一种细粒度的矛盾分析方法，通过识别完整评审中的矛盾证据片段并赋予分歧强度评分，更准确地刻画评审间的冲突程度。为此，研究者构建了RevCI数据集，并设计了IMPACT框架，结合多智能体推理与证据提取，实现了对矛盾及其严重程度的建模，同时提出了轻量模型TIDE以实现高效推理。

Comments accepted at ACL 2026

2605.10170 2026-05-12 cs.LG

Balancing Efficiency and Fairness in Traffic Light Control through Deep Reinforcement Learning

Matteo Cederle, Giacomo Scatto, Gian Antonio Susto

AI总结本文研究如何通过深度强化学习在交通信号灯控制中平衡效率与公平性。提出了一种新型的深度强化学习代理，能够在动态交通条件下同时考虑车辆和行人流量的公平性需求，实现两者的动态协调。实验表明，该方法在缓解交通拥堵的同时，有效保障了不同道路使用者的公平服务，为智能城市中的交通管理提供了实用且灵活的解决方案。

Comments Paper accepted to the 2026 IFAC World Congress, held in Busan (KOR), August 23rd-28th, 2026

2605.10169 2026-05-12 cs.AI cs.GT

Automated Approach for Solving Infinite-state Polynomial Reachability Games

Krishnendu Chatterjee, Ehsan Kafshdar Goharshady, Mehrdad Karrabi, Maximilian Seeliger, Đorđe Žikelić

AI总结本文研究无限状态图上的回合制可达性博弈，重点在于确定“REACH”玩家是否存在并计算其赢得游戏的策略。作者提出了排名证明（ranking certificates）作为一种完备且可靠的证明规则，并设计了一种针对多项式可达性博弈的全自动算法，能够在子指数时间内计算出赢得策略并生成形式化正确性证明。实验表明，该方法能够解决现有方法难以处理的复杂案例，例如经典“灰姑娘与继母”博弈中首次实现了任意精度参数下的最优策略计算。

2605.10168 2026-05-12 cs.CL cs.IR

ASTRA-QA: A Benchmark for Abstract Question Answering over Documents

Shu Wang, Shansong Zhou, Xinyang Wang, Shiwei Wang, Hulong Wu, Yixiang Fang

AI总结本文提出ASTRA-QA，一个用于文档抽象问答的基准数据集，旨在解决现有问答基准在处理需要综合多文档信息的抽象问题时支持不足的问题。该数据集包含869个问答实例，涵盖五类抽象问题和三种可控检索范围，并为每个实例提供了明确的评估标注，如答案主题集、未支持主题和对齐证据。通过直接评分主题覆盖度和未支持内容，ASTRA-QA实现了无需详尽对比的可扩展评估，并在多种检索增强生成方法上验证了其对覆盖性、幻觉和检索鲁棒性的诊断能力。