从“相关论文”到“支持证据”：我们最近优化了什么

找论文并不难，难的是找到真正支持一句话的论文。

这正是很多文献工具最容易失真的地方。一篇论文可能主题相关，可能包含相似医学术语，也可能来自同一个研究方向，但它并不一定真的支撑用户原本那句话。对研究者、学生和学术写作者来说，这会带来很重的人工判断成本：输入一句话，得到一批结果，然后还要自己逐篇判断到底哪些能用。

我们最近这一轮优化，重点就在缩短这段判断链路。

真正的问题不是“能不能找到论文”

在反查文献场景里，用户通常不是想拿到一个泛泛的阅读列表，而是在问更具体的问题：

这意味着，“相关性”本身是不够的。我们需要更接近“证据”。

很多用户输入的不是几个关键词，而是正在写的真实句子，甚至一整段文字。里面往往同时包含多个子观点。

这一轮我们增强了长输入的处理方式，让复杂表达能够以更合理的句子单元被检查。这样做的好处是，后半句、第二个 claim、补充性的流行病学描述，不再那么容易被整体 query 稀释掉。

更直接地说，长句不那么容易变成一个过宽、过散的检索请求了。

另一个非常重要的场景，是用户用中文表达观点，但需要找到英文生物医学文献。

这件事并不等于“翻译一下”就行。科学表达里，字面翻译很容易偏，过宽泛的改写又可能背离原意。

所以这一轮我们增强了中文 claim 的理解与匹配，希望系统尽量还原用户真正想表达的 scientific claim，而不是只做表层词汇匹配。

我们在测试中反复看到一个现象：前几条结果不够好，并不等于数据库里没有支持文献。

很多时候，支持性更强的论文其实存在，只是没有排到足够靠前的位置。因此，这一轮我们扩大了候选证据的召回覆盖，让系统在排序之前，先更充分地把可能有价值的结果找出来。

这能提高用户看到真正可用证据的概率，而不是只看到一批泛泛相关结果。

一篇论文不应该只因为和 query 共享几个医学术语，就排到前面。

更重要的是，这篇论文是否更可能：

这是一个非常关键的体验变化。用户真正需要的，不是“主题差不多”的论文列表，而是一个能减少判断工作量的证据列表。

这一轮我们还补上了一个很实用的能力：结果支持按证据类型筛选，包括：

这让结果页更适合真实使用场景。

比如：

综合来看，这一轮优化不是简单地“搜得更多”，而是更努力地把结果推向“真正可用”。

用户现在更可能感受到：

我们的目标很简单：尽量缩短“用户写下一句话”到“看到可判断证据”之间的距离。

这也是我们会继续优化的方向。