corpus[0…N-1] 按时间递增(下标既是时间点/编号)。(t, q) 的检索窗口只看 L = max(0, t-K+1) 到 R = min(t, N-1) 的 M=R-L+1 篇文档。j 篇(最新 j=1)的权重
weight = (K - j + 1) / K(最新 1,最旧 1/K)。传统TF−IDF方法对突发新闻的敏感度不足,为提高热点词识别效果,某新闻热点追踪平台提出基于历史窗口的TF-IDF方法,具体地,在某个时间点t提出一个查询q时,系统不应该在整个历史文档库中进行大海捞针式的搜索。
相反,它需要智能地聚焦于查询发生时间点 t 前的一段”历史时间窗口“内的文档,并且只需考虑这个窗口内最新的信息。
您的任务就是实现这个“历史窗口”检索引擎的核心逻辑。
历史窗口:仅计算从查询时间点 t 开始之前的 K 篇文档的词频,而非全部历史文档。