选A:805。因为总显存可用约 8×75 GiB=644,245,094,400 字节,2 亿条文档的 d 维 float32 向量需内存 2×108×d×4 字节,故 $$d_{\max}=\left\lfloor \frac{644{,}245{,}094{,}400}{2\times10^8\times4} \right\rfloor \approx 805$$。
选D:e−2。因为泊松过程的相邻到达间隔 T∼Exp(λ) 且 λ=120/h,1 分钟为 t=1/60 小时,P(T>t)=e−λt=e−120×(1/60)=e−2。
1、在一个 8×A100-80 GB 构成的 GPU 集群上,要上线一个双塔检索模型,要求如下: 文档塔最后一层输出是 d = 1024 维 float32 Embedding; 文档库大小是 2 亿条平均 256 token 的文档; 查询塔与文档塔共享权重; 全部文档 Embedding 需常驻显存以实现毫秒级向量 ANN 检索,且不能使用 CPU 内存或磁盘缓存单卡最大可用显存约 75 GB(框架、缓存、通信占用约5GB);
问:在不压缩、不量化、不断层拆分的前提下,该集群理论上最多能支撑的d维 fioat32 Embedding 的上限是多少?(四舍五入到整数)。 {{ select(1) }}