1、
答案:B. 使用位置编码的目的是为了让模型获得序列中每个token的上下文信息
解析:位置编码的作用是给模型提供位置信息/顺序信息,不是直接提供上下文信息。上下文信息主要来自注意力机制对其他 token 的建模。
1、下面关于大模型中使用的Position Encoding机制,说法错误的是()
{{ select(1) }}
Rotary Position Embedding (RoPE)可以嵌入角度信息,从而提升推理能力
使用位置编码的目的是为了让模型获得序列中每个token的上下文信息
学习型绝对位置编码(如BERT)无法支持超过训练时最大长度的输入
相对位置编码比绝对位置编码更适合泛化到更长序列
2、在一棵度为4的树T中,若有10个度为4的结点,15个度为3的结点,4个度为2的结点,9个度为1的结点,则树T的叶结点个数是()
{{ select(2) }}
65
93
73
64
3、预训练任务NSP(Next Sentence Prediction)的作用是()
{{ select(3) }}
学习句子间逻辑关系
加速模型收敛
预测掩码词的位置
生成连贯的段落
4、下列哪个数据结构不属于设备分配()
{{ select(4) }}
控制器控制表
系统设备表
逻辑控制表
设备控制表
5、RAG出现“召回相关但回答仍不对”,更常见的排查顺序是()
{{ select(5) }}
先看证据是否覆盖要点,再看重排与生成是否正确用证据
先把topK调到1,再看是否还有错误
先把temperature调到0,再看是否还有错误
先换更大模型,再看回答是否变好
6、做模型蒸馏时,学生模型在训练集拟合很好,但线上对长尾问题泛化差。更可能的原因是()
{{ select(6) }}
学生模型太小导致无法记住训练集,所以才会泛化差
蒸馏只适合分类不适合生成,因此线上必然会泛化差
蒸馏温度太高导致训练不稳定,应把温度调到接近0
蒸馏目标过度跟随教师分布,长尾样本覆盖不足导致偏差
7. 下列选项中,在升序有序表中进行折半查找,能构成折半查找中关键字比较序列的是()
{{ select(7) }}
50, 65, 47, 62, 63
50, 65, 57, 47, 54
50, 98, 73, 79, 84
50, 20, 6, 21, 18
8、分布式训练偶发卡在allreduce附近,日志显示某个rank提前退出。更可能的原因是()
{{ select(8) }}
混合精度范围变化更大,collective更容易出现死锁
某些rank走了不同分支或异常退出,参与方不一致
数据加载不均衡导致慢卡拖后腿,最终表现为卡通信
学习率偏高触发nan,通信层因此自动暂停等待恢复
9、参数高效微调方法(如LoRA)的主要优势是( ) {{ select(9) }}
仅需调整少量参数即可适配新任务
减少预训练阶段的算力消耗
彻底避免过拟合问题
大幅提升模型推理速度
10、以下哪种状态码表示服务器成功处理请求但未返回内容?
{{ select(10) }}
201 Created
304 Not Modified
204 No Content
200 OK