作者:小森(南京大学 CS硕士在读)
部门与岗位:核心本地商业 - 业务研发平台 - 大模型
一面
自我介绍,问实习和论文,问的实习内容比较多,主要是和他们做的比较贴近的一个业务场景,问的也挺深的
除了你用到的 Qwen,还了解其他的大模型吗?说一下 LLaMA 的结构吧,它在结构和训练上都做了哪些贡献
了解大模型的位置编码吗?说一说 RoPE 的原理,为什么现在 RoPE 更受大家的欢迎?还了解其他的位置编码吗
DeepSeek 有了解吗,DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化
刚刚提到 MLA,那 MLA 是怎么对 KV Cache 做优化的
说一说大模型后训练的流程
代码:25. K 个一组翻转链表
一面考察八股比较多,主要在几个比较经典的大模型,LLaMA、Qwen 以及 DeepSeek,难度不算大。但是代码题比较难(竟然出 hard……
二面
自我介绍和讲论文讲实习,和一面类似,也是比较关注具体业务场景下做的工作,对论文的讨论并不多
串了一下 Qwen,主要是发布的这几版模型,都做了哪些贡献,包括数据、模型和训练这几个方面,不过问的不深
Qwen 是怎么做长度外推的
了解大模型的解码策略吗,简要说一说吧
代码:199. 二叉树的右视图
聊天环节,职业规划等
二面整体来说比较轻松,问的不深入,比较泛,主要还是看对大模型的了解的多少
总结
美团就进行了两轮技术面,并且难度都不大。后来谈薪的时候才知道,原来我是个大白菜,怪不得面试的这么轻松,果断放弃了
@AI行业洞察