最新大模型面经+感受，4家大厂offer！

硕士阶段的方向是强化学习，毕业后加入大厂做强化学习在游戏中的应用，已经有两年多了。这两年赶上了大厂很不好的光景，晋升被卡，涨薪变慢，真的是一言难尽。也算是openAI给饭吃，最近大火的大模型里用到了强化学习。因此想要尝试跳槽，换一份大模型方向的工作，做RLHF或者LLM-agents。

在boss上挂完简历，发现来聊的hr或者猎头倒是不少，可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后，发现很多LLM岗位还是需要过往有NLP的经验，这个倒也是符合预期。对于阿里系（拆分后各个事业群独立招聘）、字节、百度等大厂，或者百川智能、360等比较头部有名气的中小公司，或许也能给到面试机会，但是在面试过程中一旦涉及到LLM具体的项目经验，像我这种完全空白的人来说只能尴尬地说没做过，背过的一些八股文也只能勉强应付。

面试一圈下来，拿了百度、美团、滴滴、快手这几家偏业务的算法岗位offer，但是跟大模型没啥关系，基本上都是各家业务的核心算法岗。感觉他们可能是因为这两年刚毕业一批人，空出一些hc，因为我这种强化学习背景的，只能说是业务算法的一个探索方向，不算是核心解决方案。大模型方向的offer，只拿到两个，打算选择其中一家。虽然现在大环境仍然不算好，跳槽有风险，尤其是创业公司，但是在大厂里温水煮青蛙也是困境。搏一搏，单车变摩托。下面是面试过程中记录的一些关于大模型、强化学习的问题，仅供参考。

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？

2. PPO算法和DQN算法的区别是什么？

3. 有哪些PPO算法的调参经验？

4. 在线强化学习和离线强化学习在技术和应用场景上有什么区别？

5. 强化学习和大模型之间的关联是什么？

6. 如何评估大模型中数据集的质量？

7. 目前国内一般选择基于哪些基座模型继续训练？

8. 国内做大模型的主要工作是哪几个部分？

9. 除了数据之外，还有哪些方向的工作可以进一步优化大模型的效果？

10. 大语言模型是怎么输出的，观察过输出的概率值吗？

11. 关于微调的方法有哪些？

12. 如果让你训练一个模型，基座，数据，finetune的方法怎么选？