AI刀锋下的“幸存法则”:语言学毕业生去做NLP,“中间层”最难破局
2023年春招结束,读了七年中文系的舒蕾如愿成为了互联网公司的NLP算法工程师。
大三的时候,就读于中国语言文学系应用语言学的舒蕾,偶然间选择了一位计算语言学方面的导师来指导自己的论文。计算语言学是一门结合语言学与计算机科学的学科,研究如何使用计算方法分析、理解和生成自然语言。它既是理论语言学的技术分支,也是人工智能(AI)和自然语言处理(NLP)的重要组成部分。
在完成论文的过程中,舒蕾主动学习了R数据分析和python。她的想法既浪漫又实际:“一个是觉得写代码比较帅。另一方面也有薪资上的考虑。”
保研进了北师大的中文信息处理研究所后,舒蕾开始为转码做准备,除了课程必修的微积分、概率论、python、机器学习、NLP概论等内容,自己也坚持刷题,follow前沿的模型结构,动手部署、微调一些小模型。
投身于计算语言学这个交叉学科的研究,舒蕾将技术手段结合进传统中文系词义学的研究。在校期间她发表的CCL会议论文被评为当年的最佳论文,用BERT语言模型去解释古汉语的多义词问题。
计算语言学的难度与中文系的其他方向相比是比较高的,要跨学科学习很多内容。一学期的python+机器学习课就让很多人劝退了,能坚持上完2年的课程后还继续写代码的就更少了。
舒蕾攻读了下来,这期间还申请了两次微软的暑期实习。第一次是研一,因为题目不会做、基础也比较差面试没过,这个小挫折也让她真正给自己定下了目标。“随后我密集地刷了一年的题+恶补数据结构。22年的微软暑期实习面试顺利通过了,进了苏州STCA,即微软(亚洲)互联网研究院,做偏数据+后端的实习。”