真滴优秀！！！

原创向优秀学习的 Datawhale

Datawhale干货

分享：Datawhale优秀学习者**

上周我们公布了第一期优秀学习者的名单。

评论区都刷满了“宾大非江哥哥我的榜样”，“向非江哥哥对齐颗粒度，早日达成ai大神”，“数风流人物，还看非江”。

让我们一起和AI夏令营优秀学习者“对齐颗粒度”吧！！

AI夏令营第三期报名地址👉：提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！

和优秀学习者们一起成长。

优秀学习者经验帖

王琳

（AI夏令营第一期机器学习方向）

在本次夏令营学习过程中，我收获了以下学习经验，

1. 数据预处理的重要性：在项目开始时，数据预处理是非常关键的一步。通过这次实践，我深刻体会到清洗和处理数据的重要性。确保数据的完整性和一致性，可以为后续的特征工程和模型训练打下坚实的基础。

2.特征工程的技巧：有效的特征工程能够显著提升模型的表现。通过学习RDKit处理SMILES字符串，并结合TF-IDF进行向量化处理，我学会了如何从数据中提取更有用的信息，为模型提供更好的输入特征。

3.模型选择与评估方法：选择合适的模型和评估方法是机器学习项目成功的关键。在这次项目中，CatBoost模型展示了其在处理类别特征和非平衡数据方面的优势，而通过KFold交叉验证方法评估模型性能，可以确保模型的稳定性和泛化能力。

4.多次尝试与调试：在项目过程中，多次尝试不同的方法和参数是非常必要的。通过不断调试和优化代码，我不仅提高了代码的可读性和运行效率，还积累了大量的调试经验，增强了自己的编码能力。

笔记链接：https://kvvfq6pisy7.feishu.cn... 实践赛事：https://challenge.xfyun.cn/h5...\_Dv9Q7B

韩松良

（AI夏令营第一期大模型技术方向）

作为一名旅游管理专业的研究生，尽管属于社科类，但在学习过程中，我意识到Python和大模型技术在现代研究中的重要性，因此参加了为期一周的大模型夏令营，希望提升自己的技术水平，特别是在智慧旅游和“旅游+”领域的应用。

随着课程的深入，我认识到数据处理在大模型应用中的关键作用。通过清洗和预处理数据，并设计合理的prompt，可以显著提升模型表现。数据质量和处理方法直接影响模型效果，这使我在今后的研究中将更加注重数据的整理和优化，以提高模型的准确性和可靠性。例如，在智慧景区管理中，实时数据的分析和处理可以帮助预测游客流量，优化景区资源配置；在旅游推荐系统中，清洗后的游客偏好数据可以提高推荐的精准度；在遗产保护方面，大模型可以帮助识别和分类文物信息，提供保护和修复建议。

在微调模型的过程中，我学到了个性化调整的重要性。通过微调，使模型更好地适应特定任务和数据，这是提升模型实际应用效果的关键。模型应用需要根据具体需求进行不断优化和调整，这对于旅游管理中的许多场景尤为重要，例如在不同景区或旅游季节，游客行为模式的差异需要模型相应调整以保持高效性和准确性。

邓一鑫

（AI夏令营第一期大模型技术方向）

非常荣幸能和大佬们在一起学习大语言模型，我本身是景观设计行业的，这方面的经验可能很少，听完诺神和其他几位大佬的思路之后，我茅塞顿开，大概知道的解决思路。

就像多轮询问打分机制就可以规避姓名空值多的原因，再就是诺神提到的增强模型信息抽取能力一个微调办法。

而且我本身这种根据训练集的数据分布，让模型进行选择这个思路，对于模型的发展来说并不具有太大的意义，因为这种方法扼杀了模型的泛化能力，就像考试中的应试教育一样，所以应该尽量不要用这种方法去引导，总之就是，收获满满。

笔记链接： https://pvbszzjuhcv.feishu.cn...（过分优秀）实践赛事： https://challenge.xfyun.cn/h5...\_Dv9Q7B

陈馨远

（AI夏令营第一期机器学习方向）

在跑通baseline之后，我尝试构建其他机器学习模型，以期提高准确率。起初，我也是一头雾水，模型的选择、参数调优问题等一系列亟待解决的问题。但通过上网搜集资料、与同学们交流学习，我逐个找到了解决问题的方法。我学习了很多之前未曾接触的机器学习算法和技术，如LightGBM、XGBoost等高效的梯度提升算法，CatBoost在处理分类特征方面的专长，RDKit在化学信息学领域的强大应用，TF-IDF在文本挖掘中的加权技术，以及交叉验证在模型评估中的重要性。这些知识不仅丰富了我的技术储备，也为我解决实际问题提供了学习方向。

笔记链接（甘肃政法大学有自己的笔记站！！！）： https://pvbszzjuhcv.feishu.cn... 实践赛事： https://challenge.xfyun.cn/h5...\_Dv9Q7B

第一期优秀学习者学习心得&思考

非江哥哥

（AI夏令营第一期大模型技术方向）

大佬们关于比赛的细节和感想都在笔记里说的很清楚了。不过我个人背景比较偏research而不是工程，因此我想谈谈这个比赛对research的引领作用。”

------

做完这个比赛大家基本上都对Prompt Engineering和微调有一些思路了。我最近在写LLM的论文，也读了很多LLM的论文，这里来分享一下用做LLM+science应用科研的思路吧。大家之后可以结合自己的下游科学方向做一些应用研究，这种工作目前也是可以发论文（水论文）的。

比如用LLM+微调检测xxx、LLM+上下文学习+CoT/ToT检测xxx。需要注意的是单纯的Prompt Engineering已经研究的太多了，这种论文除非是非常新的领域，不然已经没有什么新意了。目前应用方面的论文主流还是在研究各种微调技术的应用，以及把LLM结合传统深度学习模型如GNN来做检测任务等等。

我做的是AI for Science方向，之前某个science方向没有人探索利用LLM做分类和检测，因此我就“抢占先机”用LLM做了这个方向。我第一篇论文发的是LLM+上下文学习，第二篇做的是微调，之后可以继续做LLM+GNN...

如果有人做science方向，也可以结合自己目前的研究方向思考一下能不能用LLM做。LLM很强大，传统机器学习的分类和检测基本上都能做，不过需要好好调教Prompt和微调，以及需要资金来调用GPT4接口...这个过程中还有许多可以玩的地方，比如如何选择示例，如何构造图信息，如何利用COT和ToT，如何把LLM和GNN等深度学习模型联合训练, 知识图谱+LLM....

最后，如果想做一些更高质量的工作，想要从LLM结构上做创新，就必须搞清楚LLM内部的原理，例如transformer和注意力机制内部的细节。很多厉害的工作都是在理解细节和原理的基础上才做出来的，比如用对比学习结合LLM，这也是我之后努力的方向。

总之，比赛是实践入门的好渠道，但如果想继续做一下好玩的工作，还需要多看看paper，多看看底层细节。datawhale的github上有很多资料，吴恩达的gpt课程也很精彩。我们下一个比赛再见。

笔记链接：

https://zhuanlan.zhihu.com/p/...

实践赛事： https://challenge.xfyun.cn/h5...\_Dv9Q7B

张永刚

（AI夏令营第一期大模型技术方向）**

大家好，我是货拉拉拉不拉多，感谢Datawhale开源学习平台提供的AI夏令营学习机会，很荣幸能够成为优秀学习者。在这里，我不仅提升了自己的技术水平，还有十分丰富的学习体验

特别是在这次比赛中，通过大模型微调的学习，尽管我们无法掌控Lora微调的过程，但是我发现优秀的数据观察能力也是十分重要，好的数据预处理和prompt构造对大模型微调也是十分重要的，这些经验都让我受益匪浅。大家的智慧和努力，使得这个学习过程充满了挑战和乐趣。

再次感谢Datawhale开源学习平台，感谢平台上各位老师和助教的耐心指导，以及各位同学们的积极交流和讨论。正是有了你们的帮助和支持，我才能在这个夏天收获如此多的知识。希望我们在未来的学习和工作中，能继续保持进步！

感谢大家！

笔记链接：http://t.csdnimg.cn/lD8YQ 实践赛事： https://challenge.xfyun.cn/h5...\_Dv9Q7B

张世斌

（AI夏令营第一期大模型技术方向）

笔记链接： https://d167yddq51j.feishu.cn... 实践赛事： https://challenge.xfyun.cn/h5...\_Dv9Q7B

李永胜

（AI夏令营第一期机器学习方向）

大家晚上好，我是李永胜，很荣幸能评为优秀学员。说来惭愧，最初是在去年看到李沐老师和Datawhale共同组织学习《动手学深度学习》知道了Datawhale这个组织，但遗憾的是参与了几次活动，都是仅仅“适度体验”了一下。但在这个体验的过程中，不知不觉就了解了很多人工智能的知识，积累了一定的兴趣。后来ChatGPT3.5一发布，我第一时间就告诉了同学，但那时大家还不怎么感兴趣。再后来，当越来越多人使用AIGC工具，已经变为生产力工具了，这下不仅兴趣使然，而且也有必要学习这一工具了。

最后再分享偶像李沐老师的一篇文章：https://www.bilibili.com/read...，十分富有哲理。