参考: https://segmentfault.com/q/1010000044597203
- https://github.com/THUDM/CogVLM2
- https://github.com/OpenBMB/MiniCPM-V
- https://github.com/QwenLM/Qwen2-VL
- https://huggingface.co/OpenGVLab/InternVL2-8B
假设在使用上面的 vlm 的时候。我想让其记住《甄嬛传》76 集里面的所有剧情和画面呢?
怎么添加训练?有思路可以分享吗?训练之后,我希望可以实现的效果:
- 问它第几集几分几秒再讲什么,可以告诉我对应的剧情
- 给它一个图片,可以告诉我出现在第几集的几分几秒