如何让 vlm 视觉大模型记住一整部电视剧?

参考: https://segmentfault.com/q/1010000044597203

假设在使用上面的 vlm 的时候。我想让其记住《甄嬛传》76 集里面的所有剧情和画面呢?

怎么添加训练?有思路可以分享吗?训练之后,我希望可以实现的效果:

  • 问它第几集几分几秒再讲什么,可以告诉我对应的剧情
  • 给它一个图片,可以告诉我出现在第几集的几分几秒
阅读 694
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏