Minigpt-4

打开网站

MiniGPT-4是一种通过将冻结的视觉编码器与冻结的大型语言模型（LLM）结合使用来增强视觉语言理解的工具。它仅需要一个投影层就能实现这一目的。MiniGPT-4能够生成详细的图像描述，根据手写草案创建网页，根据给定的图像创作故事和诗歌，解决图像中展示的问题，并教用户如何根据食物照片烹饪。MiniGPT-4在计算上非常高效，因为它只需要训练线性层，大约需要500万对图像-文本对来对视觉特征与Vicuna进行对齐。

访问量: 210.3K

国家: United States

AI对话聊天 Open Source

分享