分享一个类似gpt4v的视觉大模型FireLLaVA及免费api调用实现ui截图生成html代码
FireLLaVA-13b 是一个类似gpt4v的视觉语言模型,它基于开源语言模型生成的指令跟随数据进行训练。
该模型支持多图像和多提示生成,可以在 Fireworks.ai 上使用,也可以在本地使用 transformers 库运行。
使用 transformers 库运行模型时,需要确保 transformers 版本不低于 4.35.3,并遵循正确的提示模板(USER:ASSISTANT:)和添加标记的位置。
先看效果,我让他用bootstrap根据ui截图生成代码,他就生成了类似的代码。
需要注意的是,模型单次仅支持单图对话。
Fireworks.ai 在线体验地址:https://fireworks.ai/models/fireworks/firellava-13b
Fireworks.ai api调用
Fireworks.ai api调用firellava方式:
先申请一个免费的Fireworks.ai的key
新用户每月赠送50美元的tokens
然后就可以在代码中采用http请求api进行图片识别对话了
import requests import json url = "https://api.fireworks.ai/inference/v1/chat/completions" payload = { "model": "accounts/fireworks/models/firellava-13b"...
点击查看剩余70%
网友评论