所有版本 - 学术资源搜索

文章

学术资源搜索

获得 3 条结果（用时0.02秒）

Bliva: A simple multimodal llm for better handling of text-rich visual questions

W Hu, Y Xu, Y Li, W Li, Z Chen, Z Tu - Proceedings of the AAAI …, 2024 - ojs.aaai.org

Vision Language Models (VLMs), which extend Large Language Models (LLM) by
incorporating visual understanding capability, have demonstrated significant advancements …

被引用次数：57 相关文章

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

W Hu, Y Xu, Y Li, W Li, Z Chen, Z Tu - arXiv e-prints, 2023 - ui.adsabs.harvard.edu

Abstract Vision Language Models (VLMs), which extend Large Language Models (LLM) by
incorporating visual understanding capability, have demonstrated significant advancements …

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

W Hu, Y Xu, Y Li, W Li, Z Chen, Z Tu - arXiv preprint arXiv:2308.09936, 2023 - arxiv.org

Vision Language Models (VLMs), which extend Large Language Models (LLM) by
incorporating visual understanding capability, have demonstrated significant advancements …

高级搜索

QQ 群

Bliva: A simple multimodal llm for better handling of text-rich visual questions

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions

引用