一个强大的多模态模型和项目集合,探索最强的多模态智能体。
- 07/04/2024: OmAgent 现已开源。🌟 探索我们的复杂视频理解多模态智能体框架。阅读我们的论文了解更多。
- 06/09/2024: OmChat 已发布。🎉 尝试我们多模态大语言模型的强大功能,具备视频理解并支持长达512k的上下文。更多详情请见技术报告。
- 03/12/2024: OmDet 现已开源。🚀 体验我们快速且准确的开放词表多模态目标检测(OVD)模型,最快推理速度可达到100 FPS。欲了解更多请阅读我们的论文。
⭐️ OmAgent
基于Task Divide-and-Conquer的复杂视频理解多模态智能体框架
⭐️ OmDet
快速且准确的开放词表端到端多模态目标检测模型
⭐️ OmChat
具有超长上下文和强大视频理解能力的多模态大语言模型
⭐️ OVDEval
一个开放词表目标检测模型的综合评估基准数据集
🏷️ How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection
发表于: AAAI, 2024
发表于: IET Computer Vision, 2024
发表于: Arxiv. 2024
🏷️ OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer
发表于: Arxiv. 2024
🏷️ OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding
发表于: Arxiv. 2024
发表于: NAACL, 2021
如需更多信息,请随时通过tianchez@hzlh.com联系我们。
感谢您访问OmModel的仓库。希望我们的项目和论文对您有所启发和帮助!