🖼️ 多模态人工智能的兴起,使历史模拟更加生动,通过图像与文本交互生成历史场景。
单一大型语言模型的局限性变得更加明显,导致转向更小、更专业化的模型。
在他眼里,地震很大程度上是随机过程——我们可以把概率附加到事件上,但无法准确预测。
这一功能的背后是阿里通义实验室自研的视频生成模型Animate Anyone。在Github上,该项目的Star数短短数日就超过1万,被认为是近期大模型领域最受欢迎的大模型算法之一。
LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面,LLaVA的表现相对于GPT-4的评分达到了85%,在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时,能够全面而有逻辑地生成回答,并且可以以JSON格式输出。