今日,人工智能领域的领军企业OpenAI再次投下一枚“重磅炸弹”,正式向所有ChatGPT Plus和企业版用户推出了其备受期待的多模态模型——GPT-4V(ision)。这意味着,用户现在可以直接在对话中上传图像,并与AI进行关于该图像的深度、复杂的对话。
与此前简单的图像标注技术不同,GPT-4V展现出了令人惊叹的图像理解和推理能力。在官方演示中,用户上传了一张冰箱内部储物照片,GPT-4V不仅能准确识别出里面的各种食材(如牛奶、鸡蛋、蔬菜),还能根据现有材料为用户推荐几道可行的菜谱,并列出烹饪步骤。此外,它还能解析复杂的图表、解释 meme(网络梗图)的笑点、从手绘草图中生成网站代码,甚至能阅读和研究论文中的图形和数据。
OpenAI表示,GPT-4V的发布是朝着更自然、更全能的人工智能助手迈出的关键一步。它打破了文本与视觉信息之间的壁垒,使AI能像人类一样,综合多种信息源进行思考和回应。这一技术预计将在教育(辅助学习复杂概念)、医疗(初步分析医学影像)、无障碍服务(为视障人士描述世界)、内容创作及客户服务等多个领域产生深远影响。
然而,强大的能力也伴随着新的挑战与风险。OpenAI在博客中特别强调了其部署过程中的安全性考量。公司已实施多项防护措施,以防止模型被用于身份识别、对人物进行主观评判或解读仇恨符号等内容。随着此类技术的普及,关于隐私、偏见和滥用的伦理讨论必将进一步升温。无论如何,GPT-4V的全面开放,无疑标志着AI多模态时代已加速到来。