麻省理工学院研究揭示大型语言模型在视觉领域的潜力

留学申请微信咨询

微信扫描左侧二维码

或点击下方按钮咨询

麻省理工学院（2024USNews美国大学排名：2）（MIT）的计算机科学与人工智能实验室（CSAIL）最近的一项研究揭示了大型语言模型（LLM）在视觉领域的潜力。研究人员发现，主要通过文本训练的LLM能够通过代码生成复杂的视觉概念，并进行自我修正。这一发现不仅展示了LLM在视觉理解方面的潜力，还为未来的人工智能研究和应用提供了新的方向。

LLM在生成复杂视觉概念中的应用

麻省理工学院计算机科学与人工智能实验室的研究人员开发了三种神经符号方法，利用自然语言帮助语言模型在编码、规划和机器人领域构建更好的抽象库。这三种方法分别是LILO、Ada和LGA。LILO（从语言观察中归纳库）可以合成、压缩和记录代码；Ada（动作域获取）探索人工智能代理的顺序决策；LGA（语言引导的抽象）帮助机器人更好地理解环境，以制定更可行的计划。

LILO结合了标准的大型语言模型和Stitch算法，能够在代码中找到抽象并记录在库中。Ada通过训练潜在任务及其自然语言描述，提出行动抽象，并由人类操作员筛选最佳计划。LGA则通过自然语言描述任务，帮助机器人在复杂环境中执行任务。这些方法展示了自然语言在提供上下文和改进语言模型推理方面的重要性。研究表明，这些方法在编码、AI规划和机器人导航任务中显著提高了任务准确性。未来的研究将致力于扩展这些方法，以处理更广泛的编程语言和实际环境中的任务。

通过插图训练计算机视觉系统

麻省理工学院计算机科学与人工智能实验室的研究人员发现，纯文本训练的大型语言模型对视觉世界有着扎实的理解。通过编写图像渲染代码，这些模型能够生成复杂的场景，并在每次查询时改进其简单的剪贴画绘图。研究人员构建了一个“视觉能力数据集”，测试这些模型绘制、识别和自我纠正视觉概念的能力，并利用这些插图训练了一个计算机视觉系统，该系统能够识别真实照片中的内容。研究表明，即使没有直接使用任何视觉数据，LLM也能通过生成代码来表达其视觉知识，并在此基础上训练出高性能的视觉系统。

研究人员认为，将LLM的隐藏视觉知识与其他AI工具（如扩散模型）的艺术能力结合起来，可能会带来更多好处。尽管LLM有时无法识别它们能够绘制的概念，但它们展示了以不同方式绘制相同概念的创造力。研究人员计划进一步扩展他们对LLM的挑战任务，并探索让LLM直接与视觉模型合作以训练更好的视觉模型。

“视觉能力数据集”的创建与目的

微软研究人员开发了一种新的小型语言模型（SLM）系列，称为Phi-3，这些模型在性能和成本效益方面表现出色。Phi-3模型在语言、编码和数学能力的各种基准测试中表现优异，尽管其规模较小，但其性能超过了同等规模和更大规模的模型。微软宣布，Phi-3-mini是该系列中首个公开发布的模型，拥有3.8亿参数，其性能优于两倍大小的模型。Phi-3-mini现已在Microsoft Azure AI Model Catalog、Hugging Face和Ollama等平台上提供，并将作为NVIDIA NIM微服务提供。微软还计划推出Phi-3-small（7亿参数）和Phi-3-medium（14亿参数）模型。

小型语言模型适用于需要本地运行的应用程序，特别是在任务不需要复杂推理或需要快速响应的情况下。它们还为需要高质量结果但希望将数据保留在本地的受监管行业提供了潜在解决方案。SLM可以在智能手机和其他不连接云的移动设备上运行，最大限度地减少延迟并提高隐私性。

微软研究人员通过一种创新的训练方法，使用高质量的数据集来训练这些小型语言模型。这个方法受到儿童读物的启发，研究人员创建了一个名为“TinyStories”的数据集，并使用它来训练小型语言模型。随后，他们使用经过精心筛选的高质量数据来训练更大的Phi-1模型，并进一步发展出Phi-3系列。

尽管小型语言模型在处理复杂任务方面不如大型语言模型，但它们在本地设备上的计算和不需要云计算的任务中具有独特优势。微软内部已经在使用一套模型，其中大型语言模型充当路由器，将某些任务分配给小型语言模型处理。SLM的优势在于其计算效率和隐私保护，特别是在边缘计算和设备本地计算中。

结合LLM的隐藏视觉知识与其他AI工具的潜在好处

生成式人工智能（Generative AI）是一种能够生成各种内容的人工智能技术，包括文本、图像、音频和合成数据。尽管生成式AI技术并非全新，但其在2023年初因ChatGPT的出现而引起广泛关注。生成式AI的核心技术包括生成对抗网络（GANs）和变压器（Transformers），前者在2014年引入，使得生成式AI能够创建逼真的图像、视频和音频。变压器则使得研究人员能够训练更大规模的模型，并引入了“注意力”机制，能够追踪单词之间的联系，从而生成更具深度的答案。

生成式AI的应用范围广泛，包括电影配音、教育内容、深度伪造和网络安全攻击等。尽管生成式AI在生成可读文本和逼真图像方面取得了显著进展，但其早期实现仍存在准确性和偏见问题。未来，生成式AI有望在编写代码、设计新药、开发产品、重塑业务流程和改造供应链等方面发挥重要作用。生成式AI的工作原理是从一个提示开始，通过各种AI算法生成新的内容。早期的生成式AI需要通过API提交数据，而现在的用户界面更加友好，可以用自然语言描述请求。

生成式AI模型结合了多种AI算法来表示和处理内容，如GANs和变分自编码器（VAEs）。变压器如Google的BERT和OpenAI的GPT等也在生成新内容方面取得了进展。生成式AI工具如Dall-E、ChatGPT和Gemini等在生成图像和文本方面表现出色，但也引发了关于结果质量、误用和滥用的担忧。生成式AI的未来发展将继续在翻译、药物发现、异常检测和新内容生成等方面取得进展，并逐步融入现有工具中，提高生产力。

综合总结

麻省理工学院计算机科学与人工智能实验室的研究展示了大型语言模型在视觉理解和生成方面的潜力。通过文本训练的LLM能够生成复杂的视觉概念，并进行自我修正，这为未来的人工智能研究和应用提供了新的方向。研究人员通过构建“视觉能力数据集”并利用这些插图训练计算机视觉系统，展示了LLM在视觉领域的潜力。结合LLM的隐藏视觉知识与其他AI工具（如扩散模型）的艺术能力，可能会带来更多好处。

微软研究人员开发的小型语言模型（SLM）系列Phi-3展示了在性能和成本效益方面的优势，特别是在本地设备上的计算和不需要云计算的任务中。生成式人工智能技术的进步也为未来的人工智能应用提供了广泛的可能性，包括编写代码、设计新药和开发产品等。

总的来说，LLM在视觉理解和生成方面的潜力，以及SLM在本地计算中的优势，展示了人工智能技术在未来的广泛应用前景。通过结合不同AI工具的优势，未来的人工智能系统将能够更好地理解和生成复杂的内容，为各个领域带来更多创新和进步。