371 词
Instruct-Imagen 谷歌这个多模态图像生成模型Instruct-Imagen强啊,真正的将 LLM 和现在的 SD 生态进行了整合。 它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。 相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。 具体的研究内容: 引入多模态指令,任务表示普遍表示来自多种模态的指令,例如文本、边缘、掩码、样式、主题等。 建议执行检索增强训练和多模态指令调整,以适应预先训练的文本到图像模型以遵循多模态指令。 构建了Instruct-Imagen,这是一个处理异构图像生成任务的统一模型,超越了各自领域的多项最先进技术。 Instruct-Imagen 可以推广到看不见的复杂任务,无需任何临时设计。 https://browse.arxiv.org/html/2401.01952v1
1k 词
AIGC封面提示词 今天的 [#晚安提示词 是一套春节主题的写真,主要会说一下探索的过程的模板,这套的工作量很大。 之前说过做Catjourney不只是要分享好看的图片和提示词,更重要的是让大家在工作中能够用上,并且好用。 目前AI图片的场景比较大的是两类,一类就是自己当封面图和贺图,另一类是帮助C端用户拍摄AI写真,就类似妙鸭,这类场景良好的模板图和底图非常重要。今天的图就是这类的。 这类图片主要会模仿棚拍的写真,往往背景比较干净,但是妆造狠下功夫,很多都是特写。 这套图片图片的难点主要是两个: 第一个是V6为了增加真实感会给生成的人脸增加很多瑕疵,比如画东亚女性就会有很多冻伤的痕迹或者雀斑之类的,写真是要避免这些的,所以增加了“极佳的皮肤”、“美容产品广告”、“模态”等词来限制。 第二个是需要营造春节和新年的氛围,为了模仿棚拍增加了“照相馆”,“纯色背景”等词,同时让人物服装和装饰更贴近新年,比如“红色毛衣”、“旗袍”、“红色气球”、“红色背景”等。#] 提示词: [服装和背景],snowflake. solid color red background, Excellen...
992 词
距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间 距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间 英伟达 AI 科学家 Jim Fan 预言:距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间 以下为其推文转译: 除了大语言模型(LLM)之外,2024年最重大的领域无疑是机器人学。我们距离实体 AI 智能体实现 ChatGPT 式的突破仅有大约三年的时间。长期以来,我们一直受到莫拉维克悖论(Moravec’s paradox)的困扰,这一直觉反常的现象表明:“人类觉得简单的任务,对 AI 来说却异常困难,反之亦然”。 2024年将成为 AI 领域首次大规模反抗这种困境的一年。虽然我们不会立刻取得胜利,但我们已经在通往成功的道路上迈出了坚实的步伐。 回顾2023年,我们已经初步见识到了未来机器人的基础模型和平台: 多模态大型语言模型与机器人手臂作为物理输入输出接口:VIMA、PerAct、RvT(NVIDIA)、RT-1、RT-2、PaLM-E(Google)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、卡内基梅隆大...
12k 词
2024 年初的大语言模型编程实践 Redis 作者 Antirez 写的一篇新博客:《LLMs and Programming in the first days of 2024》 这篇文章值得看看,像 Redis作者 Antirez 这样的顶级程序员都在借助大语言模型写程序! Antirez 使用 ChatGPT 这样的语言辅助编程的做法很典型: 对于不熟悉的语言或者类库,避免了查询文档,直接让 GPT 给出解释或者生成代码 写临时代码,对于一些一次性代码,就不用费心费力去自己写,让 LLM 帮忙生成,质量还不错 当然 Antirez 也发现了一些局限: 对于复杂的代码,比如写个布隆过滤器,目前质量还不够好! 上下文长度不够 Antirez 的建议: 现今程序员没理由不去使用 LLM 辅助编程 正确地向大模型提问是一项关键技能,学会向 LLM 提问也有利于提升程序员的沟通能力 把 LLM 当做一种压缩文档(不能完全替代文档,毕竟有幻觉)来使用 http://antirez.com/news/140?continueFlag=ee66d...
1.6k 词
2024赚钱的副业 在某书上看到一个靠写小说副业年入 50W 的分享之后,很震惊,于是我找一个靠写网文为生的 00 后聊了聊,get 了靠写作赚钱小 tips, 看完我死去的小说梦开始攻击我: 1.论新手友好,绝对是番茄小说,俗称“有手就行”;(激励方式见配图) 晋江签人,签完了不能在其他地方发文,最苛刻; 除了晋江,其他的签约了好像都可以在别的网站开文,双开、三开什么都无所谓;(双开就是同一个作者,在两个网站分别更新两本小说) 2.现在的平台想吃全勤的话基本上都得每本书需要日更四千字,有些坑人的平台可能会要求六千字。这只是一本的每日更新量。 某音上有人三开的同时,开个直播间直播自己使用机械键盘码字的过程,观看和打赏的人巨多,一鱼 N 吃了; 3.大多数全职作者都会提前写很多很多文,俗称“屯文”。以防止后期卡文(就是没有思路,但是每日又需要更新),全职作者如果有熟悉的编辑,一般情况下会写前几章,还有大纲发到编辑的邮箱,俗称“内投”。 4.现在小说挣钱跟卖东西一样,看的人多了才能挣到钱。 新手想让自己的作品被发现,有以下路径: 因为网文小说要讲求前三章吸引观众,让观众加书架,增加...
702 词
一个简短的借助 MLX 在 Mac 上运行微软的2.7B小语言模型 Phi-2 [ 微软官方出的 Windows AI Studio,如果你需要: 本地测试Phi-2 小模型 测试 RAG 微调模型 针对 Windows 优化模型 并且你是Windows 系统 + NVIDIA 的显卡,可以试试用它 。 官方说明: Windows AI Studio 通过集成 Azure AI Studio Catalog 和其他类似 Hugging Face 的AI 模型目录中的最新 AI 开发工具和模型,使得开发生成式 AI 应用程序变得更加简单。你可以浏览由 Azure ML 和 Hugging Face 提供动力的 AI 模型目录,下载它们到本地进行微调和测试,然后在你的 Windows 应用中使用它们。因为所有的计算都在你的设备上进行,所以要确保设备的性能能够担负起这个任务。 未来,我们还计划将 ORT/DML 集成进 Windows AI Studio 的工作流程中,这样开发者就能够在任何一款 Windows 设备上进行 AI 模型的运行了。 微博正文](http...
381 词
Can LLMs Replace Data Analysts 这篇关于LLM Agents的深度文章不错↓ Can LLMs Replace Data Analysts? Getting Answers Using SQL,Part 2: Diving deeper into LLM agents 访问:towardsdatascience.com/can-llms-replace-data-analysts-getting-answers-using-sql-8cf7da132259 这篇文章介绍了如何创建不同类型的代理。文中实现了一个LLM驱动的代理,它可以从头开始完全使用SQL数据库。然后,利用高级LangChain工具通过几个函数调用来实现相同的结果。 基于这个代理,LLM驱动的分析师可以使用数据从数据库中回答问题。这是一个重大的进步。还可以添加SQL数据库代理作为LLM驱动的分析师的工具。
609 词
如果 LLM 是巫师,那么代码就是魔杖 如果 LLM 是巫师,那么代码就是魔杖,论文:《If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents》 摘要: 当今的主流大语言模型(LLMs)与过去的语言模型有所不同,它们不仅规模更大,而且依托自然语言和代码(形式语言)综合训练。 代码作为连通人类与计算机的桥梁,将高层次的目标转化为可执行的步骤,具备标准语法、逻辑一致性、抽象性和模块化等特性。 在本文中,我们探讨了将代码整合进大语言模型训练数据中的众多益处,具体来看,代码的独特属性不仅能够提升大语言模型的代码生成能力,同时还可以: (i) 解锁大语言模型的推理能力,使其能够应对一系列更为复杂的自然语言任务; (ii) 引导大语言模型生成结构化和精准的中间步骤,然后通过函数调用将这些步骤连接到外部执行环节; (iii) 利用代码的编译和执行环境,获取多样的反馈以改进模型。 此外,我们还追溯...
2.3k 词
最优秀的员工专注于内容而非流程 27 年前,史蒂夫·乔布斯曾经说过:最优秀的员工专注于内容而非流程。研究证实了他的观点 乔布斯还说过:最优秀的员工通常也是最难管理的。 1979年,史蒂夫·乔布斯和一批苹果的工程师及高层访问了 Xerox PARC(帕洛阿尔托研究中心),这是一个致力于研发新技术和产品的实验室。正是在那里,乔布斯首次见到了鼠标、窗口界面和图标等。 乔布斯看准了这个机遇。他说:“我集结了我们最优秀的团队,着手开发 Apple 版的图形用户界面。” 但这个过程并不顺畅。据乔布斯描述: 文章在视频后继续。 我们的问题是,聘请了一些来自惠普的员工,他们不理解这个理念。我记得曾激烈争辩,有人坚持认为屏幕底部的软键是最好的设计。他们对等宽字体一无所知,更别提鼠标了。 有人甚至对我大声嚷嚷,设计一只鼠标需要五年时间,成本高达300美元。最后我忍无可忍,找到了 David Kelly Design… 不到90天,我们就设计出了一只成本仅15美元、非常可靠的鼠标。 乔布斯意识到,“Apple 缺乏实现这一理念所需的人才……虽然有一小部分团队做到了,但更多的团队却毫无头绪。” 乔布斯...