Instruct-Imagen
谷歌这个多模态图像生成模型Instruct-Imagen强啊,真正的将 LLM 和现在的 SD 生态进行了整合。
它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。
相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。
具体的研究内容:
引入多模态指令,任务表示普遍表示来自多种模态的指令,例如文本、边缘、掩码、样式、主题等。
建议执行检索增强训练和多模态指令调整,以适应预先训练的文本到图像模型以遵循多模态指令。
构建了Instruct-Imagen,这是一个处理异构图像生成任务的统一模型,超越了各自领域的多项最先进技术。
Instruct-Imagen 可以推广到看不见的复杂任务,无需任何临时设计。
https://browse.arxiv.org/html/2401.01952v1
AIGC封面提示词
今天的 [#晚安提示词 是一套春节主题的写真,主要会说一下探索的过程的模板,这套的工作量很大。
之前说过做Catjourney不只是要分享好看的图片和提示词,更重要的是让大家在工作中能够用上,并且好用。
目前AI图片的场景比较大的是两类,一类就是自己当封面图和贺图,另一类是帮助C端用户拍摄AI写真,就类似妙鸭,这类场景良好的模板图和底图非常重要。今天的图就是这类的。
这类图片主要会模仿棚拍的写真,往往背景比较干净,但是妆造狠下功夫,很多都是特写。
这套图片图片的难点主要是两个:
第一个是V6为了增加真实感会给生成的人脸增加很多瑕疵,比如画东亚女性就会有很多冻伤的痕迹或者雀斑之类的,写真是要避免这些的,所以增加了“极佳的皮肤”、“美容产品广告”、“模态”等词来限制。
第二个是需要营造春节和新年的氛围,为了模仿棚拍增加了“照相馆”,“纯色背景”等词,同时让人物服装和装饰更贴近新年,比如“红色毛衣”、“旗袍”、“红色气球”、“红色背景”等。#]
提示词:
[服装和背景],snowflake. solid color red background, Excellen...
距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间
距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间
英伟达 AI 科学家 Jim Fan 预言:距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间
以下为其推文转译:
除了大语言模型(LLM)之外,2024年最重大的领域无疑是机器人学。我们距离实体 AI 智能体实现 ChatGPT 式的突破仅有大约三年的时间。长期以来,我们一直受到莫拉维克悖论(Moravec’s paradox)的困扰,这一直觉反常的现象表明:“人类觉得简单的任务,对 AI 来说却异常困难,反之亦然”。
2024年将成为 AI 领域首次大规模反抗这种困境的一年。虽然我们不会立刻取得胜利,但我们已经在通往成功的道路上迈出了坚实的步伐。
回顾2023年,我们已经初步见识到了未来机器人的基础模型和平台:
多模态大型语言模型与机器人手臂作为物理输入输出接口:VIMA、PerAct、RvT(NVIDIA)、RT-1、RT-2、PaLM-E(Google)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、卡内基梅隆大...
2024 年初的大语言模型编程实践
Redis 作者 Antirez 写的一篇新博客:《LLMs and Programming in the first days of 2024》
这篇文章值得看看,像 Redis作者 Antirez 这样的顶级程序员都在借助大语言模型写程序!
Antirez 使用 ChatGPT 这样的语言辅助编程的做法很典型:
对于不熟悉的语言或者类库,避免了查询文档,直接让 GPT 给出解释或者生成代码
写临时代码,对于一些一次性代码,就不用费心费力去自己写,让 LLM 帮忙生成,质量还不错
当然 Antirez 也发现了一些局限:
对于复杂的代码,比如写个布隆过滤器,目前质量还不够好!
上下文长度不够
Antirez 的建议:
现今程序员没理由不去使用 LLM 辅助编程
正确地向大模型提问是一项关键技能,学会向 LLM 提问也有利于提升程序员的沟通能力
把 LLM 当做一种压缩文档(不能完全替代文档,毕竟有幻觉)来使用
http://antirez.com/news/140?continueFlag=ee66d...
2024赚钱的副业
在某书上看到一个靠写小说副业年入 50W 的分享之后,很震惊,于是我找一个靠写网文为生的 00 后聊了聊,get 了靠写作赚钱小 tips,
看完我死去的小说梦开始攻击我:
1.论新手友好,绝对是番茄小说,俗称“有手就行”;(激励方式见配图)
晋江签人,签完了不能在其他地方发文,最苛刻;
除了晋江,其他的签约了好像都可以在别的网站开文,双开、三开什么都无所谓;(双开就是同一个作者,在两个网站分别更新两本小说)
2.现在的平台想吃全勤的话基本上都得每本书需要日更四千字,有些坑人的平台可能会要求六千字。这只是一本的每日更新量。
某音上有人三开的同时,开个直播间直播自己使用机械键盘码字的过程,观看和打赏的人巨多,一鱼 N 吃了;
3.大多数全职作者都会提前写很多很多文,俗称“屯文”。以防止后期卡文(就是没有思路,但是每日又需要更新),全职作者如果有熟悉的编辑,一般情况下会写前几章,还有大纲发到编辑的邮箱,俗称“内投”。
4.现在小说挣钱跟卖东西一样,看的人多了才能挣到钱。
新手想让自己的作品被发现,有以下路径:
因为网文小说要讲求前三章吸引观众,让观众加书架,增加...
一个简短的借助 MLX 在 Mac 上运行微软的2.7B小语言模型 Phi-2 [
微软官方出的 Windows AI Studio,如果你需要:
本地测试Phi-2 小模型
测试 RAG
微调模型
针对 Windows 优化模型
并且你是Windows 系统 + NVIDIA 的显卡,可以试试用它 。
官方说明:
Windows AI Studio 通过集成 Azure AI Studio Catalog 和其他类似 Hugging Face 的AI 模型目录中的最新 AI 开发工具和模型,使得开发生成式 AI 应用程序变得更加简单。你可以浏览由 Azure ML 和 Hugging Face 提供动力的 AI 模型目录,下载它们到本地进行微调和测试,然后在你的 Windows 应用中使用它们。因为所有的计算都在你的设备上进行,所以要确保设备的性能能够担负起这个任务。
未来,我们还计划将 ORT/DML 集成进 Windows AI Studio 的工作流程中,这样开发者就能够在任何一款 Windows 设备上进行 AI 模型的运行了。
微博正文](http...
Can LLMs Replace Data Analysts
这篇关于LLM Agents的深度文章不错↓
Can LLMs Replace Data Analysts? Getting Answers Using SQL,Part 2: Diving deeper into LLM agents
访问:towardsdatascience.com/can-llms-replace-data-analysts-getting-answers-using-sql-8cf7da132259
这篇文章介绍了如何创建不同类型的代理。文中实现了一个LLM驱动的代理,它可以从头开始完全使用SQL数据库。然后,利用高级LangChain工具通过几个函数调用来实现相同的结果。
基于这个代理,LLM驱动的分析师可以使用数据从数据库中回答问题。这是一个重大的进步。还可以添加SQL数据库代理作为LLM驱动的分析师的工具。
如果 LLM 是巫师,那么代码就是魔杖
如果 LLM 是巫师,那么代码就是魔杖,论文:《If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents》
摘要:
当今的主流大语言模型(LLMs)与过去的语言模型有所不同,它们不仅规模更大,而且依托自然语言和代码(形式语言)综合训练。
代码作为连通人类与计算机的桥梁,将高层次的目标转化为可执行的步骤,具备标准语法、逻辑一致性、抽象性和模块化等特性。
在本文中,我们探讨了将代码整合进大语言模型训练数据中的众多益处,具体来看,代码的独特属性不仅能够提升大语言模型的代码生成能力,同时还可以:
(i) 解锁大语言模型的推理能力,使其能够应对一系列更为复杂的自然语言任务;
(ii) 引导大语言模型生成结构化和精准的中间步骤,然后通过函数调用将这些步骤连接到外部执行环节;
(iii) 利用代码的编译和执行环境,获取多样的反馈以改进模型。
此外,我们还追溯...
最优秀的员工专注于内容而非流程
27 年前,史蒂夫·乔布斯曾经说过:最优秀的员工专注于内容而非流程。研究证实了他的观点
乔布斯还说过:最优秀的员工通常也是最难管理的。
1979年,史蒂夫·乔布斯和一批苹果的工程师及高层访问了 Xerox PARC(帕洛阿尔托研究中心),这是一个致力于研发新技术和产品的实验室。正是在那里,乔布斯首次见到了鼠标、窗口界面和图标等。
乔布斯看准了这个机遇。他说:“我集结了我们最优秀的团队,着手开发 Apple 版的图形用户界面。”
但这个过程并不顺畅。据乔布斯描述:
文章在视频后继续。
我们的问题是,聘请了一些来自惠普的员工,他们不理解这个理念。我记得曾激烈争辩,有人坚持认为屏幕底部的软键是最好的设计。他们对等宽字体一无所知,更别提鼠标了。
有人甚至对我大声嚷嚷,设计一只鼠标需要五年时间,成本高达300美元。最后我忍无可忍,找到了 David Kelly Design… 不到90天,我们就设计出了一只成本仅15美元、非常可靠的鼠标。
乔布斯意识到,“Apple 缺乏实现这一理念所需的人才……虽然有一小部分团队做到了,但更多的团队却毫无头绪。”
乔布斯...