Instruct-Imagen

2024-04-03

371 词

Instruct-Imagen 谷歌这个多模态图像生成模型Instruct-Imagen强啊，真正的将 LLM 和现在的 SD 生态进行了整合。它可以通过自然语言和输入内容自动调用现在 SD 模型生态中的各种模型。相当于用 LLM 把 SD 生态的 Lora 和 Controlnet 等模型做了个 Agents。具体的研究内容：引入多模态指令，任务表示普遍表示来自多种模态的指令，例如文本、边缘、掩码、样式、主题等。建议执行检索增强训练和多模态指令调整，以适应预先训练的文本到图像模型以遵循多模态指令。构建了Instruct-Imagen，这是一个处理异构图像生成任务的统一模型，超越了各自领域的多项最先进技术。 Instruct-Imagen 可以推广到看不见的复杂任务，无需任何临时设计。 https://browse.arxiv.org/html/2401.01952v1

AIGC封面提示词

2024-04-03

classical

1k 词

AIGC封面提示词今天的 [#晚安提示词是一套春节主题的写真，主要会说一下探索的过程的模板，这套的工作量很大。之前说过做Catjourney不只是要分享好看的图片和提示词，更重要的是让大家在工作中能够用上，并且好用。目前AI图片的场景比较大的是两类，一类就是自己当封面图和贺图，另一类是帮助C端用户拍摄AI写真，就类似妙鸭，这类场景良好的模板图和底图非常重要。今天的图就是这类的。这类图片主要会模仿棚拍的写真，往往背景比较干净，但是妆造狠下功夫，很多都是特写。这套图片图片的难点主要是两个：第一个是V6为了增加真实感会给生成的人脸增加很多瑕疵，比如画东亚女性就会有很多冻伤的痕迹或者雀斑之类的，写真是要避免这些的，所以增加了“极佳的皮肤”、“美容产品广告”、“模态”等词来限制。第二个是需要营造春节和新年的氛围，为了模仿棚拍增加了“照相馆”，“纯色背景”等词，同时让人物服装和装饰更贴近新年，比如“红色毛衣”、“旗袍”、“红色气球”、“红色背景”等。#] 提示词： [服装和背景],snowflake. solid color red background, Excellen...

距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间

2024-04-03

AIGC>weibo

992 词

距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间英伟达 AI 科学家 Jim Fan 预言：距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间以下为其推文转译：除了大语言模型（LLM）之外，2024年最重大的领域无疑是机器人学。我们距离实体 AI 智能体实现 ChatGPT 式的突破仅有大约三年的时间。长期以来，我们一直受到莫拉维克悖论（Moravec’s paradox）的困扰，这一直觉反常的现象表明：“人类觉得简单的任务，对 AI 来说却异常困难，反之亦然”。 2024年将成为 AI 领域首次大规模反抗这种困境的一年。虽然我们不会立刻取得胜利，但我们已经在通往成功的道路上迈出了坚实的步伐。回顾2023年，我们已经初步见识到了未来机器人的基础模型和平台：多模态大型语言模型与机器人手臂作为物理输入输出接口：VIMA、PerAct、RvT（NVIDIA）、RT-1、RT-2、PaLM-E（Google）、RoboCat（DeepMind）、Octo（伯克利、斯坦福、卡内基梅隆大...

2024 年初的大语言模型编程实践

2024-04-03

AIGC>weibo

12k 词

2024 年初的大语言模型编程实践 Redis 作者 Antirez 写的一篇新博客：《LLMs and Programming in the first days of 2024》这篇文章值得看看，像 Redis作者 Antirez 这样的顶级程序员都在借助大语言模型写程序！ Antirez 使用 ChatGPT 这样的语言辅助编程的做法很典型：对于不熟悉的语言或者类库，避免了查询文档，直接让 GPT 给出解释或者生成代码写临时代码，对于一些一次性代码，就不用费心费力去自己写，让 LLM 帮忙生成，质量还不错当然 Antirez 也发现了一些局限：对于复杂的代码，比如写个布隆过滤器，目前质量还不够好！上下文长度不够 Antirez 的建议：现今程序员没理由不去使用 LLM 辅助编程正确地向大模型提问是一项关键技能，学会向 LLM 提问也有利于提升程序员的沟通能力把 LLM 当做一种压缩文档（不能完全替代文档，毕竟有幻觉）来使用 http://antirez.com/news/140?continueFlag=ee66d...

2024赚钱的副业

2024-04-03

classical

1.6k 词

2024赚钱的副业在某书上看到一个靠写小说副业年入 50W 的分享之后，很震惊，于是我找一个靠写网文为生的 00 后聊了聊，get 了靠写作赚钱小 tips，看完我死去的小说梦开始攻击我： 1.论新手友好，绝对是番茄小说，俗称“有手就行”；（激励方式见配图）晋江签人，签完了不能在其他地方发文，最苛刻；除了晋江，其他的签约了好像都可以在别的网站开文，双开、三开什么都无所谓；（双开就是同一个作者，在两个网站分别更新两本小说） 2.现在的平台想吃全勤的话基本上都得每本书需要日更四千字，有些坑人的平台可能会要求六千字。这只是一本的每日更新量。某音上有人三开的同时，开个直播间直播自己使用机械键盘码字的过程，观看和打赏的人巨多，一鱼 N 吃了； 3.大多数全职作者都会提前写很多很多文，俗称“屯文”。以防止后期卡文（就是没有思路，但是每日又需要更新），全职作者如果有熟悉的编辑，一般情况下会写前几章，还有大纲发到编辑的邮箱，俗称“内投”。 4.现在小说挣钱跟卖东西一样，看的人多了才能挣到钱。新手想让自己的作品被发现，有以下路径：因为网文小说要讲求前三章吸引观众，让观众加书架，增加...

phi-2部署安装

2024-04-03

AIGC

702 词

一个简短的借助 MLX 在 Mac 上运行微软的2.7B小语言模型 Phi-2 [ 微软官方出的 Windows AI Studio，如果你需要：本地测试Phi-2 小模型测试 RAG 微调模型针对 Windows 优化模型并且你是Windows 系统 + NVIDIA 的显卡，可以试试用它。官方说明： Windows AI Studio 通过集成 Azure AI Studio Catalog 和其他类似 Hugging Face 的AI 模型目录中的最新 AI 开发工具和模型，使得开发生成式 AI 应用程序变得更加简单。你可以浏览由 Azure ML 和 Hugging Face 提供动力的 AI 模型目录，下载它们到本地进行微调和测试，然后在你的 Windows 应用中使用它们。因为所有的计算都在你的设备上进行，所以要确保设备的性能能够担负起这个任务。未来，我们还计划将 ORT/DML 集成进 Windows AI Studio 的工作流程中，这样开发者就能够在任何一款 Windows 设备上进行 AI 模型的运行了。微博正文](http...

Can LLMs Replace Data Analysts

2024-04-03

AIGC>weibo

381 词

Can LLMs Replace Data Analysts 这篇关于LLM Agents的深度文章不错↓ Can LLMs Replace Data Analysts? Getting Answers Using SQL，Part 2: Diving deeper into LLM agents 访问：towardsdatascience.com/can-llms-replace-data-analysts-getting-answers-using-sql-8cf7da132259 这篇文章介绍了如何创建不同类型的代理。文中实现了一个LLM驱动的代理，它可以从头开始完全使用SQL数据库。然后，利用高级LangChain工具通过几个函数调用来实现相同的结果。基于这个代理，LLM驱动的分析师可以使用数据从数据库中回答问题。这是一个重大的进步。还可以添加SQL数据库代理作为LLM驱动的分析师的工具。

如果 LLM 是巫师，那么代码就是魔杖

2024-04-03

AIGC>weibo

609 词

如果 LLM 是巫师，那么代码就是魔杖如果 LLM 是巫师，那么代码就是魔杖，论文：《If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents》摘要：当今的主流大语言模型（LLMs）与过去的语言模型有所不同，它们不仅规模更大，而且依托自然语言和代码（形式语言）综合训练。代码作为连通人类与计算机的桥梁，将高层次的目标转化为可执行的步骤，具备标准语法、逻辑一致性、抽象性和模块化等特性。在本文中，我们探讨了将代码整合进大语言模型训练数据中的众多益处，具体来看，代码的独特属性不仅能够提升大语言模型的代码生成能力，同时还可以： (i) 解锁大语言模型的推理能力，使其能够应对一系列更为复杂的自然语言任务； (ii) 引导大语言模型生成结构化和精准的中间步骤，然后通过函数调用将这些步骤连接到外部执行环节； (iii) 利用代码的编译和执行环境，获取多样的反馈以改进模型。此外，我们还追溯...

最优秀的员工专注于内容而非流程

2024-04-03

classical

2.3k 词

最优秀的员工专注于内容而非流程 27 年前，史蒂夫·乔布斯曾经说过：最优秀的员工专注于内容而非流程。研究证实了他的观点乔布斯还说过：最优秀的员工通常也是最难管理的。 1979年，史蒂夫·乔布斯和一批苹果的工程师及高层访问了 Xerox PARC（帕洛阿尔托研究中心），这是一个致力于研发新技术和产品的实验室。正是在那里，乔布斯首次见到了鼠标、窗口界面和图标等。乔布斯看准了这个机遇。他说：“我集结了我们最优秀的团队，着手开发 Apple 版的图形用户界面。” 但这个过程并不顺畅。据乔布斯描述：文章在视频后继续。我们的问题是，聘请了一些来自惠普的员工，他们不理解这个理念。我记得曾激烈争辩，有人坚持认为屏幕底部的软键是最好的设计。他们对等宽字体一无所知，更别提鼠标了。有人甚至对我大声嚷嚷，设计一只鼠标需要五年时间，成本高达300美元。最后我忍无可忍，找到了 David Kelly Design… 不到90天，我们就设计出了一只成本仅15美元、非常可靠的鼠标。乔布斯意识到，“Apple 缺乏实现这一理念所需的人才……虽然有一小部分团队做到了，但更多的团队却毫无头绪。” 乔布斯...

小米汽车

2024-04-03

AIGC>weibo

8 词

小米汽车（上图）

最新文章

归档

Instruct-Imagen

AIGC封面提示词

距离机器人 AI 的 ChatGPT 时刻大约还有 3 年时间

2024 年初的大语言模型编程实践

2024赚钱的副业

phi-2部署安装

Can LLMs Replace Data Analysts

如果 LLM 是巫师，那么代码就是魔杖

最优秀的员工专注于内容而非流程

小米汽车