Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AppAI | 试试 Google Labs 里这些点开即用的实验性功能 #11971

Open
guevara opened this issue Feb 13, 2025 · 0 comments
Open

AppAI | 试试 Google Labs 里这些点开即用的实验性功能 #11971

guevara opened this issue Feb 13, 2025 · 0 comments

Comments

@guevara
Copy link
Owner

guevara commented Feb 13, 2025

App+AI | 试试 Google Labs 里这些点开即用的实验性功能



https://ift.tt/Ggkv7zD



张子豪John


Google Labs 是谷歌的 AI 实验基地,在这里我们可以发现并尝试最新的 AI 实验产品,它们大多数采用谷歌最先进的技术,针对专门的一个问题,并在有限时间内免费使用。Google Labs 提供了一系列工具和玩具,帮助用户探索想象力、激发创造力和提高生产力。本文将从创意、学习、开发和娱乐四个分类,介绍多款点开即用的有意思功能;其中包括媒体生成工具 Whisk、ImageFX、MusicFX,学习工具 NotebookLM、Learn About、Illuminate,开发工具 /Code、IDX,以及一些玩转 AI 的小游戏等。

注意:以下功能大部分仅支持谷歌账号地区为美国以及使用美国地区网络节点,部分支持中文的工具需要前往谷歌个人账户中心修改首选语言。谷歌提醒,由于项目是实验性的,有时可能会提供不准确或不适当的信息,需仔细检查其输出,并谨慎使用。

创意

创意往往和多媒体相关,使用文字生成图片、音乐和视频,也成为各类大语言模型最重要的能力之一。Google Labs 推出的多款创意实验工具,有能让用户减少对提示词依赖的文生图,图生图工具 Whisk,自定义程度比 Gemini 应用内更高的文生图 ImageFX;还有文生音乐工具 MusicFX,以及对文本的个性化探索项目 TextFX

Whisk - 用更少的提示词实现创意

Whisk 首页

提示词工程对发挥模型的全部能力有着非常重要的作用,而谷歌却在 Whisk 中提出「Prompt Less, Play More」(少些提示词,多些玩乐),Whisk 也很好的做到了这一点。Whisk 是一个生成图像的工具,它使用图像作为提示,利用 Gemini 和 ImageGen3 模型,来可视化我们的想法,生成个性化的故事。

Whisk 在首页提供了装饰品、贴纸、珐琅别针、毛绒玩具四个风格模板,我们只需要上传图片主体,Whisk 就能生成对应的图片,图片的大小有方形、横向和纵向三种纵横比。除了上传图片风格和主体,我们还可以上传图片背景,并且风格、主体和背景都可以上传多个。如果没有图片用来上传,Whisk 也可以使用文字来生成或对上传的图片进行精炼修改。没有文字提示,Whisk 还提供了色子,能快速添加一些主题、场景和风景的建议。

Whisk 编辑页面,用户可以上传图片或者使用文字生成样式/背景/主体等内容Whisk 可供用户「玩」的选项非常多,不仅仅局限在一个「提示词」

Whisk 可编辑的选项非常多,除了上述针对主题、场景和风格的修改;它还能针对生成的结果图片进行附加的修改,或者直接对结果图片的完整提示词进行重新编辑。如图所示,我在生成这些图片的时候输入的提示词只有「角色在开心的读报纸」「背景是英文字母 SSPAI 在海滩上」,而真实所需要的提示词却足足有一大段。以下几张图片,我都是仅输入几个单词,Whisk 就可以做到真正可视化我的想法。如果你感兴趣,还可以尝试用它生成一个蛇年的红包封面。

水獭 由 Whisk 生成

Whisk 具体的工作原理是利用 Gemini 读取我们上传的图片,生成相关的文本描述,这些文本描述再加上用户的文字修改提示,进一步优化为详细的提示词,最后使用谷歌的图像生成模型 Imagen 3 生成一幅图像。

ImageFX - 文生图实验

ImageFX 首页

和 Whisk 提倡的减少提示词不同,ImageFX 更像普通的文字生图工具,它同样由谷歌最高质量的文本生成图像模型 Imagen 3 驱动。如上图所示,我复制 Whisk 中已生成图片的复杂提示词到 ImageFX,它才可以生成类似的图片。除了输入提示词,ImageFX 还提供了多种比例的纵横比,以及一些默认的提示词标签,如 35 毫米胶片、抽象、水彩画等风格。针对提示词的修改,ImageFX 也会对提示词进行优化和解析,我们可以直接下拉提示词中的关键点进行修改。

此外,ImageFX  解锁了随机种子数(种子的主要作用是,通过影响初始噪声和随机数序列,对生成图像的构图、细节和风格产生作用,生成上述图片采用的是默认种子 464145),以获得更多样化的输出。 ImageFX 支持中文,在谷歌帐号设置页面修改首先语言即可切换;Whisk 目前仅支持英文。我尝试用同样的提示词,直接通过 Gemini 生成和使用 ImageFX,ImageFX 生成的图片要比 Gemini 内生成更符合提示词。

MusicFX / DJ - AI 生成音乐

MusicFX 和 MusicFX DJ 首页

MusicFX 同样由 labs.google/fx 创建,整体页面和 ImageFX 类似,它能帮助用户生成自己的音乐,但是某些提及特定艺术家或包含人声的内容将不会被生成。MusicFX 对提示词的输入、优化和修改,与 ImageFX 一样;我们也可以设置种子数以获得更多样化的输出;最长输出音频时间为 70 秒。

MusicFX DJ 则是通过输入最多 10 个提示(如流派、乐器或情感)来实时创建不断变化的音乐。对于输入的提示词,我们可以使用滑块调整该提示对音乐的影响程度。此外,MusicFX DJ 还提供了像是密度、亮度、混乱、鼓、贝斯、BPM 以及主音等控制选项。MusicFX DJ 能持续生成最长不超过 60 分钟的音乐。

由于不能使用特定人声,且没有歌词,所以我用 MusicFX / DJ 生成的音乐都算作是纯音乐、曲子、或者说 Beats,如果你了解一些乐理知识,它确实能启发一些创作灵感。MusicFX / DJ 都由 Google 的 MusicLM 提供支持,并使用 Google DeepMind 的新型水印技术 SynthID 在输出中嵌入数字水印。

TextFX - 文本的多重创意

TextFX 首页,Acronym 项目,输入 SSPAI,则会生成以这个单词每个字母开头的一句话,例如:SSPAI:Systematically Shaping Practical Applications and Insights(系统性的分享实用的应用和见解)

TextFX 是一个旨在帮助说唱歌手、作家和语言艺术家扩展创作过程的人工智能实验。它是与 Lupe Fiasco 合作创建的,灵感来自他在职业生涯中发展出的抒情和语言技巧。TextFX 包含 9 种工具,每种工具都旨在探索文本和语言的创造性可能性。

TextFX 的 9 种工具能实现的功能包括,创建一个关于事物或概念的明喻、将一个词分解成类似发音短语的爆炸、让场景更加出人意料和富有想象力、构建一个语义相关项的链条、生成特定字母开头的主题词汇、使用一个单词的字母创建一个首字母缩略词、找到两个单词之间的交集、生成有关场景的感官细节、以及将一个词插入其他单词或短语中的展开。

TextFX 由 Google 的 Gemini 模型通过 Gemini API 提供支持;目前在 GitHub 上开源。

学习

自从大语言模型取得广泛关注,对话成为了利用大语言模型能力最重要的方式之一。谷歌实验室提出的多款实验性学习类功能,同样是集中在以对话的方式来革新传统的学习方式。其中包括,NotebookLM,顾名思义,语言模型的笔记本,它能够让我们与自己的笔记本进行对话;还有用对话来学习一个崭新话题的 Learn About;以及能把论文直接生成为可收听对话音频的 Illuminate

NotebookLM - 终极 AI 研究助手

NotebookLM 首页

NotebookLM 应该是整个谷歌实验室团队里令人骄傲的产品之一,非常多的作者、博主都推荐和介绍过它;它是由 Gemini 2.0 构建的一款强大的虚拟研究助手,利用人工智能进行快速总结和记笔记。NotebookLM 能够处理的文字相当多,光是文件上传的限制就高达 50 个。我们可以上传网页链接、PDF、TXT、Markdown、音频、Google Slide、YouTube 视频等多种类型的笔记。

上手 NotebookLM 非常简单,我们只需要上传自己的笔记或知识源(课本、论文、教科书等)以创建初始的知识库。之后通过对话和内置的多项工具,例如生成简报、问答、时间线以及学习指南等,学习和巩固知识库。少数派上有多篇文章讨论过如何使用 NotebookLM 提高学习效率、重塑知识管理,例如 Google NotebookLM 初体验:更好的提问式学习如何用 NotebookLM 综合分析多篇文献?等文章。

Learn About - 用对话来学习一个新话题

Learn About 首页

谷歌的学习网站提供了非常多的教学资料,从学校、工作到生活,而 Learn About 是谷歌学习下,通过 AI 加速研究并加深理解的一种学习工具。我们可以在 Learn About 里面使用对话来学习一个新的主题。

Learn About 在对话中会提供丰富的联想帮助你更深刻的了解当前讨论的话题

和一般的通用聊天模型不同,Learn About 在回答问题时,更多的是从「如何让你更好的认识这个话题」出发。除了给出建议深入的话题,它会生成一份交互清单,列举出相关联的概念,帮助你更好的理解。在对话中,Learn About 还会有问答、单词卡片等「学习」功能;以及得益于自家产品,还会有 YouTube 视频介绍和谷歌图片辅助解释,它像是一个更专业的 Perplexity。

Illuminate - 把论文转成可收听的讨论

Illuminate 首页

点开 Illuminate 主页,放在第一篇的论文就是「Attention is All You Need」,这大概是大语言模型领域中一篇奠基性的论文,而 Illuminate 的作用就是就是帮助我们读论文。我们只需点击一下,就可以将一篇学术论文变成引人入胜的 AI 生成讨论。

Illuminate 播放和生成界面

和 NotebookLM 类似,Illuminate 可以通过复制多篇论文链接,自定义用于生成的提示词以及对话风格和声音,来生成讨论该话题的对话声音。除了复制论文链接,Illuminate 还可以直接搜索相关的主题,搜索目前仅适用于 arxiv.org,然后在结果中选择我们希望 Illuminate 使用的论文。在收听对话时,我们还可以点击封面上的小手,随时与它进行提问交流;可以问一些非常细节性的问题,就像你是答辩老师,在向他提问题一样。

开发

结合大语言模型的 AI 开发工具已经有了丰富的选择,例如广受好评的 Cursor、新推出的 WindSurf、以及 GitHub Copilot 等应用。Google 在实验基地也针对开发做出了多个实验性功能, /Code 针对代码推出了多项小工具,IDX 则提供了全栈多平台应用开发工作区,以及专门针对 Google HomeHelp Me Script

IDX - 在浏览器上 AI 开发

IDX 首页

Project IDX 是一个基于云的全栈多平台应用开发的 AI 辅助工作区。它支持广泛的框架、语言和服务,并与您喜爱的 Google 产品集成,IDX 简化了您的开发流程,使您能够快速、轻松、高质量地从浏览器中构建、发布和管理全栈、多平台应用程序。

Project IDX 提供了非常多模板,如下图所示,我尝试创建了一个 Vue 项目,使用 TypeScript,它基于 VS Code 开发,提供了完全一样的代码编辑器体验。我可以前往插件市场安装不同的插件,或者使用 Git 等进行项目管理。同时,IDX 内置了 Gemini,我可以直接使用 Gemini AI 辅助工具生成代码、获取内联编码建议、实时帮助理解复杂代码,以快速高效地工作。此外,工具栏最下面的 Project IDX 按钮,它可以一键集成 Google API 和相关服务到当前项目。而这一切都是在网页上进行,我们无需再安装 IDE,或者配置复杂的本地环境等。

目前 Android Studio 的集成正在测试中,如果你感兴趣,可以前往 https://idx.google.com/android-studio 填写问卷,加入候选名单。

Project IDX 开发区

/Code - 多项 AI 代码实验

/Code 首页

在 Google Labs 的代码实验种,提供了代码转换,数据科学智能体,以及目前还未开放测试的 AI 代码智能体 Jules 三项功能。代码转换目前只支持 Python 语言,它是模型编辑现有代码的一种能力。我们输入代码上下文与具体的自然语言指令,例如清理代码、修复简单错误、减少代码嵌套等,Code Transformation 则会转化对应的代码。数据科学智能体则是一个旨在通过使用 AI 帮助我们,生成用于各种数据分析任务(包括处理数据清洗、数据探索、绘图、数据问答和预测建模等)的 Google Colab 笔记本,从而简化数据工作流程的实验性功能;目前 Data Science Agent 正集成到 Google Colab 中。

Code Transformation 提供了增加注释、提高可读性、减少嵌套、修补错误以及完整代码几项默认任务,以及输入自定义要求,图中为 clean up。

Data Science Agent 目前上传最多 5 个文件,每个 100MB。我从 Kaggle 上下载了波士顿房价预测数据集,并且输入完成数据集可视化,绘制特征矩阵以及训练、评估和优化模型等任务。它会为我生成详细的计划,要完成哪些具体的任务,之后则是根据任务,一步步生成代码,自动运行,并在最后给出项目总结。整个项目代码也可以下载为 .ipynb 格式的 Notebook,或直接导入到 Google Colab 中打开。目前 Data Science Agent 仅支持处理表格数据的常见数据科学任务。

上传数据集到 Data Science Agent 之后,我们给出希望它完成的任务,他会生成左图的代码计划供我们审阅修改,提交后则会创建右图 Colab Notebook,用代码实现左图列举的任务。

Help Me Script - AI 写 Google Home 脚本

Help Me Script 页面截图

如图所示,Help Me Script 主要是帮助 Google Home 用户在编写自动化脚本时,我们可以直接使用自然语言描述所需要的自动化操作,脚本编辑器将利用 AI 来帮助生成一个可编辑和使用的家庭自动化脚本。

娱乐

当前利用大语言模型的游戏一般集中在角色扮演类游戏上,谷歌目前的实验则是包括由 Google 艺术与文化实验室团队设计的多款游戏,其中包括看图说话游戏 Say What You See 和发现创意融合菜谱的 Food Mood 等;以及利用文字生成图片的自定义字母表 GenType 和自定义国际象棋棋盘 GenChess

GenType - 玩转个性化字母

GenType 首页

GenType 是一个基于 Imagen 2 的实验性功能,它能帮助用户根据自己的主题描述和提示,从任何事物中创建自定义字母表。只需一个提示,GenType 即可生成全部 26 个字母。目前,我们只能在 GenType 中生成英文字母,而不能生成数字或标点符号。为了获得最佳效果,谷歌实验室建议每个输入提示词包含前景、背景和样式;如以下提示词示例:「瓢虫,在绿叶上,航拍照片」。

GenType 的工作原理也很简单,它自动化了「由 {prompt} 制成的字母‘{letter A-Z}’」这个过程。从我们输入的提示词开始,它会发送出 26 个请求,每个字母对应一个请求;最后获得一整套独特且有趣的个性化字母形态。如果不符合期待,除了更改整体提示词,还可以对单个棋子进行重新生成修改。最后,我们可以在输入框直接编辑文本,下载 PNG 文件,也可以将每个字母单独下载 PNG 随意使用。

可将生成的字体导出为 PNG

GenChess - 玩创意国际象棋

能生成各种各样的国际象棋棋子,并且直接生成对手的

和 GenType 生成风格化的字母表一样,GenChess 则是用于生成国际象棋棋子;它使用 Google 的 Gemini Flash 和 Imagen 3 模型构建,把用户的想法转变成可玩的国际象棋棋盘。同样的,我们可以导出整个套装,或单独的棋子为 PNG 文件到其他地方使用。不同的是,GenChess 还会为我们生成一个有趣的机器人对手,我们可以使用自定义的这套棋盘,选择难度级别和计时器,直接线上对弈。

使用 GenChess 创建棋盘首先是选择创意还是经典风格,「经典」将生成看起来更像传统棋子的棋盘,同时加入有趣的变化和与输入想法相关的材料,而「创意」则会生成更加富有想象力的棋盘。下一步,在文本框中输入我们的想法,一个单词或短语。最后,GenChess 就能根据我们的想法生成一整套独特国际象棋。

可以选择难度,直接开始下国际象棋

Food Mood - 为你的下一顿饭获取灵感

Food Mood 能结合两个地区的菜式风格,生成详细的烹饪指南

Food Mood 由 Google 艺术与文化实验室团队创建,它是一个利用 AI 将两种地区的菜系结合成一个食谱的小项目,使用 VertexAI 内的 Gemini 1.0 Pro 模型来生成食谱,Google AI 生成最后的菜品图片。Food Mood 致力于帮助用户探索世界上的餐桌,激发用户的厨房创意。使用 Food Mood 首先需要我们选择,烹饪的是前菜、汤品、主菜还是甜点,接着选择两个地区。最后,它会为我们创建一份受多国菜肴启发的融合食谱。此外,我们还可以从提供的选项中选择饮食偏好,以及特定的配料。

Say What You See - 看图说话

看图说话,输入提示词,尽可能与目标图片类似

Say What You See 同样由 Google 艺术与文化实验室团队设计开发,它使用 Google AI 生成不同的图片,我们需要用文字描述出给出的图片,它旨在帮我们学习图像提示词的艺术。根据我们输入的描述,谷歌 AI 将会生成一个新的图片。新生成的图片会与已有图片进行比较,每张图片有三次机会通过视觉相似度阈值。在第一级,我们需要达到 50% 的匹配度才能通过,而后每个级别都会变得更加困难。

除了 Food Mood 和 Say What You See,在 Google Arts & Culture 还有非常有意思的小游戏和工具,像是种类丰富的艺术风格转换,还有找出 AI 生成的艺术作品的 Odd One Out、AI 评判绘画技巧的 Guess the Line、游览文化地标的 AI 音频实验 Talking Tours、使用 AI 混合一段受国家美术馆画作启发的个性化原声带 National Gallery Mixtape 、自由创建动漫角色的 Giga Manga 等等非常多小游戏。我非常推荐下载 Google Arts & Culture 应用程序(iOS安卓,完全免费无内购)进行体验,App 内除了这些与艺术和文化交互的游戏,还有非常多有价值的内容,也可以直接前往网页游玩。

Google Arts & Culture Play 菜单下截图

最后

谷歌实验室还有多款产品正在测试当中,例如在手机和眼镜上,帮助用户探索世界的 Project AstraProject Mariner 、可以在 GitHub 工作流程中自动执行 Python 和 JavaScript 编码任务的 AI 代码智能体 Jules 、由 Google DeepMind 最新模型 Veo 2 提供支持的 AI 视频生成工具 VideoFX 、以及将 Gemini 集成到 Colab 中的 Gemini in Colab、在谷歌相册中使用的 Ask Photos 等功能。如果你感兴趣,可以点击对应的链接,前往项目主页,加入体验候选名单。此外,除了 Google Labs,Google AI Studio 也提供了更为丰富的构建方式以充分体验 Gemini 生态系统。

> 关注 少数派小红书,感受精彩数字生活 🍃

> 实用、好用的 正版软件,少数派为你呈现 🚀







via 少数派 - 高品质数字消费指南 https://sspai.com

February 13, 2025 at 09:38AM
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant