手机修改截图上的文字_苹果手机怎么改图片上的字
媒体讯息
在当前,大模型的突破性创新对创意领域产生了深远影响,其中以Sora为代表的视频生成技术正引领着新一代的潮流。除了Sora,另一项技术也值得人们关注。
在一项名为“Keyframer:利用大型语言模型赋能动画设计”的研究中,苹果的研究团队发布了一个全新的框架——Keyframer。该框架借助大型语言模型(LLM)的技术,允许用户通过自然语言的提示来创建静态2D图像的动画。
相关研究资料可以在线查看:此处链接
借助GPT-4的强大能力,Keyframer可以生成CSS动画代码,使得输入的SVG(可缩放矢量图)得以动态化。
用户还可以通过连续的提示和请求LLM生成不同的设计变体来迭代他们的设计,以探索新的设计方向。尽管Keyframer目前尚未公开面世,但它的潜力已经引起了广泛关注。
在研究过程中,苹果公司认识到LLM在动画领域的应用尚未得到充分开发。考虑到用户在描述运动时如何有效使用自然语言的问题,虽然文本转图像的工具如Dall·E和Midjourney取得了显著的效果,但动画设计涉及更多的复杂因素,如时间和协调性等。
关于Keyframer的详细介绍
Keyframer是一款由LLM驱动的应用程序,其目标是从静态图像中自动生成动画。该应用程序充分利用LLM的代码生成能力以及SVG的语义结构,根据用户的自然语言提示来创建动画。
GPT提示解读:系统允许用户输入自然语言的提示来创建动画。用户可以请求单个设计(如行星旋转)或多个设计变体(如创建三个星星闪烁的设计),然后单击“生成动画”按钮开始请求。在将用户请求传递给GPT之前,系统会完善其提示并指定LLM响应的格式。
GPT输出解读:一旦请求开始,GPT会传输响应,该响应由一个或多个CSS片段组成。
迭代功能:为了使用户在动画创作过程中进行更深入的探索,该研究还提供了一项功能,允许用户使用提示在已生成的动画上进行迭代构建。每个生成的设计下面都有一个“+ Add New Prompt”按钮;单击此按钮会在页面底部打开一个新表单,供用户使用新提示扩展其设计。
在实验阶段,苹果团队邀请了13名参与者(包括6名女性和7名男性)来试用Keyframer。表1列出了参与者的部分信息以及他们的技能水平。
甚至专业动画设计师EP13也看到了Keyframer扩展其能力的潜力:“虽然我担心这些工具可能会取代我们的工作,但仔细想想,这只会提升我们的技能。这应该是一件值得高兴的事情。”
总体而言,参与者在试用过程中对Keyframer的使用体验感到满意。根据参与者给出的平均分数(介于满意与中立之间),可以得知他们对该工具的认可程度较高。参与者总共生成了223种设计,平均每位参与者生成了约17.2个设计。图8展示了两位参与者的最终动画示例。