一个有趣的Agent测试:做一份图文并茂的关于地球地质年代历史的分享报告。
任务涉及行动规划、资料搜集、内容组织、排版设计、文件格式转换,可以感受一下目前的智能体们大概到了什么水准,离实际可用距离还远不远,卡点在什么地方。
测试了4个Agent产品:天工、扣子空间、Manus、Lovart,结果如下 👇
天工
完成度最高,是唯一一个最终能输出PPT格式文件的工具。
在接到任务后,它有一个确认任务范围的过程。我尽量往详细了选,它最终输出的内容是几家里最丰富的。
接下来有个规划过程,它给自己准备了任务清单,并在整个执行过程中不断回来检查。
中间的执行过程非常长,节选部分,但无外乎搜索和浏览2种行为。
信息充分收集后,它会先写PPT大纲。
最后生成PPT的过程,其实是先做了十几个网页,摆在一起展示。
在下载的时候,才把网页转换成一页页PPT,合并到一个文件里,所以下载要等很久。甚至如果你下载HTML格式,它下下来的是个文件夹,里面有十几个网页,分开的。
但它合成的PPT文件实用价值不高。因为在生成每一页的时候,它没有严格控制尺寸,每页尺寸略微不同,许多页底部都出现空白。
再加上生成网页时就有少量排版错乱的地方,最终结果并不完美。
不过,需要人工调整的地方并不多,具有相当高的潜力。
扣子空间
扣子空间不能直接生成PPT,它最终给了我一份文档。不过形式不重要,这也算完成了任务。
完整效果见:https://space.coze.cn/s/bSmamok4LFg/
它的任务执行过程简略一些,但也类似。规划、收集资料、找网络图片、整合内容。
用扣子空间的时候,我特意为它打开了两个扩展:飞书云文档和图像生成工具,想看看它会不会用到。实际上一个都没用,它并没有把报告写到飞书文档里,也没有生成图片插入报告。这个结果符合预期,毕竟没有明确给它这样的指示。而且,在这种报告里,网图显然优于生成的图片,这不是讲究美观的时候。
Manus
Manus给了我一个PDF,纯文字的。任务算是失败。
完整效果见:https://manus.im/share/DdcDQMgzQ59pWvI2akPuiD?replay=1
它的执行过程,也合乎逻辑。
虽然没有单独把任务规划作为一个步骤,但最终生成的文件里有一个待办清单,说明它是有规划的。
执行过程中也确实搜索了图片,但保存的很少,而且没有一张图片保存成功了。
导致最后输出了一份纯文字报告。
Lovart
这个Agent目的不同,专注于设计,纯粹作为对比,看看它能做出什么东西。
完整效果见:https://www.lovart.ai/r/62cce51
设计Agent的思考方式就是不一样,它完全把这个任务当成信息图来看待了。
先找点视觉灵感,同时收集地质年代相关知识。
然后制定的执行计划大概是:整理信息、生成4张图片对应4个地质纪元、排版设计。
做出一个网页长图,它就交稿了。
思考
这个测试里的知识(地质历史)属于容易找又不用推理的低难度信息。我随意读了几处细节,发现各家知识基本正确,就没有深度核查。我重点想考察的是,各个Agent在科普工作中能发挥多大用处,能不能把专业知识转化成易于大众理解的表现形式。
不同的Agent产品基因不一样,做法也完全不同。偏重内容还是偏重表达,其实没有好坏之分。这恰恰让人认识到它们各自的长处,善加运用的话,的确能解决具体问题。
其中天工和Lovart脱离了文档的层面,真的在用技术手段丰富内容展现形式。其实这种能力不是Agent工具专有的,AI设计大佬 歸藏 很早就用提示词实现了这种 AI设计能力。或者反过来说,Agent的这种设计能力,核心还是提示词。
当然,如果玩不转提示词,用Agent工具也是很好的办法,毕竟它们极大降低了使用门槛。而如果想对内容表现形式有更多定制化要求,好好打磨属于自己的提示词,然后在通用AI工具里也能实现,只是信息收集过程需要多一步单独完成。
最后,来回答一开始的问题:AI现在能独立做PPT了吗?
如果是做出一个可以在PPT软件里打开的幻灯片文件,且内容可靠不空洞,不能。
但如果你自己有办法确保内容的品质,AI只是把内容转成更易消化的视觉化形式,不限于PPT文件,那答案是:能。