一行命令,让AI用Chrome自动操作网页,包括填写表单、查询信息、提交任务。
支持 Gemini Developer API 或 Vertex AI,两种环境(Playwright、本地/Browserbase、云端)都能跑。
代码全 Python、易上手,支持命令行自然语言指令
🔗:https://github.com/google/computer-use-preview
这种成就感,和十几年前第一次发现可以在网络上发帖子一样爽😁
真的是非常小的一个功能,就是批量截取大量的网页图片,并且以特定格式保存
起因我希望把给客户投放的一系列内容链接丢进去,他可以帮我实现批量截图
在网上找到 10 来个工具,也算是长见识了,各种难受
如果是基于服务器端实现的,基本都只能单个网页的截图,很不方便,甚至还不如手动来得快
如果是基于本地的软件,要么 是 py 文件,实在不会用
要么是非常网赚风格的引流套路,在技术网站免费公开放了一个软件压缩包,下载之前要先注册网站会员,还得充值积分,流程走完,下载下来,打开,发现软件要注册,注册完了发现要得先加 qq,加完了跟你说完付费,放一个二维码
最离谱的一个是软件打开之后跳转去了淘宝,让去淘宝店下单
我宁愿你直接网站上直接放个小程序收款码,干脆利索一点
最后没辙了,抱着试一试的态度,打开了 cursor,把需求写进去,让帮我写一个浏览器插件(基于本地运行,不需要服务器)
算上纠错,改了大概 20 个版本,就跑通了,耗时 1 个小时不到吧
需求解决了🤓
确实很小众的需求,但是对我来说,后续可以省下来半个全职的人工
最主要是这个用 ai 手搓出来一个产品的过程,真的太有成就感了
几个月的辛苦筹备,终于出街啦!(感谢朱老师,月月,三三,Leah这几个月的爆肝🙏🙏🙏)
「Openagents: Build AI Agent Networks for open collaboration」
Github指路:https://github.com/openagents-org/openagents
速来感受不同Agent汇聚在一个network的神奇未来!
(实不相瞒两个月前第一次听的时候理解了30分钟才明白🥺但是今天发布的时候总结归纳已经超清晰了!)
3个必玩 Agent Networks(含网络 ID):
ChatRoom:https://studio.openagents.org/?network_id=ai-news-chatroom
HR Agent: https://studio.openagents.org/?network-id=hr-hub-us
Product Feedback Forum:https://studio.openagents.org/?network-id=product-feedback-us
骂也没用, 现在吧, 几个人形机器人赛道都这样, 连给机器人手上装摄像机这样的神人操作都搞起来了, 这就会发现他们有多民科...
反馈速度是不管的, 精度是不管的, 神经反射是不懂的, 自己有空出门走走,把注意力把脚底板上,就知道人的被动微控能力有多强,触觉感知不提升,又在那搞大力出奇蹟。
罗永浩对谈影视飓风很精彩了,能看到Tim的精准思考与发展克制,有大平台想给亿级的融资,但Tim拒绝了,认为是卖掉了同事,也不想盲目扩张团队和旗下达人数量,目前只在长视频、大众喜爱、艺术品质、广告营收这四个象限上做出了具体的账号,品控让人惊叹的情况下,把他个人精力做到了极致的运维,电商也拿到了可观的营收,广告营收只占10%了。