☕️ Editor’s Note

今天是 2023 年 8 月 7 日,您正在阅读的是第 8 期 Digital Explorer(原 171 期 iPad Power User)。

本期围绕信息消费、加工、创造场景,继续探索新应用和应用新特性带来的工作流程变化:

  • 消费:文本与语音的相互转换以及语言之间的相互转换,构建起利用不同媒介消费同一内容的新流程;
  • 加工:App Store 中国区下架众多大模型应用、HarmonyOS 4 的「小艺」带给「大模型+智能手机」哪些启示?
  • 创造:从 Arc 浏览器到「Arc OS」,一款浏览器如何重构我的工作流程?

接下来,欢迎和我一起探索关于数字工具的所有可能。

📱信息消费

搜索。无论是在什么设备上,搜索都是发现信息的重要方式,长期关注用户隐私保护的 Brave 浏览器近期更新了其搜索功能,通过自研而非使用 Google 或微软 API 的方式,向用户提供图像、视频内容的搜索。

现在,用户可以通过 Brave 搜索搜索文本、图像和视频内容,但和其他试图挑战 Google 搜索的产品一样,Brave 搜索在搜索结果显示以及体验上依然无法与之媲美。

但对用户而言,多一个搜索选择,特别是一个聚焦隐私搜索的产品,终究是一件好事。

Google 也在上周更新了搜索产品:

  • 在手机端 Chrome 搜索时,地址栏会根据用户当前访问的页面进行推荐,并将搜索建议增加到了 10 个(原来是 6 个),你可以在 App Store 或 Play Store 免费下载、体验 Chrome;
  • Google 新一代搜索(SGE)支持图像和视频内容,同时还为生成的回答提供了来源链接,如下图所示:

img

内容消费的新形态。今年以来我最喜欢的一款新闻应用 Artifact 再次发布新功能,利用 AI 能力,帮助用户直接将新闻读出来。

读新闻算不上一项多大的功能更新,此前包括 Pocket 在内的多款应用都具备类似功能。但 Artifact 上的音色更棒,或者可以说是更自然的声音,比如拥有两位名人的声音:说唱歌手 Snoop Dogg 和知名演员 Gwyneth Paltrow(曾饰演电影《蜘蛛侠》里的「小辣椒」)。

img

Artifact 目前提供 30 多种不同口音的英语声音,可灵活定制不同口音、播放速度,用户在收听的时候可继续浏览其他新闻。

作为一款 2023 年快速流行的新闻类应用,Artifact 不断将 AI 能力融入产品之中,比如其「致敬今日头条」的推荐机制,会极大提升用户的粘性;再比如利用 GPT 的能力,Artifcat 还提供了两个颇为实用的功能:

  • 自动生成文章摘要,支持选择不同风格;
  • 可根据用户的反馈与机器的检测,修改某些标题党新闻的标题;

除此之外,你还可以将 Artifact 当做一类「稍后读」应用,通过浏览器的分享功能,将网页分享到 Artifact,然后调用摘要或朗读的能力,经过我的测试,目前支持中文摘要,但还无法朗读中文。

img

你可以在 App Store 或 Play Store 免费下载这款应用。

这几年来,我越来越倾向于一类内容消费习惯:使用不同媒介消费同一内容。比如上面的 Artifact 提供文本转音频就是一种表现形式,在桌面上,你还可以使用微软的 Edge 浏览器,利用微软强大的语音合成能力,收听任何网页内容,中英文的朗读效果非常棒,或者毫不夸张地说,微软是这个领域的第一。

在读书的场景里,「微信读书」提供的「听书」功能颇为实用,在任意页面点按「听」即可进入,接下来可选择合适的声音和语速,免费用户的声音还算可以——相比于微软就差了一些:

img

既然可以从文本到声音,当然还可以从声音到文本了,我在之前的会员通讯里谈到「通义听悟」,你可以将其当作一类高效应对会议的产品,也可以将其应用到「声音内容转文本内容」的场景中。

举个例子,我会将一些来不及听的播客节目,以 mp3 的格式下载到本地,然后导入到「通义听悟」里生成文本,此时你既可以边看文本——或者是字幕——边听播客,还可以借助各类大语言模型应用,快速处理这些文本内容,比如生成摘要或整理成文等等。

img

类似的,飞书旗下的「飞书秒记」也能实现类似的效果,各位可根据自己的喜好灵活选择。

更进一步,不同语言之间的转换也会丰富内容消费的场景,特别是在各类大语言模型不断进化的背景下,语言之间的转换效率和质量已经有了大幅提升,以支持各类扩展的桌面 Chrome 或(chromium)浏览器为例,可通过安装扩展的形式,快速调取大语言模型以及众多云服务的翻译能力,这些服务绝大多数都是免费的,比如:

这里有必要简单介绍一下「字符数」,字符数以原文为标准,包含文字、字母、数字、标点符号、空格以及换行符。一般来说一本英文书的字符数量在 50 万左右,这至少说明了上述免费翻译服务可以应对日常不同语言之间的翻译、转换需求。

下面是我个人正在使用的几款语言翻译工具,可在浏览器或 macOS 系统中快速使用:

  • 划词翻译:一款浏览器扩展,可调用多个云服务的翻译能力,还能和各类词典实现协同;
  • OpenAI Translator:这款浏览器扩展的最大特点是对 OpenAI API 的支持,其中网页 ChatGPT 模式能够调用 OpenAI 为移动端提供的 ChatGPT 模型,翻译速度非常快;
  • Bob:一款 macOS 上的翻译应用,集成大量云服务提供的翻译能力,还支持第三方开发者的插件,付费版本价格为 50 元人民币,如果你经常需要在浏览器之外调用翻译能力,不妨试试这款工具;

近期还有两个老牌阅读应用迎来更新:

  • Pocket 即将停止开发 macOS 版本的独立应用,转而鼓励用户使用兼容 iPad 的应用,这意味着大量搭载英特尔处理器的 macOS 用户无法使用 Pocket 独立应用;
  • Instapaper 面向 macOS 和 iOS 发布一系列新功能,包括更灵活的文章排序功能、丰富的滑动(iOS)、长按等操作手势等,同时也改进了与 Siri 快捷指令的集成,你可以在 App Store 免费下载该应用;

📁 信息加工

大模型应用。上周开始,苹果对中国区 App Store 上大量使用 ChatGPT 或生成式 AI 技术的应用进行了清理,多位开发者收到类似这样的邮件通知:

正如您所了解的,政府一直在加强对深度合成技术(DST)和生成式人工智能服务的监管,包括ChatGPT在内。DST必须满足在中国运营的许可要求,包括从工业和信息化部获得许可证。

有博客主统计超过 100 款应用被下架

由网信办联合教育部等多部委颁布的《生成式人工智能服务管理暂行办法》将于本月 15 号正式施行。

关注一下 ChatGPT 最近的动向,根据 OpenAI 发布的消息,本周 ChatGPT 将迎来一系列更新,新特性包括:

  • 提示词示例:让用户知道从哪里开始对话;
  • 建议或推荐回复:可以帮助用户进一步探讨某个话题;
  • GPT-4 作为默认模型:适用于所有订阅 ChatGPT Plus 的用户;
  • 文件上传功能:Code Interpreter 最多可上传 10个文件;
  • 提供更长的账户登录时间记录:之前用户登录账户两周后会自动注销,需要重新登录;
  • 增加键盘快捷键 :可使用「⌘(Ctrl)+ /」查看快捷键列表;

这些功能对于提升用户体验意义重大,特别是前两项,能够大幅降低用户一开始与 ChatGPT 交互的门槛。而对于重度用户来说,默认的 GPT-4 模型、Code Interpreter 的更新,也可以提升使用 ChatGPT 的效率。

谈到文件上传功能,如果你不是 ChatGPT Plus 订阅用户,不妨试一下这个浏览器扩展,它可以在 ChatGPT 对话底部增加一个文件上传的按钮,点击按钮,可上传文档进行处理:

img

目前支持诸如 XLSX、XLS、DOC/DOCX、PDF、TXT 等多种格式的文件,整个处理过程其实就是分段复制粘贴到 ChatGPT 的对话框,并通过自定义的提示词让 ChatGPT 无视这些粘贴的文档,下图就是默认的提示词:

img

由于是复制粘贴,所以大文档处理的时候会有点慢,而且太长的文档可能也会让 ChatGPT 部分「失忆」,但 10000 万字以内的文档处理还是挺流畅的,感兴趣的朋友可以试一试。

上周华为发布了全新 HarmonyOS 4,其中一个吸引我的更新是手机助理「小艺」的更新

根据华为新闻稿,在(华为)盘古大模型的加持下,「小艺在智慧交互、生产力提升和个性化服务三个方向持续增强,成为更聪明、更能干、更贴心的智慧助手」。

结合我在现场的试用和后续的交流,我觉得这会成为观察「大模型+智能手机」的重要角度,有三个有趣的方向:

  • 设备功能交互入口。官方展示的是用户输入「给我换一个带天气效果的壁纸」,「小艺」快速理解之后帮用户找到相应的设置界面,这展示了未来人机交互的新特点,用户再也不用在一层层菜单查找功能,也不再再去翻看说明书了,直接用自然语言提出自己的需求就行了;
  • 互联网信息/网络入口,官方展示了用一句复杂的需求让「小艺」在附近找个餐馆,「小艺」可以通过插件能力,访问美团的服务,从而提供信息,这是各类互联网信息/服务基于大模型应用的重要落地场景,随着未来越来越多服务以插件形式进驻,「小艺」的实用性也会进一步提升;
  • 多模态模型能力的加持,进一步提升了智能手机的「创造力」,官方演示了一个基于本地图像进行的个性化处理,考虑到智能手机天然拥有生产影像、语音的能力,我们有理由相信,接下来智能手机会有更大围绕「影音内容创造」的场景。

当然,这不会是「小艺」或其他手机助理发展的终点,还有众多问题未来需要解决,比如底层芯片算力的支持、如何进一步优化语音与自然语言能力的整合、如何构建丰富的互联网服务生态等等。

但这的确让我们看到接下来使用如何使用智能手机的一些线索,特别是在智能手机市场——包括苹果也承认——陷入停滞甚至即将衰退的行业背景下,手机厂商需要新的卖点,鼓励用户加快更换手机。

分享一份调查数据,付费 AI 助理的市场需求并不少。调查显示,近 70% 的受访者表示愿意为个性化 AI 助理支付一定的费用,从每年 300 美元到 12000 美元不等。

img

站在投资人的角度去看,假设调查数据可信,个性化 AI 的付费市场规模可能达到 1.25 万亿美元。即使假设只有 50% 的人愿意付费,以及大多是较低价格档位,个性化 AI 助理的市场规模仍可能近 7000 亿美元。

对于用户而言,为 AI 助理付费和订阅或购买优秀的软件无异。现阶段,大模型应用的场景相对较小,未来应该有更多应用或应用场景融入大语言模型的能力,从而进一步提升应用的使用效率;与此同时,通过付费的形式,用户可以获得更多控制数据流动的能力,或者说,用户需要知道自己的数据如何被处理、处理后的数据最终将存储在何地,以及如何存储

✍️ 信息创造

从 Arc 浏览器到 Arc OS?Arc 浏览器上月正式向所有人开放,这款浏览器在过去两年时间吸引众多数字工具爱好者的好评,如果你对这款产品还比较陌生,可以先通过这篇介绍,快速了解一下,但更好的方式还是免费下载试用一番,你一定会有一些不同的看法。

下面的内容不会涉及太多 Arc 浏览器的功能或特性介绍,而是基于各位已经使用过这款浏览器的背景下,提供一些我对该浏览器塑造我的内容创造流程的思考。

Arc 浏览器让我产生了一种「完全基于浏览器工作」的念想,这种想法曾在我使用 Chromebook 的时候出现过,当然那是因为 ChromeOS 系统的「胁迫」或要求,用户必须适应将大量工作流程迁移到浏览器(准确地说是 Chrome),而 Arc 浏览器则是让我「主动愿意」选择这么做,因为 Arc 浏览器提供了一系列便于在浏览器建立工作台的特性与功能。

首先,Arc 浏览器通过侧边栏构建起了灵活而丰富的服务入口,如下图所示,这是 Arc 浏览器的标准页面:

img

右侧是打开的网页,左侧自上而下有四个部分:

  • 地址栏,可点击弹出浏览器扩展;
  • 收藏夹,用户可定制多个功能入口,目前支持邮箱(Gmail、Outlook)、日历、Notion 等多个服务,光标停留在这些图标上,会显示诸如未读邮件、日程安排等信息,非常方便;
  • 固定标签页:用户可以把每天经常使用的网页放在这里,比如我就把几个大模型服务放在这里,便于快速打开;
  • 每天打开的标签页位于第四部分,Arc 还特别设置了自动归档功能,用户可灵活控制时间,从 12 小时到 30 天不等;

这样的侧边栏设计可以帮助用户更好梳理清楚网页通知、长期访问和短期浏览的关系,对于提升用户的工作效率,意义巨大。

其次,Arc 的网页分屏功能让其具备了灵活的多网页工作机制。

下图是我个人喜欢的一种工作方式,将若干个网页放在一起,边浏览网页、边通过大模型梳理(翻译或总结或生成)。之前无论使用 Safari 还是 Brave,我需要在若干个标签页之间跳转,或者将几个页面变成浏览器窗口,然后自行组合。

而在 Arc 里,网页分屏功能极大降低了难度,你可以任意添加、管理多个网页,构建起你的多网页工作机制。

img

需要注意的是,Arc 的这项功能更适合外接显示器的状态,比如上图就是我外接 27 英寸显示器场景下的截图,如果主要工作场景是在 13 或 15 英寸笔记本上,这个分屏体验可能并不会特别好。

第三,强大的「CMD+T」命令极具潜力,只需输入关键词,就可以完成从页面导航、页面组织到打开网页甚至使用浏览器扩展等一系列操作,类似于 macOS 上的神器 Alfred。

img

「CMD+T」命令极大丰富了 Arc 浏览器的灵活性,对用户来说,无需再去逐个寻找各类功能,直接利用该命令按钮直达自己需要的功能或网页

此前,我曾分享过「Dropbox Dash」的价值。在安装了相应扩展之后,Arc 浏览器能够借助「Dropbox Dash」与本地文件、网络存储实现更有效的整合,某种意义上说,Arc 可以成为你使用 macOS 一切的启动器和入口,一如 Chrome 在 ChromeOS 的地位。

更进一步,我希望未来「CMD+T」可以集成大语言模型的能力,从而帮助用户直接通过这个「框」获取服务、得到答案或完成某项工作。

事实上,Arc 浏览器并不会成为诸如 Edge 这样可以真正挑战 Chrome 的浏览器,但它的一系列功能创新让外界看到了 Web 复兴的可能性。毕竟在内容创造的场景中,笔记本或台式电脑依然有着自己的用武之地,这也会成为诸如 Arc 等新一代桌面浏览器持续增长的空间。

对我来说,Arc 浏览器的众多创新特性,让我可以在浏览器里一站式完成众多工作,甚至连撰稿的需求也可以借助诸如 DillingerStackedit 这类基于浏览器的文本编辑器完成,可实时保存到 Dropbox、Github 等。

最后,我再次建议各位尝试一下 Arc 浏览器,这比看再多的介绍、评测(包括这篇)有用太多了。

以上就是本期「Digital Explorer」的全部内容,再次感谢您的支持,有任何问题或建议,欢迎写邮件给我:zhaosaipo@gmail.com 

这封邮件是 Dailyio 的付费邮件,但我欢迎您将这封邮件转发
给您身边关注数字工具生产力的朋友。并希望您向更多人推荐 Dailyio。
更新您的邮箱信息
查看网页版本
点击这里退订