研究报告
技术展望2024
5 分钟阅读
2024/01/12
研究报告
5 分钟阅读
2024/01/12
这是一个重塑的时代。未来几年,企业拥有的技术选择,无论是数量还是种类,都将多到惊人。这将释放更多人类潜能,提高生产力和创造力。具有前瞻眼光的企业已经开启了这场竞赛,目标瞄准一个拥有更高价值和能力的新时代。虽然每个企业的策略各不相同,但他们都认识到一个共同的趋势,即技术正在变得更加人性化。
人们不禁要问,技术不就是由人制造、并为人制造的吗?照理应该很符合人类的需求和特点。创造扩展人类能力的工具正是人类的独有特征之一。有人认为,正是这种能力使人类与其他物种区别开来。
可事实是,我们创造的工具往往并不人性化。它弥补我们自身的能力和限制,实现我们无法做到的事情,从而彻底改变了我们的生活。例如,汽车实现了我们的出行自由,起重机让我们得以建造摩天大楼和桥梁,乐器和播放器则帮助我们创作、传播和欣赏音乐。
技术非人性的特点也可能是它的缺点。长期使用手工工具会导致关节炎,长时间盯着屏幕会导致近视。虽然我们有先进的导航仪,但在驾驶时使用它们仍然会分散我们的注意力。尽管人们一直在努力创造出更符合人体工学或更方便好用的工具,但我们仍然经常基于机器的需求和限制来做出决策,而不是优化人类的潜力。
然而现在,人类对技术的设计理念发生了从未有过的改变。这并不意味着要远离技术,而是拥抱更具人性化的新一代技术。这些技术在设计上更加直观,更符合人类的思维和行为方式,也更接近人类的智能,与我们生活的方方面面紧密融合。
生成式人工智能的影响力不仅仅局限于完成特定的任务,它还将深刻重塑组织和市场。
以生成人工智能和Transformer模型对我们周围世界的影响为例,ChatGPT和Bard等聊天机器人一举成名后如今已成为技术发展的推动力,使其变得更加直观、智能,并易于所有人使用。人工智能曾经专注于自动化和例行任务,现在正通过与人类合作,转向更多辅助和增强的功能,改变人们的工作方式。在过去,许多高级技术和专业知识工作只能由受过高度训练或财力雄厚的人才能够使用和应用。然而,随着人工智能的发展,这些技术和知识工作正变得更加普遍、可用。
生成式人工智能的影响力不仅仅局限于完成特定的任务,它还将深刻重塑组织和市场。
除了人工智能之外,还有许多其他技术也在朝着更加人性化的方向发展。这些技术将解决横亘在我们与技术之间的许多痛点,帮助我们释放更大的人类潜力。
人性化的技术设计将使更多人能够接触和利用技术,扩大他们获取知识的机会,参与到持续创新中。曾经因为技术的复杂性而被隔绝在外的人群也有望参与,为数字革命做出贡献。随着技术变得更加直观和易于使用,我们还可以吸引这些人群成为新客户和新员工。
领导者仍然要面临老生常谈的问题,例如哪些产品和服务已经成熟到可以扩大规模、哪些新数据可以使用、可以采取哪些变革行动,但他们还将面临一些可能从未预料过的问题:如何监督人工智能?谁将参与数字化转型?我们对生态系统中的人们承担什么样的责任?
人性化设计不仅仅是对功能的描述,更是对未来的要求。在企业寻求重塑其数字核心的过程中,以人为本的技术设计将是获取成功的关键。每个企业都将看到潜在的新兴技术将重塑其数字化工作的核心。生成式人工智能、空间计算等技术的成熟和规模化将改变数字体验、数据和分析、产品。
在这数字化的重塑时刻,企业可以制定新的战略,最大限度地发挥人类潜力,消除人与技术之间的摩擦。人工智能将为未来提供动能,但未来必须为人类智能而设计。新一代的技术将赋予企业更强大的能力,可以做更多的事情,因而他们做出的每一个选择也变得更加重要。您成为一个榜样还是一个警示?全世界都会关注。
93%
的高管认为,随着技术的快速进步,组织的创新目标变得前所未有的重要。
我们与数据的关系正在发生变化,我们思考、工作以及与技术交互的方式也随之发生改变。数字化企业的整个基础正在被颠覆。
基于搜索的“图书管理员”模式正在让位于新的“顾问”模式。人们现在不再通过搜索来获取信息,而是向生成式人工智能聊天机器人提问来寻求答案。例如,OpenAI 于 2022 年 11 月推出了 ChatGPT,它成为有史以来用户数量增长最快的应用。虽然大语言模型 (LLM) 已存在多年,但 ChatGPT 以直接的、对话式回答问题的能力引起了巨大的关注。
数据是塑造当今数字化企业的最重要因素之一。而新的聊天机器人正在打破传统的数据处理方式,它可以综合大量信息来提供答案和建议,使用不同的数据模式,甚至能够记住之前的对话提供下一步的建议。最终,这些聊天机器人可以担任大语言模型顾问,使公司的每个员工都能快速获取整个企业的知识,最终让企业充分利用数据,实现数据驱动的业务运营。
各家企业都拥有许多宝贵且特有的信息,并希望客户、员工、合作伙伴和投资者能够发现并使用这些信息。但由于种种原因,比如记不住正确的搜索词、无法编写查询、数据存在孤岛又或是文档太繁杂,很多信息都难以访问或提炼。生成式人工智能拥有巨大的潜力,可以为今日的数据驱动型企业带来重要的价值。
然而,真正的颠覆不仅仅会改变我们访问数据的方式;还可能改变整个软件市场。如果每个应用程序和数字平台的界面都成为生成式人工智能聊天机器人会怎样?如果聊天机器人成为所有平台的核心能力,我们读取、写入和与数据交互都依赖于聊天机器人会带来怎样的影响?
为了真正从生成式人工智能中受益并建立由数据和人工智能驱动的未来企业,企业需要从根本上重新思考自己核心技术战略。如何收集和构建数据及更广泛的架构,如何部署技术工具和运用它的全部功能,这些都需要重新考虑。培训、消除偏见和人工智能监督等新实践则必须在一开始就实施起来。
95%
的高管认为生成式人工智能将迫使他们的组织升级他们的技术架构。
强化数据基础
新技术和新手段可以帮助企业加强数据基础,为数据驱动业务的未来做好准备。事实上,一些企业已经采取行动,升级数据战略。但仍有许多企业在这方面面临困难,他们的知识管理系统存在严重不足。无论企业的起点在哪里,大语言模型顾问都要求一个更容易访问和更具上下文的数据基础。
知识图谱是这里会用到的最重要的技术之一。它是一个图形结构的数据模型,包含了事物及其之间的关系,并对更大的上下文和含义进行编码。知识图谱不仅可以聚合多样化来源的信息并更好地支持个性化,还可以通过语义搜索增强数据访问能力。
思科公司的实践就很好地展示了知识图谱和语义搜索的强大功能。与许多大型全球企业一样,思科的销售团队有大量文档和内容,但由于缺乏元数据,他们很难通过索引驱动的搜索找到相关文档。为了解决这个问题,思科与知识图谱数据库Neo4j合作,创建了一个元数据知识图谱。
虽然思科没有使用大语言模型,但他们依靠自然语言处理创建了本体论和机器标记服务来分配文档元数据,然后将其存储在图形数据库中。现在,查找信息所需的时间减少了一半。据估计,思科每年通过这些提升的知识管理能力为销售人员节省了超过 400 万个小时的时间。
除了知识图谱之外,其他数据管理策略也很重要。在企业更新整体架构时,可以使用数据网格和数据结构这两种方法来帮助匹配和梳理企业需要处理的信息。
大语言模型:新数据接口
知识图谱、数据网格和数据编织对企业知识管理系统来说已经是一个巨大进步,但如果将图书管理员模式转变为顾问模式,企业有望获得更多价值。试想,员工不必在搜索栏中输入关键词,而是用自然语言提问,就能在企业的任何网站和应用中获得清晰的答案。通过建立一个可访问的、可反映上下文的数据基础,企业就可以开始着手创建顾问模式,并且还可以尝试探索一些不同的方式。
第一种方法是从零开始训练自有大语言模型。由于这需要投入大量资源,因此比较少见,一些领先的人工智能公司,例如OpenAI、Google、Meta、AI21和Anthropic等会采用这种方式。
第二种方式则是对现有的大语言模型进行“微调”。从本质上讲,这就是在更通用的大语言模型基础上,用特定领域的专门文档对其进行进一步培训,使其符合某个专业领域的需求。大型云厂商提供帮助客户使用自己的数据对基础模型进行微调的服务,然后把这些定制的个性化模型集成和部署在其公司的应用中。与从头开始训练大语言模型相比,这种方法需要的资源要少得多,但这样训练出来的模型并不能确保具有最新的信息。这种微调方式最适用于那些对实时信息的要求不那么高的特定应用场景(例如设计或市场营销中的创意输出)。
这种微调模式还有一些略微不同的版本,同样也得到了认可。针对一些特定场景,企业也开始尝试对小语言模型进行微调。像DeepMind的Chinchilla和斯坦福大学的Alpaca这样的小语言模型只需要一小部分计算资源,也能与比它们更大的模型匹敌。这样的小语言模型效率更高、运行成本更低、碳足迹更小,而且可以更快地进行训练并用于较小的边缘设备。
最后,打造大语言模型顾问最流行的方法之一是提供更具相关性、特定用例信息来关联预训练的大语言模型。通常这是通过检索增强生成(retrieval augmented generation,缩写为RAG)。顾名思义,RAG将信息检索系统和生成模型相结合,生成模型既能进行自我训练又能直接使用,并通过API进行访问。
情境学习和RAG奠定了大语言模型的基础,而所需的时间和计算资源较少。相比之下,从头开始训练或微调大语言模型需要更多的时间、计算资源和专业知识。这种方式最适合那些对信息时效要求比较高的用例,但精确性可能仍有待验证。
生成式人工智能和大语言模型的发展相当迅速,因此当您在阅读本报告时,可能已经有了最新的生成式人工智能顾问最佳实践案例。但无论您选择哪种探索方式,始终不变的一点是:您需要有一个坚实的数据基础且有一定相关的语境,否则你的大语言模型顾问将永远无法达到预期效果。
了解并降低风险
首先也是最重要的是,当企业开始探索大语言模型顾问新机遇的同时,也需要了解相关的风险。
例如,大语言模型会“产生幻觉”,提供虚假信息。由于它们被训练为以高度确定性提供概率性答案,因此有时这些模型顾问会充满自信地传达错误信息。当大语言模型的应用开始越来越深入地参与我们的日常活动,如信息访问和传递、软件交互与集成等,这种缺陷带来的后果也可能会很严重。无论如何,如果您不知道您所读到的信息是否真实,这将是一个大问题。
虽然幻觉问题可能是制约大语言模型广泛应用的一大难题,但除此之外,企业使用聊天机器人时还会遇到其他问题。首先,如果使用的是公共模型,企业则必须仔细保护专有数据,以免泄露。其次,即使是私有模型,也要避免未经授权的员工接触到不应该共享的数据。同时企业还要管理计算成本。最后,实施这些解决方案需要相关专业知识,而这方面的专家人才相对较少。
面对这些挑战,我们不应被大语言模型所震慑,而应当以适当的控制措施来实施这项技术。
输入到大语言模型中的数据,无论是培训中的还是提示的,都应该是高质量的数据:新鲜、标签明确且无偏见。培训数据应该是由客户主动共享的零方数据,或者是公司从自有资源中直接收集的第一手数据。任何个人或专有数据都应得到安全标准的保护。最后,数据权限也必须到位,以确保用户有权访问为情境学习而检索的任何数据。
除了准确性之外,生成式人工智能聊天机器人的输出还应该是可解释的,并与品牌保持一致的。可以通过设置条件,确保模型不会回答涉及敏感数据或有害言论的问题,拒绝超出其范围的问题。此外,模型应告知其回答的不确定性并提供验证来源。
最后,生成式人工智能聊天机器人应该接受持续测试和人工监督。公司应该投资建设负责任的人工智能并制定符合最低标准的规定。他们应该定期收集反馈并为员工提供培训。
从搜索到询问:我们会如何?
最后,大语言模型顾问的新时代已经到来,而我们该如何迎接?
在企业内部,生成式人工智能聊天机器人不仅能让员工和客户获得知识,还能让他们以全新的体验方式获得具有上下文意义的答案,从而帮助企业增强内部知识共享、改善客户服务、优化产品功能。
面向企业外部,生成式人工智能聊天机器人还将改变客户查询产品或服务时获取企业信息的方式。人们已经用微软的Bing Chat等生成式AI互联网搜索机器人取代传统搜索引擎,或者使用Google SGE增强搜索体验。它们在人工智能的驱动下进行综合扫描,响应用户的搜索,并以自然语言直接回答人们的问题。虽然最终的页面上也会显示引用的信息来源并提供搜索结果,但问题是,是否还有人会真正访问那些链接呢?
如果不访问,那对于网站,特别是商业网站来说,这意味着什么?企业如何确保客户获得他们正在寻找和需要的正确信息,或者具有适当链接来源的最新信息?企业完全有机会重新思考如何触达客户。
除了在这一趋势中已经讨论过的一些安全预防,企业还应该考虑大语言模型如何改变用户数据动态。
“我们有机会重塑搜索引擎的内涵,重新获得用户的信任。”
公司有机会成为自己信息的管理者,对数据和知识进行存储、保护、分析,并通过数字顾问直接向其传播给客户。要做到这一点意味着重大的责任,企业必须确保数据安全,同时在咨询服务中给予高度可信的响应。这也意味着一个更大的机遇,在没有搜索提供商介入信息交流的情况下,公司可以作为可靠洞察的直接来源提供服务,并赢得客户的信任。
生成式人工智能对数据和软件领域具有革命性的影响。大语言模型正在改变我们与信息的关系。从企业如何接触客户到如何为员工和合作伙伴赋能,一切都在发生转变。领先的公司已经开始探索、规划和构建下一代数据驱动的业务,而这种趋势将很快成为数字化业务运作的新常态。
随着技术的进展,人工智能正在逐渐摆脱其仅限于辅助的局限性,通过行动与越来越多的领域进行交互。未来十年,我们将看到整个智能体生态系统的崛起。大量互联的人工智能将组成一个大型网络,促使企业以一种与过去全然不同的方式思考他们的智能和自动化策略。
今天,大多数的人工智能策略都局限于在任务和功能上提供辅助。人工智能行动范围有限,往往作为单独的个体行动,而无法互联连接组成一个生态系统。但随着人工智能演变成智能体,自动化系统将自主做出决策并采取行动。智能体不仅会为人类提供建议,还会代表人类采取行动。人工智能将不断生成文本、图像和洞察,但智能体将自行决定如何处理这些信息。它将帮助我们建立未来的世界,而我们要做的就是确保它创造的世界是我们想要的世界。
当智能体升级成我们的同事和我们自身的代理,我们需要与它们一起重新构建技术和人才的未来。
虽然智能体的进化才刚拉开帷幕,但公司已经需要开始考虑接下来的发展。一旦智能体开始自主行动,用不了多久他们就会开始交互。因此,未来的人工智能战略需要协调整个系统中的所有参与者:经过特定训练的人工智能、通用智能体、针对人类协作而调整的智能体以及为机器优化而设计的智能体等等。
但在智能体真正能够代表我们行动之前,或是与其他智能体彼此协同工作之前,还有许多准备工作要做。事实上,由于滥用工具、不准确的响应,智能体仍会遇到困难,而这些错误会迅速累积,导致问题进一步恶化。
在今天之前,人类和机器已经在工作任务层面上开展协作,但企业领导者并未准备让人工智能来经营我们的业务。未来,当智能体升级成我们的同事和我们自身的代理,我们需要与它们一起重新构建技术和人才的未来。这不仅关乎新技能,还关乎如何确保智能体和我们持有相同的价值观和目标。智能体将帮助我们建设未来的世界,而我们的职责就是确保这个世界是我们想要生活的。
96%
的高管认为人工智能体生态系统的利用将在未来3年内为其组织带来重大机遇。
当人工智能助理成熟到成为可以代表人类行动的代理人,由此带来的商业机会将取决于三个核心能力:实时数据和服务的获取、通过复杂的思维链进行推理,以及为智能体系统自身使用而创建的工具。
首先是实时数据和服务的获取。ChatGPT首次推出时,人们总是误认为它是一个主动查找网络信息的应用程序,但事实上,经过了海量知识库训练的GPT-3.5(ChatGPT最初推出的大语言模型)是利用数据之间的关系来提供答案的。
2023年3月,OpenAI宣布了第一组ChatGPT插件。这组“插件”支持大语言模型发挥查找信息、使用数字软件、执行代码、调用API的功能,并通过允许模型访问互联网来生成和输出非文本信息。
这些插件将基础模型能够与其他系统和服务进行交互,而不再是孤立的从而使其具备了从而具备了在数字世界中领航的能力。插件的创新潜力在于它们可以为基础模型增加各种功能和能力,同时它们也是连接和扩展代理系统的关键组成部分,因此将在智能体生态系统的发展过程中扮演重要的角色。
人工智能的研究开始突破机器推理的障碍。为了帮助大语言模型更好地理解复杂任务中的步骤,人们开发了思想链提示这一方法。研究人员意识到,他们可以将提示分解为明确的步骤甚至引导模型“逐步进行思考”,由此可以产出更好的结果。”这种类型的提示最初可能需要人工输入,但研究继续揭示出模型可以被设计为自我评估并将信息存储到工作记忆中,从而为自动化这种类型的推理打开了大门。
通过思维链推理和插件的使用,人工智能具备了更严格的逻辑能力并有望借助在网络上丰富的数字工具来处理复杂的工作。但如果所需解决方案还没生成,人工智能又该怎么办呢?
如果人类面临这样的挑战,我们会想办法获取或制造我们需要的工具。过去,人工智能完全依赖人类来增强和发展自己的能力。因此,判断智能体兴起的第三个维度就是人工智能为自己开发制造工具的能力。
由此看来,智能体生态系统的发展极其复杂且充满挑战。除了上述三个核心能力之外,如果要实现这一庞大的生态,还意味着要完成异常艰巨的协调统筹工作,以及对人类劳动力的大规模重塑,而这足以让领导者们望而生畏,无所着手。
庆幸的是当下的数字化转型发展可以助企业一臂之力。数据现代化和API库的创建是将企业系统集成到人工智能生态系统的关键。然而,需要记住的是,这些模型并非完美无缺。大语言模型不可避免还是会给出错误的回答。此外,仍需要进行更多研究,来了解这些模型的使用风险和网络安全影响。
当智能体生态系统开始成为劳动力,这会带来怎样的影响?无论是作为我们的助理还是我们的代理人,这都意味着爆炸性的生产力、创新以及劳动力的改造。
作为助手或搭档,智能体可以极大地增加单个员工的生产力。对于始终依赖于人类的企业流程,智能体将成为人类的合作者。
在更多场景中,我们也将越来越信任智能体代表我们行事。作为我们的代理人,它们可以处理目前由人类执行的工作,而相对人类员工,它们具有巨大的优势。一个智能体就可以掌握公司的所有知识和信息。它们的知识储备将远远超过最资深的人类员工,并且能随时随地根据这些知识迅速投入工作。当他们缺乏所需的信息时,他们可以产生信息。当他们缺乏合适的工具时,他们可以制造工具。
企业需要考虑的是如何从技术和人力两方面来支持这些智能体。从技术方面来看,需要着重考虑是这些实体如何识别自己。智能体会模仿人类同行的操作,自主执行越来越多的行动,因此,Web3、去中心化身份或其他新兴解决方案等技术对于确保这些智能体能够正确识别和验证自己的身份将变得至关重要。
至于对人类员工的影响,包括他们的新责任、角色和职能,需要更深入的关注。需要明确的是,人类并不会被取代。尽管智能体可以提供额外的能力,但人类仍然是不可或缺的。当智能体接管一些企业职能时,人类仍然需要制定并执行规则,并承担其他新的职责。因此,企业现在就可以重新考虑人才战略,确保员工为这一新现实做好准备。
重新思考人才
在智能体生态系统时代,企业最有价值的员工是那些最有能力为智能体制定规范的员工。当智能体拥有自主权时,人类必须制定规则并坚决执行以确保智能体的代理人行为能帮助公司及其内部人员获得更大收益。借助智能体,人类能做比以往更多的事情,因此两者都必须牢记企业的目标、使命和方向。因为无论员工做出什么选择和决定,无论好坏,其影响都将被放大。
公司对其自主智能体的信任程度决定了智能体可以创造的价值,而企业的人才有责任建立这种信任。智能体生态系统可以在没有人类干预的情况下采取行动,但它们采取的行动并不总是正确的。在放开智能代理之前,人类需要为之嵌入规则、知识和推理技能,然后进行严格测试,以确保其做好准备。随着智能体生态系统的发展,为了建立对半自治系统的信任,人类的主要责任有两个:打造智能体支持系统和完善机器推理。
前沿组织的员工已经通过管理他们的智能体支持系统,来推动自主人工智能朝着准确行动的方向发展。现有的大语言模型接受了大量信息的培训,例如ChatGPT等工具回答问题的准确性已经达到一定程度。但是,如果要让智能体管理您的供应链,那么它首要的就是具备供应链方面的专业知识,而无关的信息可能会导致您的智能代理偏离目标。当员工将企业知识、专有数据和外部工具融入到自主人工智能中时,这些支持系统可以帮助人工智能系统判别需要优先考虑的信息。
但仅靠逻辑思考是不够的,智能体还需要了解自己的局限性。智能体什么时候有足够的信息来单独行动,什么时候应该在采取行动之前寻求支持?具体情况因智能体、企业和行业不同而异。但总体而言,人类将决定自主系统的独立程度。人类应教导智能体,让它们学会判定自己知道什么,更重要的是明白自己不知道什么,以便智能体能够收集正确的信息,从而持续工作。
企业现在可以做什么
那么如果要在未来的数字时代取得成功,您要怎样部署员工和智能体的混合团队?您需要给智能代理一个了解您的公司的机会,也给贵公司一个了解智能代理的机会。
企业可以首先在智能体雏形、大语言模型及其支持系统之间联系起来,构建一个连接框架。您可以运用已经成熟的许多生成式人工智能模型和一些数字化助手,把公司重要的人员、数据、工具和机器人连接起来。您可以基于公司信息对大语言模型进行微调,让基础模型在发展专业知识方面获得领先优势。
越早为智能体准备好相关的基础设施和信息,您未来的智能体就能越早准备好发挥其潜力:担当组织内部和外部的人类代理。目前,本报告建议您重新考虑您的某些数据管理实践,例如数据库的向量化处理、提供用于访问数据的新API以及扩展与公司系统进行接口交互的工具等。
同时,也应当及早向员工们介绍他们未来的数字同事。公司应指导员工与现有的智能技术进行推理,从而为建立对未来智能代理的信任基础;激励您的员工去发现并超越现有自治系统的限制;帮助您的员工制定明确的规则,规定何时可以或不可以信任他们所使用的自治系统。换言之,培训和提高您的员工队伍的技能,使他们做好准备且积极掌握主动权,当智能体生态系统成为主流时,知道如何牢牢地掌控它们。
最后,企业需要明确自己的核心价值观和使命,并确保智能体采取的每项行动都与其保持一致,需要追溯到您的核心价值观和使命,并能够追溯到这些价值观和使命。因此,从组织的最高层到最底层,将价值观落实到实际操作中是非常重要的,而且越早越好。
从安全的角度来看,智能体生态系统的流程和决策需要透明度,以便公司和机构了解代理人的运作和决策过程。就像软件构建材料清单可以帮助了解软件应用程序的构成一样,智能体构建材料清单可以帮助解释和跟踪代理人的决策过程。
智能体是按照什么逻辑做决定?是哪个智能体打的电话?写了什么代码?使用了什么数据,又是与谁共享了这些数据?智能体的决策过程越易于追踪和理解,我们就越能信任智能体, 让它们代表我们行事。
智能体生态系统可以将企业生产力和创新提高到超越人类想象的水平,但它们的价值取决于引导它们的人类。当人类将他们的知识和推理来引导一个智能体网络时,这个网络将比无人引导的网络更加出色。今天,人工智能是一种工具。未来,我们的公司将由智能体来运营。我们的工作就是确保他们不会失控。鉴于人工智能发展的步伐,引入智能体要从现在就开始。
概览
空间计算不仅将改变技术创新的方向,还将改变人们的工作和生活方式。传统的桌面和移动设备主要依赖屏幕作为人们与数字世界交互的界面,而空间计算将最终实现数实融合,提供更加沉浸式和真实的体验。通过空间计算,人们可以在数字世界中感受到物理空间的存在,或者在现实环境中叠加数字内容。
那么,为什么我们并没有感受到新技术时代的到来?为什么我们听到的更多是关于“元宇宙低迷”的议论?元宇宙是空间计算最著名的应用之一。但在2021年和2022年蓬勃发展的数字房地产,到了2023年价格却下降了80-90%。
空间计算将改变技术创新的过程以及人们工作和生活的方式。
尽管有些企业选择观望,认为技术还不够成熟,但其他企业正在加快建立相关技术能力。Meta公司一直在快速开发VR和AR产品,并推出了Codex Avatars,它可以使用人工智能和智能手机摄像头来创建逼真的虚拟化身。Epic公司的RealityScan移动应用让人们只需用手机拍摄现实世界中的3D物体就能创建3D模型,把它转化为虚拟资产。
在此基础上,生成式人工智能等先进技术的发展使创建空间环境和体验不断变得更高效、经济。这些技术已经在工业应用中悄然得到验证,例如制造业中的数字孪生、VR/AR在培训和远程操作中的应用,以及协同设计环境的建立都已经对行业产生了实际且有价值的影响。
事实上,新媒体并不经常出现,即使出现,人们接受起来也很缓慢,但早期参与新媒介的回报几乎是无法估量的。
92%
的企业高管表示他们的企业计划利用空间计算来提升竞争优势。
行动的时机已经到来。随着技术的发展,空间应用程序的创建和采用成本正在下降,同时在构建空间应用程序、使其更真实并发挥潜力方面也正在取得重大进展。
开发空间应用程序
新的标准、工具和技术使得开发具有熟悉感的空间应用程序和体验变得更容易、更便宜。
想想您经常访问的网站或手机上您最喜欢的应用程序。即使他们的用途不同,体验千差万别,但却都遵循相似的用户界面、交互模式和设计原则,从而创造出一种熟悉感。为什么?他们底层的基础设计是相同的。
长久以来,空间计算缺乏统一的基础,这导致了构建真实世界的困难。数字空间的创建者要考虑纹理、形状、照明和物理等,需要斟酌的元素远远超出网页设计师。同时,空间计算的3D建模涉及不同领域,从游戏设计到电影动画,再到建筑绘图或CAD建模等工业类型应用,因此存在各种各样的语言、文件类型、供应商和设计方法。这导致了生态系统的碎片化。
皮克斯开发的输入通用场景描述(Universal Scene Description,简称USD)可能是用来绘制3D空间最好的软件。USD为创作者提供了设计全方位场景的框架,包括特定资产和背景、灯光、角色等。由于USD的设计初衷是将这些资产整合到一个场景中,实现不同软件之间的协作和非破坏性编辑。尽管USD最初在娱乐应用程序中得到广泛应用,但它正在迅速成为最具影响力的空间应用程序的核心。特别是在工业数字孪生领域,USD的应用越来越重要。
企业需要意识到空间不会独立运营。与互联网上的网页或应用程序类似,未来的网络发展将把不同空间的并行体验更加紧密地结合在一起。数字身份和Web3将为支撑这些空间的运行发挥重要作用,例如从把一条数字裤子或我们的支付信息从一个空间移动到另一个空间,到如何识别在这些空间中运营的实体。尽管这些技术在今天可能看起来与开发成功的空间并不密切相关,但它们将很快影响到空间对其客户的长期价值。
这一点已经得到了关注。Web3开放元宇宙联盟(OMA3)为我们建立了跨体验的标准。目前,如果您想在不同的元宇宙世界之间切换,需要退出一个应用程序并转移到下一个应用程序,这就好比您访问新网站时必须退出并重新启动浏览器一样。2023年,OMA3启动了一个名为Inter-World Portaling System的项目,旨在开发一种协议,让开发人员在不破坏沉浸感的情况下将用户从一个空间转移到另一个空间,就像浏览器的地址栏位于您访问的任何网站的顶部一样,提供了一种统一的方式来切换不同的空间。
尽管互操作性很重要,但如果开发3D资产的成本非常昂贵(实际上历来如此),这依然没有意义。据估计,2020年每项资产3D模型的平均成本从40美元到数千美元不等。3D场景将需要大量资产,但这一领域需要突破成本压力。
增加空间人口
“大家都在哪儿呢?”这是物理学家恩里科·费米在思考宇宙生命时的名言。根据数学推算,宇宙应该充满生命。然而,仰望星空,太空却显得如此荒凉类似地,当我们访问元宇宙空间时,有时也会感到空旷和无人居住的感觉。这种感觉可能会让用户失望,导致他们不再愿意继续使用这些空间。因此,为了成功,企业需要关注空间的真实感和生动感。
引入其他用户显然是增加空间人口的一种有效方法,但如果差不多4亿人都参与元宇宙体验,这些空间可能很快就会变得拥挤不堪。在现实世界中,大家即使是去逛同一个品牌,但进的可能是它的不同门店。而在虚拟世界里,所有人都可以同时访问相同的地点,与现实世界中的情况截然不同。
还有一种方法是创造AI数字人。这些数字人可以使空间变得更加丰富和有趣,打造交互式和个性化体验。这其实并不是一个新概念,非玩家角色(NPC)几乎自诞生以来以来就活跃在电子游戏中了,但它们常常给人一种空洞和缺乏个性的感觉,缺乏真实性和情感连接。
Inworld AI则提供了一个新的方向。它创建了具有个性的AI数字人,它们可以进行口头和非口头交流。这些角色具有联系上下文背景的能力,因此他们既不会神游天外,也不会引用非设定范围的内容,从而降低了造成错误信息的风险。
感知空间
最后,空间计算与数字计算的一个不同之处在于它可以涉及我们的感官。这种新技术让工程师可以设计能满足所有类型感官(如触觉、嗅觉和听觉)的体验。
在过去,添加触觉或触觉体验功能可能会让VR显得笨重乃至无趣,但芝加哥大学的研究人员最近发现可以用电极来更好地模拟触觉。他们搭建了一个电极系统,在人的手指上创建11个可控触觉区域。通过这个电极系统,手指就可以“感受”到数字化内容。想象一下,在一个冥想空间的应用程序中,您来到一个虚拟海滩边,在那里您可以“感受”到沙粒的触感。
气味也可以使数字空间更加逼真,通过唤起记忆或触发重要的战斗或逃跑反应。Scentient公司力图将嗅觉带入元宇宙。他们一直在尝试气味来培训消防员和紧急救援人员,特定气味的存在(如天然气)对于评估紧急情况非常重要。
声音或者说空间音频,对于逼真的数字场景构建也很重要。《纽约时报》最近使用基于网络的空间音频技术,让读者置身在巴黎圣母院的声音景观中。在移动设备或桌面设备上,他们可以在圣母院中“漫步”和聆听到唱诗班的歌声,而根据他们在空间中“站立”的具体位置,他们听到唱诗班的声音也略有不同。
最后,沉浸式的空间应用程序需要根据我们的自然动作做出响应。苹果公司的Vision Pro通过跟踪眼球运动,使得低延迟的内容可以更好地呈现在显示屏上。Meta公司的Direct Touch功能则探索了如何在VR中用跟踪手部动作来取代遥控手柄,从而提供更加直观和自然的交互体验。
空间计算不是要取代传统的桌面或移动计算,而是成为企业IT战略中的重要组成部分。
我们已经处于空间计算发展的初期阶段。如果您亲身体验过数字孪生,会更明白它们的意义。相比于观看视频或听讲座,通过空间计算,用户可以亲身体验培训内容,增强学习效果。虽然这些往往是独立的试点项目,但仔细考虑空间计算的独特优势有助于制定和指导企业战略。虽然市场有待成熟,但空间应用程序在这三个方面潜力明显:复杂信息的大量传递、塑造个性化和自定义的用户体验,以及物理空间的增强。最后一点虽然出乎意料但也值得关注。
相对于其他替代方案,空间媒介可以提供更加动态和沉浸式的体验,使用户可以在空间中自然地移动和行动,这种特性使得空间媒介在传达复杂信息时更加有效。例如,工业数字孪生、虚拟培训场景或实时远程协助等应用场景都需要共享大量信息,而传统方法可能会导致信息过载,影响员工理解和培训效果。
与旧媒体相比,空间的第二个优势是能够赋予用户塑造应用体验的能力。空间计算可以创造具有丰富物理空间感的数字体验,使用户能够更自由地移动和探索。用户能够根据自己的需求和偏好来塑造个性化的体验,使其更自然、流畅、直观和有用。
例如,通过与Snapchat和艺术家Christian Marclay的合作,蓬皮杜艺术中心利用个性化的方式打造了一个让游客能够个性化地探索和互动的博物馆体验。Marclay在蓬皮杜艺术中心的外墙上覆盖了彩色的数字乐器,用户可以通过Snapchat AR以多种方式演奏。游客还可以记录并分享他们“玩转”博物馆的体验。这样做,使游客能够不受博物馆策展人预先设计的束缚,将自己的创造力和发现融入到空间中。
最后,空间应用还能优化现实的物理空间。它们可以在不实质性改变物理场景的情况下增强、扩展和延伸现实。想象一下未来的办公室,现实的显示器、投影仪和显示器将被空间计算机和应用程序取代。此外,由于空间计算的灵活性,人们可以更容易地改变办公环境,根据需要进行重新布局和调整。
随着工作世界的空间化,企业还需要考虑安全问题。随着越来越多的设备被引入,包括员工使用的空间设备和客户用于访问体验的设备,攻击者也将有更多的机会进行攻击。企业如何在无边界的环境中设立安全边界呢?企业需要采用零信任原则来设计他们的空间战略,以保护敏感数据和资源免受攻击。
此外,企业应该认识到空间是一个陌生的领域,因此供应商和用户都应该预见到可能存在盲点。单一防线是不够的,但可以采用多层次的安全策略来保护这个新的领域,这些策略可以利用多个安全层面(如管理、技术和物理)进行部署,被称为深度防御策略。
空间计算即将迎来快速发展,领先者要抢占先机。为了在技术创新的下一个时代中处于领先地位,企业领导者需要重新思考他们对空间计算的看法,并意识到最新的技术进步所带来的影响。计算新媒介并不多见,它们可以对企业和人们产生长达数十年且不可估量的影响。您是否准备好“沉浸”其中了呢?
限制技术发展的重要原因之一是技术无法真正理解人类。在现有的科技中,我们只有将自己的意图转化为机器可以识别的指令,才能控制机器人和无人机,让他们为人类服务。然而,当技术无法与我们建立联系时,往往是因为人类的需求、期望或意图对于技术来说是一个谜。
现在,人们正在努力改变这种状况。各个行业的创新者都在试图创造能以更创新、更深入的方式理解人类的技术和系统,他们正在创造一个"人机互通"的新界面,而这种影响将远远超出提升智能家居性能的范畴,将在各个行业中产生涟漪效应。
神经技术也开始尝试与人们的思想建立联系。最近,加州大学旧金山分校和斯坦福大学的研究人员分别进行了一项研究,使用神经假肢,如脑机接口(BCI),可以从神经数据中解码语音。这可以帮助语言障碍患者通过将尝试的语音转化为文本或生成的声音来进行“交流”。
“人机互通”的发展将使技术能够更好地理解我们的行为和意图,它们会更主动有效地适应我们的需求。
再如跟踪眼睛和手部等身体动作来读取人类信息。2023年,苹果公司的Vision Pro推出了VisionOS操作系统,用户只需凝视和通过简单的手势即可进行浏览和点击,无需使用传统手柄来操作软件或应用程序。
类似这样的创新正在改写数十年来人机交互的规则。此前,我们总是尽可能地调整和改变我们自己的行为习惯来适应技术的要求。但“人机互通”的发展将使技术能够更好地理解我们的行为和意图,它们会更主动有效地适应我们的需求。
但为了取得成功,企业还需要解决日益严峻的人机信任和技术滥用问题。技术在能以更创新、更亲密的方式认识和理解人类的同时,也让给企业和个人看到了更多新的隐患。因此,我们需要重新制定生物识别的隐私标准,界定神经伦理保障的范围与要求,包括如何适当处理大脑信息和其他可用于推断人们意图和认知状态的生物识别数据。在正式的法规跟上之前,企业需要采取积极的措施来保护用户的隐私和数据安全,并与用户进行透明的沟通,以赢得人们的信任。
31%
的消费者表示,他们经常因技术无法准确理解他们及其意图而感到受挫。
长达几个世纪以来,企业一直用各种方法试图了解人——无论是个体,还是作为消费者的目标群体或者整个的市场。过去几十年来,数字平台和设备的发展使得企业能够更好地追踪和量化人们的行为。这种能力对于企业来说具有巨大的价值。现在,“人机互通”再次改变了游戏规则,为了解人类提供了更深入、更以人为本的方式。
数字技术如何“理解”人
目前,企业用以了解当今人类行为的先进策略通常可分为两类:网络上的数据收集和现实世界中的物理传感器。
在网络上,企业理解行为的能力是影响塑造数字体验的主要因素。例如,平台依靠用户数据来了解用户需求,从而提供个性化体验并改进产品。
在现实世界中,企业利用设备长期收集人们的相关数据,从而能够根据人们的状况和地理位置等特点制造产品和提供服务。商店中用于分析人流量的传感器,或能进行情绪分析的面部识别技术等都是更好地了解人们的需求进而并引导他们进行决策的工具。
尽管这些技术都很重要,可以追踪和观察人们的行为模式,但它们并没有提供足够具体的信息。人们虽然会阅读或观看熟悉的内容,但这并不意味着他们不想尝试新的东西。即使我们很擅长识别人们的行为,但并不总是理解他们为什么会这样做。
“人机互通”如何衡量意图
“人机互通”不是一项单一的技术,相反,它是一系列帮助创新者更深入认识和理解人的技术。
可穿戴设备可以收集人体的生物信号,帮助预测人们的需求或了解他们的认知状态。
研究人员正从更细致、更细微的层次上来理解人们在特定环境中的意图。例如,同济大学汽车学院的研究人员正在致力于寻求减少人车相撞的解决办法。与大多数事故预防工作不同,这些研究人员不单单侧重于关注检测行人,而是捕捉了更多细节,包括车辆与行人之间距离、车速和行人的速度以及行人的身体姿势等。通过观察行人在街上的行走姿势,可以预判他们的下一步动作,从而避免潜在风险,提高道路安全性,让所有人收益。
人工智能是了解人类意图的另一种方法。掌握这种方法可以提高机器人在人机协作中的效能。举例来说,人类的心态会影响他们的工作状态,比如他们感到振奋或疲倦。人类往往善于理解这些心理状态,但机器人却不然。因此,南加州大学的研究人员试图教机器人识别人类的这些状态,以帮助它们更好地理解、帮助人类。
在“人机互通”技术中最令人兴奋的则是神经科学,特别是神经传感和脑机接口。神经技术通过监测和解读人类的神经活动,可以读取和识别人类的意图,为个性化的用户体验和智能辅助技术等领域带来巨大的潜力。过去十年中已出现了许多新的神经科技公司。
神经科学凸显“人机互通”领域的进步速度
许多人认为神经传感和脑机接口离大规模商业应用还要等上很多年,但神经科学的最新进展让这一实现变得更加接近和可行。
尽管一些人对神经技术的应用范围持怀疑态度,认为它只能在医疗保健行业有所作为。毕竟,许多知名的神经科技设备都需要在医疗过程中进行高侵入性的植入手术。但随着技术的进步,出现了更多的技术选择,可以根据用户的治疗需求和身心舒适度要求找到理想的解决方案,并且与之相关的商业计划和应用实践也与日俱增。
神经科技的发展主要得益于两大关键领域的进展。第一个是对大脑信号的解码。虽然感知大脑信号在数十年前就已经能做到,但要将其转化为商业产品仍是一个巨大的飞跃。要在不同人的大脑中识别出共同信号和模式更是非常困难。然而,人工智能模式检测技术的进步以及大脑数据可用性的提高为大脑信号解码技术带来了巨大的进步。
第二个值得关注的方面就是神经硬件,特别是外部设备的质量。从历史上看,EEG(脑电图)和fMRI(功能磁共振成像)一直是两种使用最广泛的外部大脑传感技术。但在过去,任何一种类型的大脑信号都必须在实验室环境下才能捕获。这种情形直到最近才有所改变。
过去的脑电图设备对环境噪音和肌肉运动非常敏感,要求用户必须保持静止才能进行信号捕捉。但是一些新型设备,如Wearable Sensing公司的DSI-24智能脑电耳机,使用了干电极EEG系统,对运动和噪声更具抗干扰性。虽然fMRI可能仍然主要用于医疗环境,但还有一种名为fNIRS(功能性近红外成像)的新技术红外光谱已经可以做无需在严格的实验室试管条件下就能进行大脑血流量的测量。
除了便携性之外,将大脑信号快速转化为行动的能力也至关重要。在一部分用例中,由于原始大脑数据传输到云端的速度慢得令人无法接受,导致用户在使用过程中感到不便,甚至可能阻碍人们及时移动或通信。但现在这一点也取得了进展。2022年,风险投资推动了边缘AI芯片初创公司的繁荣。英伟达和高通等老牌芯片制造商继续致力于打造更小、更强大的边缘芯片。还有一些公司正在努力提高大脑信号处理的计算效率。
随着越来越多的企业开始制定“人机互通”战略,他们最先应该做的是找出可以通过引入人机互通技术来改变和提升的领域和问题。
“人机互通”的范围
首先,要考虑“人机互通”技术如何提高预测人类行为的标准。人和机器在共同空间中操作的场景最有发展潜力。例如,如果机器人能够预测人们的行动,企业有望创建更安全、更高效的制造系统。
其次,另一个适合转型的场景的是人机交互,即我们直接使用和控制技术。例如通过神经技术,我们可以利用脑电波与技术进行连接,并以全新的方式使用和控制技术。
悉尼科技大学的研究人员开发了一款BCI头戴设备,利用生物传感器读取脑电波,然后将脑电波转化为指令。在实际测试中,戴上这种耳机后用户仅通过自己的大脑就可以直接发出指令操控一只四足机器狗,而且准确率高达94%。
最后,“人机互通”可以推进新产品的发明和服务改进。欧莱雅在与神经技术公司Emotiv合作,通过脑电波感应来分析人们对不同香味的反应,帮助消费者更好地了解自己的香水偏好,从而提供更个性化的香水推荐。
“人机互通”也可以用于制定安全措施。美力科技是一家致力于提高车辆安全的初创公司。它使用深度学习、视觉输入和车内传感器来检测驾驶员是否因心脏病、癫痫、中风或其他紧急情况而丧失行为能力,从而提高驾驶安全系数。
商业竞争正在发生变化,而信任比以往任何时候都更加重要
企业需要开始评估这些技术带来的风险,以及需要采取哪些新的政策和保障措施。企业不能等待监管政策的加强,而是需要立即行动,主动参考现有生物识别法律和医疗行业的指导。其中,神经伦理学正得到越来越多的重视。人们开始提出关于神经技术设备的物理安全性,以及围绕人类自主权、脑数据隐私、知情同意和公平性等社会因素所产生的心理风险。
要想阻止这种“读心术”,除了戴“金钟罩”还可以做什么?与今年其他任何趋势相比,安全性将决定企业和消费者是否采用和接受“人机互通”。
人们能在多大程度上可以接受更具洞察力和互联性的工具?这取决于人类在信息传播过程中掌握的控制权,可以选择共享哪些信息,或选择不共享无关或敏感的信息。这种做法需要体现在下一代人机互通工具的设计中,将信息共享的控制权交给人类。
理解人本身是最古老的商业难题之一,而“人机互通”是解决这一难题的新方法。这是一项重大责任,也是一个更大的机遇。人们对隐私和数据安全的担忧将是企业面临的首要挑战。然而,以这种更深入、更以人为本的方式了解人类也是非常有价值的。”
我们将迎来技术历史上最大的转折点。企业及其领导者的决策对我们如何应对这样的转折、如何在这样的转折中前进至关重要。
我们经历了很多增长和创新,但不是所有的发展都是正向的、有益的,伴随着增长与创新同时而来的也可能是更多欺诈现象、错误信息和安全漏洞。因此,如果我们设计的工具仅仅有人类的能力,但没有人类的智慧,甚至人类的良知,那么我们可能会创造出对社会和个人利益都有损害的东西
在人类技术的时代,企业推向市场的每一种产品和每一项服务都可能改变生活、赋能社区并引发变革,无论是变得更好还是更坏。同时,是采取快速行动还是谨慎的态度?竞争对手或其他国家会不会拒绝分担责任或者或同样戒备?对此,企业要学会保持微妙的平衡。
我们在努力让技术变得人性化的同时,需要将安全视为一种推动因素、一种在人与技术之间建立信任的必要方式,而不是一种限制或要求。我们在创造技术的时候不能回避其对人类的意义或者本末倒置。这个概念我们称之为“正向工程”。在过去的几年里,道德伦理问题已经在技术领域中逐渐浮现,涉及技术领域的方方面面,如包容性、无障碍、可持续、职业安全、创新知识产权保护等等。每个问题其实都源于同一个问题,即:在用技术能实现的目标与我们作为人类想要实现的目标之间,我们该如何取得平衡?
这是科技和人类共同面临的一个重要拐点,世界正迫切期待着您的参与,共同塑造未来。