合姿计算

项目描述

“智能手机的傀儡”（“smartphone zombie” ）

——你是否对你的智能手机又爱又恨?

从有限的接口到无处不在的访问，移动交互彻底革新了人们对信息的访问方式，也让人们可以随时随地保持联系。然而，目前智能手机的“以设备为中心”的设计需要用户给予持续的物理接触和感知，这就导致了人们需要调整自己的身体姿态以适应设备——用户会在不知不觉中做出不自然的姿势，比如举起智能手机，或者低头看屏幕。这些贯穿于移动设备交互过程中的眼-手并用的特点不仅限制了我们的日常活动，还削弱了我们对情境的感知能力，从而导致了“智能手机傀儡” （“smartphone zombie” ）或“低头族”现象。

我们的愿景：合姿计算（Heads-Up Computing）

合姿计算是我们雄心勃勃的愿景，它将从根本上改变用户与技术交互的方式，让交互变得更加以人为本。尽管合姿计算和Meta（曾名Facebook）提出的元宇宙概念有显著的区别，在元宇宙概念广为流行的当下，我们也迫切希望合姿计算能够在日常生活中便利信息访问并制造无缝数字体验。我们的研究主要集中在帮助用户管理日常数字信息的人机交互上。值得注意的是，合姿计算的目标不是用虚拟现实来取代物理空间，而是通过增强现实技术（AR）来增强物理世界以及连接物理世界和虚拟空间，以此来促进人类与数字-物理世界之间的联系。

合姿计算旨在为人类的日常活动提供无缝、即时和智能的服务支持。其中，我们提出的合姿交互范式与用户的自然动作相兼容，能让他们长时间以自然而又直观的方式与设备交互。与以往不同的是，合姿计算以用户为中心，关注用户的即时感知空间，并将用户作为交互的核心。它主要包含以下三个重要组成部分：

1) 与用户肢体兼容的硬件（Body-compatible hardware components）。合姿计算通过将设备的输入输出模块匹配到用户最为适合的感知和执行通道上，从而实现更为自然的人机交互。由于用户主要负责感受和执行的身体部位分别是头部和手部，因此，合姿计算采用了包含这两个部位的经典交互平台，其中典型的例子就是智能眼镜（光学透明头戴显示器，即OHMD)和耳机。这些设备能够直接向我们的眼睛和耳朵提供视觉和音频输出。同样地，麦克风能够接收用户的音频输入，手部可穿戴设备（如戒指，腕带）能够接收用户手部输入的信息。

2) 多模态语音和手势交互（Multimodal voice and gesture interaction）。合姿计算利用多模态输入/输出通道来辅助多任务场景。例如，我们研究的交互方式包括：语音输入和拇指-食指手势输入。

3) 资源感知交互模型（Resource-aware interaction model）。资源感知交互模型是一个让系统了解什么情况下使用哪种人体信息的输入/输出通道资源的软件框架。例如，用户是否身处嘈杂环境等要素会影响其对信息的吸收能力，因此系统必须用深度学习等方法分析音频和视频记录，从而对用户的即时感知空间进行感知和识别。类似的资源交互模型可以预测人的感知空间约束和主要参与的任务，并将即时信息传递给头部和手部的设备。

如果想要进一步了解相关研究详情，请参阅我们发表的论文。

媒体资料

CNA新闻特稿

赵盛东教授与CNA业内人士分享了更多关于“合姿计算”的愿景——“元宇宙：互联网的未来会是什么样子”

合姿计算简介

实验室简介

若想了解更多NUS-HCI实验室和合姿计算的相关信息，请在这里下载相关资料.

研究方向

我们团队提出的合姿计算研究方向包括不断拓展的基础课题及其应用。以下是一些当前工作的例子：

发表论文

近期发表论文

近期发表的论文集中在以下几个方面：

1. 用户使用新的交互模式“合姿计算”的输入方式：

语音+手势的多模态交互。用户可以通过语音实现文本输入，通过可穿戴手部控制器（比如交互指环）实现语音和手势输入
语音文本输入和编辑。用户忙于日常事务时，往往很难腾出眼睛和手去做别的事。在这种场景下，我们认为语音是更适合文本输入的方式。然而，仅使用语音输入一种模态不足以支撑文本输入的全部编辑需求。因此，我们提出了移动场景下基于OHMD和语音的眼编辑交互（Eyeditor），它通过朗读文本的方式让用户纠正语音转换不到位的文本。此外，用户还可使用指环鼠标对文本实现更为精细的调整。
- 眼编辑：移动场景下基于语音和手部可穿戴设备的文本输入（EYEditor: On-the-Go Heads-up Text Editing Using Voice and Manual Input）
- 我们还有一个不同应用场景的语音输入项目。该项目探究了如何在现场使用基于语音的多媒体输入来记录用户的生活体验——现场片段记录：实时创作基于语音的多媒体体验类文章（LiveSnippets: Voice-Based Live Authoring of Multimedia Articles about Experiences）

基于触摸的无眼文本输入（补充输入技术）。由于语音输入容易受到噪声干扰，因此，人们需要在安静的场所进行语音输入。针对这个不便利性，我们与清华大学共同提出了一个解决方案。它能使用户在输入文本信息时解放双眼（该场景下仍然有视觉显示，但是它不需要用户盯着键盘输入文本）。这样，用户在向智能眼镜显示屏输入文本时，能够不用低头和抬手，保持着较为自然的姿势。
- 解放双眼的交互：利用拇指的肌肉记忆，在手持触控板上无需用眼输入文本（Blindtype: Eyes-Free Text Entry on Handheld Touchpad by Leveraging Thumb’s Muscle Memory）

交互指环（作为信息选择和用户环境识别工具的补充输入技术）。 语音输入有其局限性，因为一些信息本身就是难以用语言描述的环境信息。因此，我们还需要一个能够执行简单选择乃至2D或3D信息选择的设备。然而，用户在各种日常场景中执行此类操作的最佳方式尚不明确，并且，用户不太可能同意携带多个设备或学习多个技术（对于不同的场景可能有不同的最优交互技术）。因此，我们进行了一系列的实验来探索在合姿计算场景下能够执行协同交互的替代方案，最后，我们发现交互指环是最佳的能执行信息选择和识别用户所处环境的的合姿计算跨场景输入技术。详情请参阅下面的文章
- 合姿计算的普适交互：用户在日常生活中对微交互技术的偏好（Ubiquitous Interactions for Heads-Up Computing: Users’ Preferences for Subtle Interaction Techniques in Everyday Settings

早期发表论文

2. 用户使用新的交互模式“合姿计算”的输出方式：

合姿计算的目标是通过即时、智能的方式来辅助用户当前的活动。这种辅助可能是数字内容的形式，也可能是潜在物理层面的方式（比如机器人）。在日常生活中，直接向忙碌中的用户显示信息仍然会使用户不得不同时处理多项事务。虽然用户能够在信息简单的情况下能够同时处理多项事务，但是在动态信息才是最佳显示方式的情况下，研究多任务场景下的动态信息呈现十分有必要。经过一系列研究，我们提出了一种更适合向用户显示动态信息的方式，即LSVP。除此之外，我们还研究了在面对面的社交互动中，如何利用眼睛的边缘视觉和近边缘视觉的规律在OHMDs/智能眼镜上进行信息显示。如果您有兴趣，可阅读以下文章了解研究细节。

LSVP：移动场景下使用头戴式光学显示器的视频学习（LSVP: On-the-Go Video Learning Using Optical Head-Mounted Displays）
边缘和近边缘视觉可视化：面对面社交互动场景下维持一定注意力的二级信息呈现研究（Paracentral and near-peripheral visualizations: Towards attention-maintaining secondary information presentation on OHMDs during in-person social interactions）

早期发表的论文主要探索了可穿戴解决方案和多模态交互技术，这也是合姿计算的基础:

手势，文本，菜单输入技术（基于手部的交互）： Ringteraction, Earpod
姿势输入（基于全身的交互）：Botential, Movespace
触觉反馈（基于手部的交互）：NotiRing
触觉反馈（基于全身的交互）：OmniVib

工具、指南和数据集

基于ohmd的研究和视频学习实验的视频数据集
该数据集对应的论文为“LSVP：移动场景下使用头戴式光学显示器的视频学习”（LSVP: Towards Effective On-the-go Video Learning Using Optical Head-Mounted Displays），该数据集可作为光学头戴式显示器（OHMD）或其他基于视频学习的被试内实验的视频资源。

GitHub源代码：基于OHMD的进度提醒（Progress notifications on OHMD）
该代码实现了三种OHMD进度条通知（环形、文本和条形）和通知触发实现（Python）、UI实现（Unity）的功能，对应论文为“边缘和近边缘视觉可视化：面对面社交互动场景下维持一定注意力的二级信息呈现研究”（Paracentral and near-peripheral visualizations: Towards attention-maintaining secondary information presentation on OHMDs during in-person social interactions）。

GitHub源代码：眼编辑（Eyeditor)
该代码实现了移动场景下基于语音和手动的输入方法（通过指环鼠标进行输入）的文本编辑工具，对应论文为“眼编辑：使用语音和手动输入的即时文本编辑”（EYEditor: On-the-Go Heads-up Text Editing Using Voice and Manual Input）。

GitHub源代码：HeadsUp Glass
这是一个用于智能眼镜的Android应用程序框架。

注意：您可以参考NUS-HCI实验室的全部Github在线资源。若您在论文中使用了这些资源，请引用原始研究

一个帮助用户快速上传视频内容到智能眼镜上的教程
我们的研究经常需要对不同的智能眼镜/OHMD进行快速、粗略的测试。鉴于我们的经验，我们整理了这份指南。该指南支持下列型号的OHMD设备：EPSON Moverio BT-300，Vuzix Blade，HoloLens 2，NReal和Google Glass Explorer。