按:日前谷歌在其官网公布博文,文中详尽讲解了 AI 照相机Google Clips 的一些设计思路。将其编译器如下。正如过去曾多次再次发生过的移动革命以及再行之前的网络革命一样,机器学习正在让我们反省、重构、新的检视我们生活中早已享有的一切。
在 Google 用户体验(UX)社区中,我们开始了一项取名为“以人为本的机器学习(HCML)”工作项目,来指导和协助我们重构世界。车站在这样的视角下,我们在思维机器学习(ML)如何在解决问题人类的市场需求时充分发挥自身的独特性。我们的团队子集了 Google 整个公司的各种人才,为 UX 用户带给机器学习的核心概念,让用户理解如何将机器学习和人工智能极致地融合到交互设计中。由谷歌AI照相机Google Clips camera捕猎的父母、孩子和宠物的现实时刻Google Clips 是谷歌的一款 AI 照相机,专门用作捕猎身边人的精彩时刻。
设备自带的人工智能可以通过机器学习了解到谁是你最亲近的身边人,并且告诉如何才能拍电影出有一张可爱又令人难忘的照片。今天,我们将以这款 A I照相机为事例,详尽阐述在这三年中,我们是如何建构出有产品模型、展开工业设计和用户界面的。通过这篇文章,我们期望大家需要理解如何用以人为本的方法来设计 AI 产品。
AI 照相机可以摆放在相同的框架上,并维持惯性。上图中,我把照相机夹在了篮筐上,抓拍到了我儿子打篮的精彩时刻。只是将更加多的 UX 用户分配到机器学习的项目中是远远不够的。
更为关键的是让更加多人了解到机器学习的核心概念,充份解读 AI 的能力,并需要环绕最佳实践中产品来建构和确保信任。只不过,从确认在产品建构中哪些模型是简单的,到数据的搜集和注释,以及精致的原型机的修建和测试,机器学习生命周期中的每一个阶段都是创意的时机。
首先第一个问题是,为什么使用以人为本的方法来建构机器学习产品和系统是十分最重要的呢?我们指出有以下几个原因:机器学习本身并会找到现实中必须解决问题的问题。如果你在设计中没考虑到人的市场需求,那么你只是创建一个十分强劲的系统来解决问题一个十分小或者显然不不存在的问题。如果 AI 系统的目标不具体,并且用户对自身在调教系统中的角色认识不清,那么用户就不会根据自己对 AI 的解读或想象来看来系统,这不会让他们的信心受到影响。
为了很快发展,机器学习必需适应环境多学科的任务,即使不必须过于多学科,但如何适应环境人类社会系统应当是一个必须面对的技术问题。机器学习是根据它在数据中自动找到的模式和关系展开预测的技术。一个 ML 模型的工作是要弄清楚这些自动找到的这些模式有多大有可能错误,从而尽量地确保一般来说的预测尽量地准确。但这是远远不够的。
从一开始创建模型的思路,到自由选择训练用的数据源到样本数据本身、以及用作叙述和标记数据的方法,仍然到模式关系是非的辨别标准,机器学习系统的方方面面都是依赖人的辨别来调整和修正的。总之,那句 UX 的公理“你总有一天不如用户理解他自己”,在这里变得出现异常最重要。三种以人为本提高AI设计的方法解决问题人类的确实市场需求今年,人们将不会用于我们的照相机摄制约一万亿张照片。在面临如此可观的数字照片库时,我们中的很多人实质上并会细心网页。
新手父母特别是在如此,感觉宝宝的每一个第一次就是他们的日常生活。在那些贵重而一段时间的时刻,人们早已习惯用于他们的手机照相机,期望需要为未来捕猎和保有一些回想。
但最后的结果是,人们用一个小小的屏幕来代替所有的感官,与世界的对话反而更加较低了。作为一个新手父母,你的照片库有可能看上去很像我的上面手机照片——倒数地摄制,以捕猎孩子最极致最甜美的表情。
因此,我们在想要,能无法创立一个产品,协助我们更为注目我们关心的人呢?能无法让我们经常出现在照片中,而不是总躲藏在照相机后面呢?我们能无法“即时”摄制照片,而不用停下,拿走电话,关上照相机,在镜头中对焦,维持这一刻的现实呢?我们能无法让一个摄影师在我们身边随时捕猎更加多现实的生活时刻,比如孩子们的确实微笑呢?那些现实而转瞬即逝的时刻,往往让我们实在甚至总有一天背著照相机都不有可能全部捕猎获得,而这就是我们这款 AI 照相机想符合的人类市场需求。引领机器智能产品设计之初,最急迫的问题是:如果人们摄制了大量的照片,但只不过并想走去整理它们,那么我们要如何标示数据呢?这就是基础的“以人为本的机器学习”项目问世的起点:叙述理论上的人类“专家”继续执行任务的方式。这个理论有两层含义:第一,如果连人类也无法已完成这个任务,那么 AI 也不有可能已完成;第二,通过了解研究专家已完成任务的方法,我们可以寻找一些信号来指导数据的搜集、标记和组件模型的架构。
当时我们能想起的最相似“专家”就是一位婚礼摄影师,所以我开始了专访工作。我们通过代理展开聘用,并且用于了一个十分模糊不清的聘用信息“秘密项目!摄影!”。经过一番检验再加一些运气,我们最后找到了一个宝库——一个纪录片制作人、一个摄影记者和一个美术摄影师的专业素材。
我们一起开始搜集团队成员的镜头材料,企图问“什么是令人难忘的时刻?”在评估我们的照片和视频的质量时,我们必需意识到很多微小之处、人们的审美本能和个人的生活历史,这些在过去都被我们所忽略了。例如,每当我看见我的小儿子在探寻一根倾斜的瓶口(左边),或者我去偷走内亲他(中间)时,我的心情就不会波涛汹涌涟漪。
当我看见我的大儿子在公园里骑马自行车的时候(右边),我之后十分自豪,因为我忘记那一天是他第一次独自一人骑车。创建信任这个项目的初始假设是:我们可以向机器学习模型展出我们指出美丽而有意思的东西,然后它不会自学如何寻找更加多这样的东西。我们对于图像的景深、线条原则、光线高低、视频剪辑、情节设计等方面的处置变得更为随便,但失望的是,我们找到,总有一天无法高估人类运用常识和本能的能力。
这些早期的实验暴露出一些关键的技术差距,也协助我们新的评估了我们对产品的假设,让我们确实明白了这项工作的本质。我们改变了工作方式,机器学习并不是我们所指出的那样“神圣”,它只有在非常修改的框架下才能有效地自学。打个比方,当时的我们就像在用莎士比亚而不是“Go,dog,go!”来教一个两岁的孩子英语。
对我来说,这就是 AI 这个“庞然大物”回头下“神坛”的时刻——AI 并不意味著一种可以解读所有事物、并且可以将教给的科学知识自行推展的单一“智能”。不,它差远了。重返基础“一致性”是教授任何东西时秘诀。
比如我们在教教孩子们英语时,为了准确发音,我们不会大大地反复同一类词汇(如 tough, through, thorough 中的 O-U-G-H,或 cat, bat, sat 中的 A-T),通过一致性,我们可以预测更加多同类的词汇发音和拼法。而信心之后来自一致性。比如说一下,当一位老师获取两个或许并不完全一致的例子时,大多数学生会马上认为其中的不协商。
但是算法并会获取这样的对系统。就算法而言,除非另有命令,否则为算法获取的所有内容对算法而言都具备完全相同的价值。对于 Clips Camera 来说,这意味著我们不仅必须示例间的一致性,而且还必须每个示例中的一致性。AI 必须对每一个分开的框架展开明确预测。
同时我们还必须教会它哪些内容可以被忽视。捕捉图像我们必须训练模型自学什么是很差的图像:比如手推开在镜头前、较慢摇晃、镜头模糊不清。我们用于上面的例子来训练机器学习模型来辨识照相机是在口袋或钱包里面(左图),或者照相机被手指阻挡时(右图)。
虽然训练模型去忽略某些东西的益处并无法立刻反映,但随着时间的流逝,它不会沦为我们设计中的关键战略部分。这种训练需要让照相机增加违宪照片的摄制浪费,捕捉图像的总体质量将不会明显下降。线条问题我们必须训练模型以维持图像的稳定性、清晰度,还要准确的取景。
如果不稍作留意,面部观测模型就不会将画框中心和边缘检测到的面部同等对待。为了训练模型维持对某个对象的连续性,必须特别强调一些类似的例子。比如上图中,左边是我的小儿子全程都处在焦点范围内,而右图中我的大儿子只有 5% 左右的时间处在焦点中。确认人物熟知你是为你摄制的前提:你将照相机对准某人时,他们通过微笑或摆姿势来似乎表示同意,你才能按下对焦。
并且,摄影师才是那个要求取景和线条的人。所以对自动照相机而言,我们必需根据社交线索来确认你想和谁一起照片,我们可以根据你和他人共处的时间长短来确认否摄制有关他的照片。
编辑多样性和校验问题在我们照片时并不是什么大问题,因为我们脑海里总会有一个小小的声音说道:“我们还没有见过这个,必须拍下来!” 或者 “你早已拍电影了过于多孩子的照片,可以停下了。”,但是我们的 AI模型在这方面则必须很多的协助。我们从三个方面来处置多样性:时间:时间是最简单的图像捕猎信号。照相机无法复工太久。
视觉:颜色错综复杂或戏剧性的变化可以解释环境和活动的变化。可以据此捕猎独有的精彩时刻。人物:你正在一大群人当中,还是独自一人?让照相机解读你正在和多少有所不同的熟知面孔在一起,是不俗过你人生根本性时刻的关键。
我把 AI 照相机放到书架的边缘,镜头朝下,这个角度正好可以看见我的孩子们搭积木的场景。同时,这也意味著我在非常宽的一段时间里,向照相机展出了一堆十分相近的内容。既要防止不必要的校验又无法错失过于多的精彩时刻,这在很长一段时间里都将不会是一个非常复杂的 UX 挑战。
用户信任和自我效能我们投资在 AI 照相机上的一个原因是想向大家展示出,设备自带的用户私人机器学习系统有多么最重要,当然还有它其他十分强劲的功能特点(例如,它只必须很少的电量,设备会发烫,而且设备处理器不必须网络连接就可以较慢而可信地工作)。照相机是一个十分私人化的物品,而我们仍然在希望确保这一特性——照相机硬件内容和机器智能都只归属于你一个人。所有的一切都会总有一天保有在你的照相机里,除非你自己将它公之于众。
概念设计我们侧重用户的信任和自我效能,在用户界面设计中也十分特别强调这一点。这意味著,在项目开始的时候,我们就在大大假设一个 AI 产品应当如何“不存在”。当我们开始考虑到与未来涉及的科技时,许多设计师都会一下子冲刺到“少数派报告”或“刀锋战士”这类电影中的沉浸式体验中。
但是请求你想象一下,“少数派报告”中的 UI 是多么可怕:只需张开手臂,等候两秒后,捉一把空气,然后阪一挥反方向一并转就搞定了,多么非常简单!完全每个科幻片中的用户界面都有类似于的东西,好像产品的交互模式必需要反映出有科幻系统的百变复杂性。虽然在我们早期的设计中曾多次有过这样的一段时间,但是我们最后尽量避免了这样的幻想,其中的原因是这样的:我们在一个显著的仿真环境中向人们展出了欺诈内容,人们并没与图像展开确实的交互。请注意,这个问题不是AI独特的;可用性实验室中常有再次发生。
我们每天都和同行们在一起,对AI的未来点子完全一致。我们的错误在于,记得了普罗大众才是我们产品设计的参考点。我们总指出我们的新设计十分酷,所以总实在即使产品无法尽早构建也说得过去。大多数产品都有一些学习曲线,但是随着 AI 的火热,我们必须侧重考虑到用户的理解开销。
对用户来讲,当产品的内容比较精致时(图A),可靠性十分最重要。当UI界面十分精致必须用户自学时(图B),必须尤其考虑到初级用户的用于体验。
而当产品的功能尤其新奇时(图C),你的用户界面应当向人们熟知的模式附近。随着时间的流逝,我们退出了那些不简单的幻想。我们开始大幅度减少用户界面的复杂性,并为我们的体验框架获取了用户掌控,减少用户的熟知感觉。我们在照相机上减少了一个软件取景器和一个硬件捕猎按钮。
从照相机中的最佳取景框到理想的持续时间,我们都保证用户有最后决定权。同时,我们让照相机摄制了更加多的照片,因为实质上,让用户看见更加多照片,自己移除一些不那么精彩的照片,才让他们更佳地解读照相机所能摄制的画面,才能提高他们对照相机的信任。经过这个过程,我们找到了另一个关于测试 AI 产品的最重要原则:用于用户的现实内容来创立用户体验模式比用于 ML 模型展开测试更为简单。后者必须花费很长时间来建构和部署(与传统的软件开发比起,ML 模型的灵活性和适应性也差得多,所以错误的的代价也更高),而前者则能获取确实的人类视角,人们才能确实从你的产品中取得价值。
用户通过从照相机流式传输来预览他们的照片。左图中,用户可以自由选择他们想留存在搜集中的图片。
中间图中,用户可以转换到建议的视图。右图中,用户可以精确定位出有他们想留存的静态图片。
在主观性和个性化的背景下,极致是不有可能的,我们甚至不应当以此为目标。与传统的软件开发有所不同,机器学习系统总有一天会“没 bug”,因为预测是本身就是一种模糊不清科学。但正是这种模糊不清的特性才让机器学习显得十分简单!这正是协助我们生产更加强劲和动态的“IF”语句的真谛所在,我们可以用它来设计一些东西——“如果看上去像 X,则继续执行 Y 任务”。
我们不仅要背离笨拙的逻辑规则,还必须舍弃传统的用户参予方式。谷歌 AI 照相机的顺利某种程度在于“保有,移除,页面和编辑”(尽管这些都很最重要),但更加关键的是,用户的作者身份、机器和用户的联合自学和大大的改良。我们很期望通过这个产品,让用户可以忘记照片,乐趣嬉戏。带着目的去设计通过对传统 AI 范例的新的定位,寻找让机器显得更为智能的方法,探寻提高人类能力的方法,我们可以释放出来机器学习的更好潜力。
它不会沦为一个前所未有的探寻创意工具;一个协助我们找到自己和周围世界内在模式的工具。在“以人为本的机器学习”项目中,我们有无数的机会用 AI 来塑造成一个更为人性化、更为多元文化的世界。而这一切要从我们的本源抵达:找寻和解决问题人类确实的市场需求,确保人类的价值。要一直忘记:我们是为了强化人类的能力而设计,不是为了机器的自动化。
人工智能的起到不是老大我们在杂草里找寻遗失的针,而是协助我们清理杂草,好让我们自己寻找那根针。viadesign.google(公众号:)编译器原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:ya博体育app官网入口-www.nbgonghe.com