Siri助手

Siri助手是 Speech Interpretation & Recognition Interface 的首字母縮寫,原義為語音識別接口,是蘋果公司在iPhone、iPad、iPod Touch、HomePod、Apple Watch、Apple TV、Apple CarPlay等產品上應用的一個語音助手,利用Siri助手用戶可以通過手機查找信息、撥打電話、發送信息、獲取路線、播放音樂、查找蘋果設備等。

Siri助手可以支持自然語言輸入,並且可以調用系統自帶的天氣預報、日程安排、搜索資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。Siri助手可以令iPhone4S及以上手機(iPad 3以上平板)變身為一台智能化機械人。

Siri助手

2016年6月14日,在蘋果開發者大會WWDC發佈了產品Siri助手的新功能。2017年的蘋果開發者大會上,蘋果公司宣布Siri助手完成版本更新,加入了實時翻譯功能,支持英語、法語、德語等語言。2021年6月8日,蘋果公司在凌晨召開的2021蘋果全球開發者大會(WWDC21)上宣布,蘋果建立了「matter聯盟」,符合這項家庭IP標準的第三方設備都能夠接入旗下智能語音助手Siri助手進行設備控制。

研究背景

Siri助手成立於2007年,2010年被蘋果以2億美金收購,最初是以文字聊天服務為主,隨後通過與全球最大的語音識別廠商Nuance合作,Siri助手實現了語音識別功能。

發展歷程

2010年4月,蘋果以超過2億美元的價格收購了 Siri助手 。當時,Siri助手只有24名員工,但蘋果很快擴充了Siri助手的核心團隊人才。18個月後,Siri助手和 iPhone 4s一起推出,Siri助手 的團隊已經發展到近100人。為確保 Siri助手 按時發佈,該團隊在Siri助手的最初構想上做了一些妥協,「人工智能應用商店」計劃不得不擱置。喬布斯希望,Siri助手 專註於一些只有蘋果公司才能完全控制的技術。

2011年,庫比蒂諾總部,蘋果公司舉辦了 「Let』s talk iPhone」 新品發佈會,Siri助手首次推出。

2017年的蘋果開發者大會上,蘋果公司宣布Siri助手完成版本更新,加入了實時翻譯功能,支持英語、法語、德語等語言。

2021年6月8日,WWDC21開發者大會上,蘋果發佈了 iOS 15/iPadOS 15 系統,Siri助手 默認會在設備上處理音頻,可以在沒有互聯網連接的情況下使用該功能,這次升級還使 Siri助手 的反應更加靈敏。

2022年1月4日,據 MacRumors 報道,根據用戶報告和進行的測試,在蘋果 iOS 15 及以後的版本中,Siri助手 失去了對AppleMusic應用中播放歌曲進行評價的能力。

2022年1月27日,蘋果發佈了15.3 更新,可用於HomePod和HomePodmini。蘋果公司發佈說明,此次更新新增了英語 (印度) 和意大利語 (意大利) 的 Siri助手 語音識別,支持識別一個家中的最多六名用戶。本更新還包括性能和穩定性提升。

2023年6月6日,蘋果在 WWDC2023開發者大會上,宣布喚醒 Siri助手 語音助手的喚醒詞正式從「Hey Siri助手」,更改為「Siri助手」。

2023年9月7日,根據國外科技媒體TheInformation報道,蘋果內部正在積極提高Siri助手的「智力」,會在iOS18系統中和大家見面。

支持設備

iPhone、iPad、AirPods、HomePod、Apple Watch、Apple TV、CarPlay車載、Mac。

實用技術

前端方面

在前端方面,即面向用戶,和用戶交互(User Interface,UI)的技術,主要是語音識別以及語音合成技術。語音識別技術是把用戶的口語轉化成文字,其中需要強大的語音知識庫,因此需要用到所謂的「雲計算」技術。而語音合成則是把返回的文字結果轉化成語音輸出。

後台技術

後台技術,目的是處理用戶的請求,並返回最匹配的結果,這些請求類型很多,千奇百怪,要處理好並不簡單。基本的結構猜測可能是分析用戶的輸入,根據輸入類型,分別採用合適的技術進行處理。這些合適的後台技術包括,①以Google 為代表的網頁搜索技術;②以Wolfram Alpha為代表的知識搜索技術;③以Wikipedia 為代表的知識庫技術;④以Yelp 為代表的問答以及推薦技術。

輸入系統

Siri助手支持多模態輸入,除去眾所周知的語音輸入,同時也支持用戶文本輸入、GU|界面觸控操作等。

執行系統

可以細分為三個主要部件:語言解釋器、會話流控制器和任務控制器。語言解釋器將用戶輸入字符解析為語義表,語義表輸入到會話流控制器,會話流控制器根據語義協同任務流控制器一起決定Siri助手下一 步應該做什麼或者說什麼。

服務系統

集成了蘋果的多種服務,供Siri助手調用。

語音識別系統

語音喚醒被稱之為keywordspotting(下文簡稱為KWS),即在連續語流中實時檢測出說話人的特定片段,而這個特定片段就是喚醒詞。通常來說,如果不是手動禁用語音助手,後者作為系統級服務會長時間駐留在後台,然而智能語音助手作為一個需要大量AI算力支撐的功能,在工作狀態下需要不低的性能開銷,同時也會相應的提升功耗。從「Hey Siri助手」到「Siri助手」,反映的是蘋果在語音識別技術上有了重大的突破。就像每個人都有自己的名字一樣,智能語音助手其實也需要特定的詞彙來讓它知道用戶是在喊自己。從某種程度上來說,喚醒詞同時也是智能語音助手品牌形象的一大組成部分,通過每一次激活語音助手時說出的喚醒詞,消費者關於這個品牌的記憶就在這樣日復一日的復讀中不斷被強化。

活躍本體

Siri助手整個系統執行的具體環境和場所。

技術來源

Siri助手 技術來源於美國國防部高級研究規劃局所公布的 CALO 計劃:一個讓軍方簡化處理一些繁複庶務,並具學習、組織以及認知能力的數字助理,其所衍生出來的民用版軟件 Siri助手 虛擬個人助理。

功能

蘋果公司搭載在iOS11上的Siri助手,新的Siri助手支持語言包括日語、意大利語、中國漢語、中國台灣地區、中國香港等地區的語言,Siri助手 的功能有電話和信息、知識和回答、智能家居、日常事務、導航和地圖、音樂和播客、運動賽事。

當在日常生活中需要查找、了解或做些什麼時,可以讓Siri助手幫忙。用聲音或按下按鈕來喚醒Siri助手,然後說出需求。使用語音就能完成日常任務。使用Siri助手翻譯語句、設定鬧鐘、查找位置、報告天氣等。

2018年8月10日上午,蘋果在《機器學習期刊》上發表了一篇論文,詳細闡述了如何提升Siri助手識別企業和餐廳等本地興趣點名稱的方法。簡單來說,蘋果表示公司開發了一種定製語言模型,融合了用戶所在地的知識,也就是所謂的Geo-LM,藉此提升Siri助手的語音識別能力。這些模型讓Siri助手可以更好地評估用戶的發音內容。

生活百科

Siri可調用Wed搜索服務,在生活和工作中遇到各種問題都可以直接問Siri。

設置提醒

你可以直接跟Siri說:「提醒我明天晚上8點約了朋友吃飯」,又或者說:「一個小時后提醒我喝水」,Siri都能執行,比起手動添加提醒效率快。

時間助手

Siri可以幫助設置鬧鐘,也可以向其詢問某地現在時間,和啟動秒錶計時等一切關於時間的控制。

識別音樂

Siri可以搜索正在播放的音樂,當你又不知道名稱的音樂正在播出時,你可以喚醒Siri,問它這首音樂叫什麼名字,很快它就會給出答案。

全能計算器

Siri是一個全能的計算器,除了基本的算術計算外,各種匯率、單位換算都支持,比如一美元等於多少日元、一公斤等於多少磅等等。

出行應用

iOS 10上蘋果將Siri的權限開放給了開發者,因此很多應用都可以將Siri作為入口,此時你可以通過Siri滴滴打車,又或者在開車不方便操作手機時,直接通過Siri查找附近哪裡有加油站、餐廳等。

尋找功能

使用Find My Friends這款應用,把你身邊的親朋好友添加進入,之後你就可以隨時隨地問Siri你的朋友現在在哪裡,有長輩或者小孩的用戶更加適用。

手機開關功能

可以直接叫Siri幫忙關閉WiFi、打開藍牙、把音量調到最低等等的開關設置。

使用方法

iPhone

語音喚醒

只需說「Siri」或「嘿 Siri」,然後立即說出你的需求。在「設置」>「Siri 與搜索」中設置 Siri 的喚醒方式,輕點「聽取」,然後打開「Siri」或「嘿 Siri」。

按鈕喚醒

如果 iPhone 帶有主屏幕按鈕,請按住主屏幕按鈕,然後提出你的請求。如果iPhone沒有主屏幕按鈕,請按下側邊按鈕按鈕,然後提出你的請求。要提出更長的請求,請按住側邊按鈕或主屏幕按鈕,直到提完你的請求。

iPad

語音喚醒

只需說「Siri」或「嘿 Siri」,然後立即說出你的需求。

按鈕喚醒

如果iPad帶有主屏幕按鈕,請按住主屏幕按鈕,然後提出你的請求。如果iPad沒有主屏幕按鈕,請按住頂部按鈕,然後提出你的請求。要提出更長的請求,請按住主屏幕按鈕或頂部按鈕,直到提完你的請求。

鍵入喚醒

打開「鍵入以使用 Siri」。然後,按下相應按鈕以激活 Siri 並鍵入你的請求。

AirPods

語音喚醒

在佩戴AirPods Pro、AirPods Max或AirPods(第2代或更新機型)時,說「Siri」或「嘿 Siri」,然後立即說出你的需求。

輕按或輕點

對於AirPods Pro或AirPods(第3代),按住任意一隻AirPod耳機柄上的力度感應器,然後提出你的請求。對於AirPods(第 1 代或第2代),在任意一隻AirPod的外側輕點兩下,等待提示音,然後提出你的請求。對於AirPods Max,按住數碼旋鈕,然後提出你的請求。

Mac

語音喚醒

在受支持的Mac機型上,說「Siri」或「嘿 Siri」,然後提出你的請求。

按鈕喚醒

在菜單欄或程序塢中,點按Siri按鈕,然後說出你的需求。在配備觸控欄的Mac上,輕點Siri按鈕,然後說出你的請求。如果Apple鍵盤帶有聽寫鍵,請按住聽寫鍵,然後提出你的請求。要提出更長的請求,請按住 Siri 按鈕直到提完你的請求。

鍵入喚醒

啟用「鍵入以使用Siri」。然後,按下或點按Siri按鈕並鍵入你的請求。

Apple Watch

語音喚醒

注視Apple Watch或輕點屏幕。然後說「Siri」或「嘿 Siri」,接着提出你的請求。

抬腕對話

在Apple Watch Series 3或更新機型上,抬起手腕,將Apple Watch靠近你的嘴邊,然後說出你的需求。

數碼錶冠

按住數碼錶冠,然後說出你的需求。要提出更長的請求,請按住數碼錶冠,直到提完你的請求。

HomePod

語音喚醒

只需說「Siri」* 或「嘿 Siri」,然後立即說出你的需求。

觸摸喚醒

按住HomePod頂部,然後提出你的請求。要提出更長的請求,請按住HomePod頂部,直到提完你的請求。

Apple TV

你可以按住Siri Remote上的Siri按鈕,說出你的需求,然後鬆開Siri按鈕。

CarPaly

在支持車型CarPlay車載或Siri Eyes Free,你可以按住方向盤上的語音命令按鈕,同時說出你的需求。

技術專利

2017年12月,據gizmodo報道,蘋果公司又成功為 Siri 申請一個專利。該專利能夠讓 Siri 聽到用戶的耳語,並低聲回復用戶。從專利介紹圖來看,該技術在聲音傳感器部分加上了一個耳語收聲傳感器,這個收聲傳感器可以收到周邊分貝較低的聲音。當Siri系統意識到用戶是在低聲詢問時,其回答的聲音也會隨之降低。如果用戶以正常聲量和 Siri 聊天,Siri 的也會以正常聲音回答。

2018年11月,蘋果的一項名為「離線個人助理」的專利顯示,該公司正在考慮為Siri加入離線模式,即便在沒有網絡的情況下,Siri也可以進行本地化工作。2018年11月Siri只支持在線模式,當iPhone用戶使用Siri時,信息請求將被發送到蘋果的服務器,並將其轉換為文本;雲端服務器在收到用戶的信息后,做出響應,然後發送到用戶的iPhone上。2018年的iPhone及iPad等蘋果設備是沒有單獨處理語音識別處理的模塊的。從蘋果的新專利來看,蘋果可能會在後續的iOS設備上新增語音處理模塊,可以直接在iPhone等設備上進行智能處理,而不是依賴於服務器。這項專利申請提交於2017年9月,2018年11月由USPTO正式公布。

2019年11月14日,蘋果提交的最新專利申請文件顯示,會在未來版本的Siri或其他系統中添加面部分析功能,幫助Siri解讀用戶提出的請求。這意味着Siri將可能不局限於語音識別,在與用戶對話時可啟用FaceTime攝像頭,分析用戶面部表情及情緒。該專利實現的話,蘋果公司的語音助手Siri不會局限於語音識別,在與用戶對話時,它可以啟用設備的FaceTime攝像頭,來分析用戶的面部表情和情緒。根據專利內容,在這套系統中,需要使用面部識別技術來識別用戶身份,以便提供定製化的操作。

2023年1月,Siri新專利:藉助AirPods運動傳感器,訓練「讀取」唇語。蘋果現有的 Siri 主要依賴揚聲器,在聽到「Hey Siri」、「Skip」或者「Next Song」等語音指令之後,可以執行相應的命令。而蘋果在專利中概述了一種全新的監測方式,表示聲音容易收到背景音等干擾,希望通過 AirPods 內置的陀螺儀或加速度計來記錄微妙的面部運動,不僅可以減少耗電量和處理負擔,而且可以提高準確度。

2023年4月,根據美國商標和專利局(USPTO)公示的清單,蘋果獲得了一項涉及Siri助手語音助手的技術專利,這項專利的名稱為《可推薦聯繫人的助手》,目標是讓iPhone、iPad上的語音助手Siri助手更加智能、更能理解用戶的呼叫請求。蘋果表示當前 Siri助手 能夠響應用戶的呼叫語音命令,實際場景中用戶會使用昵稱,或者只使用名、姓等少量聯繫人字段,以及相近發音的不同,會出現無法正確識別的情況。

支持語言

截至IOS6.1,Siri助手支持中文(普通話 – 中國),中文(粵語 – 中國香港),德文(德國),德文(瑞士),意大利文(意大利),意大利文(瑞士),日文,法文(加拿大),法文(法國),法文(瑞士)英文(澳大利亞),英文(美國),英文(英國),英文(澳大利亞),西班牙文(墨西哥),西班牙文(美國),西班牙文(西班牙)和韓文。

Siri助手

軟件應用

2009年5月30日,在D7大會上,吉特拉斯發佈了Siri助手,Siri助手整合一部分網絡服務進入App Store,運行在iPhone 3GS上。2010年2月,帶語音版本的Siri助手發佈,免費提供3Gs手機下載。2011年10月,Siri助手隨着iPhone4S上市,谷歌趨勢里「Siri助手」的關注指數直線上升。北京時間2011年10月5日凌晨該應用下架。

流量需求

設定鬧鈴或者向日曆添加任務等簡單任務每次將耗費40KB左右數據流量,Siri助手上網尋找問題答案每次將耗費100KB左右數據流量,使用Siri助手的聽寫功能,每條短訊將耗費15KB數據流量,每封郵件將耗費75KB數據流量,每次任務的平均流量消耗為60KB,普通Siri助手用戶每月將使用20MB流量。

產品爭議

涉黃

2012年10月,有網友稱蘋果iPhone手機的語音對話軟件Siri助手可以提供「三陪」場所信息,這一說法引發輿論熱議。調查發現,蘋果提供的部分場所確有「涉黃」嫌疑。蘋果公司回應稱,Siri助手不能進行關鍵詞屏蔽設置,但專家指出,蘋果具有對敏感詞進行特殊處理的設計,只是並未將上述內容列入屏蔽名單。到2012年10月28日,Siri助手不會再搜索「嫖娼」的場所了!蘋果公司客服人員表示,已經將「三陪」信息列入屏蔽範圍。Siri助手不再提供「三陪」場所的信息。對此,蘋果公司客服人員稱,根據用戶的反映,也將「三陪」信息列入屏蔽範圍;屏蔽範圍除「三陪」等涉黃信息外,還包括涉及暴力等違反中國法律的信息。

考慮到這種信息為性交易提供便利,可能會危害社會秩序。而且,由於用戶眾多,潛在危害面也較大,蘋果公司必須及時做出糾正,且職能部門可以出面進行監管。如果Siri助手提到的場所不是涉黃場所,蘋果公司也可能要冒被這些場所民事訴訟、索賠的風險。

泄密

蘋果為Siri助手「竊聽」風波公開道歉。有媒體報道稱,蘋果公司會有專門審查Siri助手語音記錄的工作人員,在審查錄音的過程中獲得用戶私人信息。2019年8月28日,蘋果公司正式在其官網上致歉稱,「我們知道客戶近期一直為蘋果人工審查Siri助手錄音感到困擾,這是我們提高Siri助手使用質量的一部分,我們稱之為『評級』。當我們得知了用戶的擔憂之後,立即停止了所有人工對Siri助手的『評級』的項目,並對所有的環節和政策進行了一個全面的評估。我們決定對Siri助手做一些改變。」蘋果公司在其官網的博文中承諾,將減少從Siri助手語音記錄中搜集到的用戶數據,也不會將存儲在服務器中的數據,作為銷售用途。

相關事件

2012年6月份,智臻智能向法院提起侵權訴訟,認為蘋果公司的Siri助手侵權其2004年申請過的專利「一種聊天機械人系統」。此後,雙方圍繞該專利是否有效進行訴訟。經過多次上訴和再審,8年後,法院終審判決確認該專利的有效性。至此,該訴訟的第一階段告一段落。

隨着智臻智能於2020年8月份發起新一輪訴訟,雙方的糾紛也進入了第二階段。智臻智能認為,蘋果手機智能語音系統Siri助手技術涉嫌侵犯該公司的智能語音系統小i機械人專利權,要求蘋果公司停止Siri助手專利侵權,以及停止製造和銷售侵權產品,暫計索賠金額100億元。這一階段,雙方已先後經歷6次開庭,而2023年5月5日將是雙方迎來的第七次開庭。

2012年6月21日,小i機械人向上海市第一中級人民法院提起訴訟,狀告蘋果電腦貿易(上海)有限公司以及蘋果公司專利侵權。這場專利官司至今已歷8年。在公開審理進行的過程中,蘋果向國家知識產權局專利複審委員會提起行政複議,請求宣告該專利無效。在經歷了多次反覆之後,最高人民法院在今年最終裁定,專利有效。這一訴訟結果的出爐,讓小i機械人得以重啟對蘋果的專利侵權訴訟。2020年8月,國內人工智能技術公司小i機械人正式向上海市高級人民法院提起訴訟,要求蘋果公司停止Siri助手(智能助理)專利侵權,並暫計索賠金額100億元。蘋果中國方面回應稱,Siri助手 不包含其專利包括的特徵,該專利與遊戲和即時消息有關。

獲得榮譽