語音搜索的經(jīng)驗(yàn)教訓(xùn)
深圳網(wǎng)站建設(shè)在谷歌家跑了1000次搜索,以找出語音答案與桌面答案的區(qū)別。包括特色片段和一些谷歌家庭復(fù)活節(jié)彩蛋數(shù)據(jù)。
谷歌家居是谷歌搜索生態(tài)系統(tǒng)的延伸,這并不奇怪。家正試圖回答越來越多的問題,從搜索結(jié)果中得出這些答案。在搜索和語音答案之間的特色片段越來越清晰的連接。
例如,假設(shè)一只刺猬在你的房子里游蕩,你自然會(huì)發(fā)現(xiàn)自己在想你應(yīng)該喂它什么。你可以搜索“刺猬吃什么?”在桌面上,您會(huì)看到如下的功能片段:
假設(shè)你正在為一個(gè)陌生的刺猬,在你的桌面搜索可能是不實(shí)際的,所以你問谷歌:“好吧,谷歌家的刺猬吃什么?”聽到以下:
谷歌的家庭線索與歸因于方舟野生動(dòng)物(因?yàn)檎Z音應(yīng)答沒有直接鏈接),然后重復(fù)短版的桌面片段。這兩個(gè)答案之間的聯(lián)系,我希望,顯而易見。
大型網(wǎng)站的分層架構(gòu)及物理服務(wù)器的分布式部署使得位于不同層次的服務(wù)器具有不同的可用性特點(diǎn)。關(guān)閉服務(wù)或者服務(wù)器宕機(jī)時(shí)產(chǎn)生的影響也不相同,高可用的解決方案也差異甚大。
位于應(yīng)用層的服務(wù)器通常為了應(yīng)對(duì)高并發(fā)的訪問請(qǐng)求,會(huì)通過負(fù)載均衡設(shè)備將一組服務(wù)器組成一個(gè)集群共同對(duì)外提供服務(wù),當(dāng)負(fù)載均衡設(shè)備通過心跳檢測(cè)等手段監(jiān)控到某臺(tái)應(yīng)用服務(wù)器不可用時(shí),就將其從集群列表中剔除,并將請(qǐng)求分發(fā)到集群中其他可用的服務(wù)器上,使整個(gè)集群保持可用,從而實(shí)現(xiàn)應(yīng)用高可用。
位于服務(wù)層的服務(wù)器情況和應(yīng)用層的服務(wù)器類似,也是通過集群方式實(shí)現(xiàn)高可用,只是這些服務(wù)器被應(yīng)用層通過分布式服務(wù)調(diào)用框架訪問,分布式服務(wù)調(diào)用框架會(huì)在應(yīng)用層客戶端程序中實(shí)現(xiàn)軟件負(fù)載均衡,并通過服務(wù)注冊(cè)中心對(duì)提供服務(wù)的服務(wù)器進(jìn)行心跳檢測(cè),發(fā)現(xiàn)有服務(wù)不可用,立即通知客戶端程序修改服務(wù)訪問列表,剔除不可用的服務(wù)器。
位于數(shù)據(jù)層的服務(wù)器情況比較特殊,數(shù)據(jù)服務(wù)器上存儲(chǔ)著數(shù)據(jù),為了保證服務(wù)器宕機(jī)時(shí)數(shù)據(jù)不丟失,數(shù)據(jù)訪問服務(wù)不中斷,需要在數(shù)據(jù)寫入時(shí)進(jìn)行數(shù)據(jù)同步復(fù)制,將數(shù)據(jù)寫入多臺(tái)服務(wù)器上,實(shí)現(xiàn)數(shù)據(jù)冗余備份。當(dāng)數(shù)據(jù)服務(wù)器宕機(jī)時(shí),應(yīng)用程序?qū)⒃L問切換到有備份數(shù)據(jù)的服務(wù)器上。
Anecdotally,這是一個(gè)模式,我們看到經(jīng)常在谷歌的家,但如何一致呢?谷歌如何處理其他格式(包括列表和表格)的特色片段?谷歌家庭的一些問題與桌面搜索相比有著完全不同的答案嗎?
方法(10K --> 1K)
為了找到這些問題的答案,我需要從一組相當(dāng)大的搜索開始,這些搜索很可能以特色片段的形式生成答案。我的同事Russ Jones拿出一套大約10000熱門搜索開始疑問詞(誰,什么,哪里,為什么,何時(shí),如何從一個(gè)第三方的“點(diǎn)擊”)源(從一個(gè)非常大的用戶的實(shí)際網(wǎng)絡(luò)活動(dòng))。
我把那些搜索桌面(自動(dòng),當(dāng)然),發(fā)現(xiàn)超過半數(shù)(53%)有功能的片段。正如我們看到的其他數(shù)據(jù)集,谷歌顯然是認(rèn)真的直接回答。
一組流行的問題主要由“什么?”“怎么了?”短語:
鑒于流行的“如何?”問題,我打破了他們?cè)谶@個(gè)圖表。紫色條顯示這些搜索中有多少是由片斷組成的。”如何?”問題很可能會(huì)顯示一個(gè)有特色的片段,其他類型的問題顯示他們不到一半的時(shí)間。
在包含了片段的完整數(shù)據(jù)集中大約5300個(gè)搜索中,這些片段分解為四種類型,如下:
文本片段-段落為基礎(chǔ)的答案,如在這篇文章的頂部-占約三分之二的所有特征片段在我們?cè)瓉淼臄?shù)據(jù)集。列表片段占不到三分之一-這些是子彈列表,像這樣的“如何畫恐龍?”:
步驟1 -畫一個(gè)小橢圓。第5步- Dinosaur!就這么簡(jiǎn)單。
表片段在我們的起始數(shù)據(jù)集中占不到2%的特征片段。這些片段包含少量的表格數(shù)據(jù),像這樣搜索“我是哪一代?”:
如果你把你的錢肆意在你的鱷梨吐司的習(xí)慣而不是買房子,你可能是一個(gè)千年(對(duì)不起,內(nèi)容營(yíng)銷的笑話)。
最后,視頻片段是一個(gè)特殊類別的特色片段與一個(gè)大的視頻縮略圖和直接鏈接(占主導(dǎo)地位的YouTube)。這是一個(gè)“誰是最辣的memelord?”:
老實(shí)說,我不知道我可以添加什么評(píng)論的結(jié)果。由于目前沒有辦法讓視頻出現(xiàn)在谷歌的家,我們排除了視頻片段從其余的研究。
谷歌也在測(cè)試一些混合功能的片段。在某些情況下,例如,他們?cè)噲D從文本中提取一個(gè)特定的答案,如“1984時(shí)寫的答案”?(提示:答案不是1984):
本研究的目的,我們把這些雜種作為文本片段。鑒于頂部簡(jiǎn)明的答案,這些混合動(dòng)力非常適合語音結(jié)果。
從5.3k問題的片段,我選擇了1000,不包括視頻但故意包括不成比例的列表和表格類型(更好的看看如何翻譯成語音)。
為什么只有1000?因?yàn)?,不像桌面搜索,有沒有簡(jiǎn)單的方法來做到這一點(diǎn)。在幾天的過程中,我不得不在谷歌上手動(dòng)運(yùn)行所有這些語音搜索。有可能我暫時(shí)瘋了。有一次,我在谷歌的家里看到一只蜘蛛在盯著我看。擔(dān)心我的幻覺,我拍了一張照片,貼在推特:
我深信,蜘蛛,事實(shí)上,不只是我的臆想。我仍然不知道半小時(shí)時(shí),蜘蛛唱我選擇漢密爾頓的配樂。
從片段到語音答案
那么,1000個(gè)搜索中有多少人得到了語音答案?簡(jiǎn)短的回答是:71%。潛水更深,原來,這個(gè)百分比是強(qiáng)烈依賴于片段的類型:
在我們的1K數(shù)據(jù)的文本片斷產(chǎn)生的聲音回答87%的時(shí)間。列表片段降到了不到一半,而表段只產(chǎn)生三分之一的時(shí)間。這是有意義的-長(zhǎng)列表和大多數(shù)表是很難轉(zhuǎn)化為語音。
在表格中,一些結(jié)果來自不同的站點(diǎn)或不同的格式。換句話說,搜索生成了一個(gè)有特色的片段和一個(gè)語音應(yīng)答,但語音應(yīng)答的類型不同(例如文本),并歸因于不同的源代碼。只有20%的表格式的功能片段產(chǎn)生來自同一源的語音答案。
從搜索營(yíng)銷的角度來看,文本片段將產(chǎn)生一個(gè)語音答案近9次的10倍。優(yōu)化文本/段落的片段是一個(gè)很好的起點(diǎn),在語音搜索排名,一般應(yīng)該是一個(gè)雙贏的跨設(shè)備。
特殊:知識(shí)圖
那些沒有生成語音答案的功能片段呢?原來游戲中有很多例外。一個(gè)例外是直接來自谷歌家庭的知識(shí)圖表的答案,沒有任何歸屬。例如,“核選擇是什么?”在桌面上生成此功能片段(至少對(duì)我來說):
在谷歌的家,雖然,我得到一個(gè)不具名的回答似乎來自知識(shí)圖:
目前還不清楚為什么谷歌選擇了另一個(gè)在這個(gè)特殊情況下的聲音。在1000個(gè)關(guān)鍵字集,有大約30關(guān)鍵詞發(fā)生類似的事情。
特別:設(shè)備幫助
谷歌的家庭似乎把一些搜索作為設(shè)備特定的幫助。例如,“如何改變你的名字?”返回關(guān)于合法更改個(gè)人姓名的桌面結(jié)果。在谷歌的家,我得到以下:
從我們的列表中觸發(fā)設(shè)備幫助的其他搜索包括:
如何聯(lián)系谷歌?
如何在網(wǎng)上發(fā)傳真?
你在搞什么名堂?
特別:復(fù)活節(jié)彩蛋
谷歌家有一些復(fù)活節(jié)彩蛋,似乎獨(dú)特的語音搜索。我個(gè)人最喜歡的一個(gè)問題是“生活中最好的是什么?”-生成以下:
這是我們1000個(gè)短語數(shù)據(jù)集中其他復(fù)活節(jié)彩蛋的列表:
字母表里有多少個(gè)字母?
你的強(qiáng)項(xiàng)是什么?
先來了什么,雞還是蛋?
我是哪代人?
什么是人生的意義?
做為一個(gè)小酒吧你會(huì)什么?
嬰兒來自哪里?
在世界上哪里是Carmen Sandiego?
我的iPhone在哪里?
瓦爾多在哪兒?
誰是你爸爸?
復(fù)活節(jié)彩蛋比設(shè)備幫助有點(diǎn)不可預(yù)測(cè)。一般來說,雖然都是罕見的,不應(yīng)該勸阻你試圖排名的特色片段和語音答案。
特殊:一般混淆
在一個(gè)handful(簡(jiǎn)單的用例,谷歌不明白問題或不能精確答案的問題。例如,我可以不去了解谷歌的問題“什么是地獄的意思嗎?”答案在有back(也許這是我的midwestern口音嗎?)是:
在第二次的思想,也許這不是inaccurate說。
一個(gè)有趣的案例是當(dāng)谷歌決定答案A是卷曲的兩個(gè)不同的問題。在桌面上,如果你搜索“如何成為一個(gè)吸血鬼呢?”你會(huì)看到下面的代碼片段的功能:
在谷歌(Google)的家中,我要求我的意思:clarify
在這些案件的嫌疑人,都會(huì)在時(shí)間的改進(jìn),為語音識(shí)別兩個(gè)谷歌繼續(xù)前進(jìn),以surfacing變得更好的答案。
結(jié)果:特殊的配方
早在今年4月,谷歌的一個(gè)新的launched配方功能在谷歌搜索和家庭。許多“如何?”現(xiàn)在兩個(gè)問題相關(guān)的烹飪(Generate之類的東西,這個(gè)問題是“如何在你的兩個(gè)乳房的烤雞嗎?”):
你可以選擇找到一個(gè)配方在谷歌搜索和發(fā)送信息到你的家庭或谷歌,谷歌可以簡(jiǎn)單的把一個(gè)配方的你。它的方式,它將指導(dǎo)你通過一步步指令的城市。
特殊:衛(wèi)生條件
一個(gè)婊子打或健康問題,從一般的問題生兩類疾病,下面的結(jié)果。“這是一個(gè)問題“為什么我們sneeze嗎?”:
這有沒有明確的連接兩個(gè)桌面搜索結(jié)果,這我不清楚,如果真的對(duì)未來的一個(gè)信號(hào),擴(kuò)展的功能性。它似乎是現(xiàn)在銀行有限公司使用。
特殊:wikihow
handful of a“如何?”不尋常的問題引發(fā)的反應(yīng)。例如,如果在家庭問谷歌“如何寫一個(gè)出版社釋?”在回去:
如果說“是的,”我wikihow直接由兩個(gè)助理,辨別一個(gè)不同的聲音?!秝ikihow答案都比多語言文本型snippets功能。
我們應(yīng)該如何適應(yīng)?
語音搜索和語音電器(包括Google和Google的家庭助理)現(xiàn)在放的是很快的,它很難知道在哪里,任何本會(huì)總是在下一年。從一個(gè)搜索營(yíng)銷standpoint,我認(rèn)為它有道理滴一切投資兩個(gè)兩個(gè)的聲音,但我認(rèn)為我們r(jià)eached A點(diǎn)在大前鋒動(dòng)量冰謹(jǐn)慎一些。
第一,在簡(jiǎn)單的“高recommend大學(xué)如何感知你的行業(yè)和你的主要關(guān)鍵詞/問題”appear”在谷歌(谷歌助理或家庭在你的移動(dòng)設(shè)備)。看情況,以上配方為99%以上的人閱讀這條,這是一個(gè)新奇的。如果你的空間的配方,雖然,它的游戲的變化,它的符號(hào)可能會(huì)享受一部來。
第二,我覺得snippets功能強(qiáng),是一個(gè)雙贏的現(xiàn)在。幾乎90%的只讀文本功能snippets我們tracked yielded A的聲音回答。這是snippets也突出searches在線桌面和移動(dòng)。snippets是一個(gè)偉大的功能為出發(fā)點(diǎn)的理解的聲音和你的foothold生態(tài)系統(tǒng)的建立。