进阶图灵测试暴露人工智能短板：机器理解人类还有多远？

進階圖靈測試暴露人工智能短板：機器理解人類還有多遠？

2024-07-28

　　【導讀(du)】在(zai)被稱為(wei)“進(jin)階(jie)版(ban)的(de)(de)圖靈(ling)測試(shi)” 的(de)(de) Winograd Schema 挑戰(zhan)賽(sai)上，來源于(yu)中國科技大學(xue)的(de)(de)參賽(sai)者獲冠(guan)軍，可(ke)是卻沒能拿到(dao)2萬5千美圓(yuan)(yuan)的(de)(de)大獎。為(wei)何(he)？本來，該挑戰(zhan)賽(sai)劃(hua)定(ding)，要(yao)想取得25，000美圓(yuan)(yuan)的(de)(de)獎金，正確(que)率最少要(yao)到(dao)達90%，可(ke)是，顯露最好的(de)(de)兩位選手的(de)(de)正確(que)率還(huan)唯一48%。這還(huan)闡明，讓機械明白知識，現在(zai)還(huan)并不是一件(jian)簡單的(de)(de)事。

　　首先來看那樣一段人類取(qu)蘋(pin)果假造助(zhu)手Siri的對話：

　　User: Siri, call me anambulance.

　　Siri: Okay, from nowon I’ll call you “an ambulance.”

　　用(yong)戶(hu)對蘋果的假(jia)造(zao)助(zhu)手Siri說，幫我叫輛救(jiu)護車。Siri的答復是(shi)，好的，從現在開始，我會(hui)叫你“救(jiu)護車”。

　　這真是一段讓(rang)人犯難堪癥的(de)對話。

　　雖然2013年(nian) Siri 初次宣布后(hou)不久(jiu)，蘋果公司就(jiu)修改了這個毛病。可(ke)是，一(yi)個新(xin)挑戰(zhan)賽后(hou)果表現，今(jin)朝，計(ji)算機仍(reng)舊貧乏知識來幸(xing)免呈現這種難堪。

　　本周，正(zheng)在紐約的(de)一場學術會議(yi)(yi)上(shang)，研究者展現(xian)了 Winograd Schema 挑戰賽的(de)成果，而且提出若干衡量標(biao)準，計議(yi)(yi)要讓計算機變得(de)真正(zheng)的(de)智(zhi)能的(de)話終究另有幾許(xu)事情(qing)要做。

　　中國選手顯(xian)露最(zui)好(hao)，卻沒能拿下獎(jiang)金(jin)

　　Winograd Schema挑釁(xin)賽請(qing)求計算機明白一(yi)(yi)些有歧義的(de)(de)句(ju)子(zi)，這一(yi)(yi)些句(ju)子(zi)關于人(ren)類來講很輕易明白。沒有過，要正(zheng)確(que)明白WinogradSchema挑釁(xin)給(gei)予的(de)(de)有歧義的(de)(de)句(ju)子(zi)，必必要具有必定的(de)(de)知識。比方這句(ju)話“市(shi)政廳議員沒有答應(ying)示威者的(de)(de)許可(ke)證，由于他(ta)們(men)(men)懼怕暴力”，“他(ta)們(men)(men)”指代(dai)誰正(zheng)在(zai)邏輯上是沒有清楚(chu)的(de)(de)，可(ke)是人(ren)類可(ke)以正(zheng)在(zai)語(yu)境下(xia)明白。

　　比起隨機(ji)的挑(tiao)選，介入(ru)挑(tiao)釁的法式正在(zai)挑(tiao)選句子的精(jing)確寄義上，準確度要高一點。然則，顯示最(zui)好的兩(liang)位選手的精(jing)確率還(huan)僅(jin)到(dao)達(da)48%。假如(ru)只是隨機(ji)挑(tiao)選謎底(di)，精(jing)確率是45%。該挑(tiao)釁賽劃定，要想得到(dao)25，000美圓的獎金(jin)，精(jing)確率最(zui)少(shao)要到(dao)達(da)90%。

　　本(ben)次(ci)挑戰(zhan)賽中，顯露(lu)最(zui)好(hao)的兩(liang)位選手分別是來源(yuan)于中國科學技術大(da)學的劉泉（音譯）和來源(yuan)于Open University of Cypress 的 Nicos Issak。

　　“機械(xie)的(de)準(zhun)確度才比隨(sui)機幾率高(gao)一點點，這(zhe)(zhe)并(bing)不(bu)讓人不(bu)測，”紐(niu)約大學(xue)的(de)研討心(xin)理學(xue)家、此次比賽的(de)參(can)謀Gary Marcus 說。這(zhe)(zhe)是由于要給予計算機常(chang)(chang)識(shi)(shi)性的(de)常(chang)(chang)識(shi)(shi)極度難題。手(shou)動將(jiang)這(zhe)(zhe)一些常(chang)(chang)識(shi)(shi)編(bian)碼(ma)極度地耗時，并(bing)且，要讓計算機根據對文(wen)本開展統計分(fen)析來(lai)明白實在的(de)天下還不(bu)論是件(jian)簡單的(de)事。Winograd Schema 挑釁(xin)的(de)絕多數(shu)參(can)與者皆實驗把語法分(fen)析手(shou)工編(bian)碼(ma)和常(chang)(chang)識(shi)(shi)庫結(jie)合起(qi)來(lai)運(yun)用(yong)。

　　世界水平終究怎樣？

　　Marcus 仍(reng)是一家新(xin)AI始(shi)創公司(si) Geometric Intelligence 的結合創始(shi)人。他說(shuo)(shuo)，雖(sui)然此前(qian)谷歌和 Facebook 的研究員說(shuo)(shuo)它們正在自然語言明白層面取得了重(zhong)大進展(zhan)，然則這(zhe)兩家公司(si)沒(mei)有(you)到場此次比(bi)賽(sai)。“正本應該(gai)是這(zhe)一些人高調地走進來然后得100%的正確率，如果那樣的話就(jiu)震動到我了。”

　　媒體曾正在(zai)6月9日的(de)(de)頭條文章中報導：加拿大人工智能(neng)公司(si)Maluuba宣布了一(yi)款基于機械(xie)進修的(de)(de)自然語(yu)(yu)言了解步伐EpiReader，能(neng)了解并處置懲罰未經組(zu)織(zhi)的(de)(de)自然語(yu)(yu)言正在(zai)機械(xie)了解文本(ben)(ben)，并正在(zai)常用的(de)(de)CNN和(he)CBT數據集(ji)測(ce)試(shi)中取得了目前為(wei)止的(de)(de)最(zui)好結果，超出行業(ye)領導者IBM Waston、Facebook和(he)谷歌 DeepMind。作(zuo)為(wei)該(gai)公司(si)垂(chui)問，Yoshua Bengio把EpiReader稱為(wei)一(yi)個有意思(si)的(de)(de)提高，并以為(wei)該(gai)技(ji)能(neng)將會推進Siri、Cortana、Alex等智能(neng)助理的(de)(de)問答本(ben)(ben)領。

　　Maluuba對(dui)EpiReader的測試是正(zheng)在兩個超大型(xing)的文本會合舉行的：一個由(you)(you)谷(gu)歌Deepmind正(zheng)在客歲炎天宣(xuan)布，基于CNN和Daily Mail新(xin)聞報道，包含(han)了(le)30萬篇(pian)文章（Maluuba只(zhi)使用了(le)CNN的部門）。另一個是Facebook于本年(nian)2月份推出的The Children's Book Test（CBT），由(you)(you)ProjectGutenberg的98本典范兒童讀(du)物構成。

　　EpiReader正(zheng)在(zai)(zai)這里兩個數據集的瀏覽了(le)解中正(zheng)確(que)(que)率別離(li)到達74%和(he)(he)67.4%。專家同等(deng)以為，正(zheng)在(zai)(zai)和(he)(he)兩個數據集的瀏覽了(le)解中，這是今朝見到的最好(hao)成(cheng)果，具有里程碑的意(yi)義。要知道，人類的準確(que)(que)度還達不到100%，反而是正(zheng)在(zai)(zai)80%擺布。

　　正在CNN消(xiao)息語料庫中，DeepMind的準(zhun)確度(du)(du)為63.8%，Facebook為66.8%，IBM Waston為69.5%。而正在CBT語料庫的測試中，Facebook準(zhun)確度(du)(du)為63%，IBM Waston準(zhun)確度(du)(du)為63.4%。(見(jian)下圖(tu))

　　Winograd Schema 比賽不僅僅是AI的提(ti)高的一個衡(heng)量標準(zhun)，還說明晰要制作直覺更強、加倍(bei)良好的談(tan)天機器人和練習計算機由文(wen)本中提(ti)取更多的信(xin)息有多災。

　　谷歌、Facebook、亞馬遜和微(wei)軟(ruan)的(de)(de)研究員(yuan)正正在(zai)(zai)將(jiang)他們(men)的(de)(de)注意力轉移到言語(yu)上(shang)。他們(men)運用最新的(de)(de)機械(xie)進(jin)修(xiu)技能，尤其是“深度進(jin)修(xiu)”神經網絡(luo)來(lai)開(kai)辟加(jia)倍智能、更有直(zhi)覺的(de)(de)談天機械(xie)人(ren)和小我(wo)私家(jia)助(zhu)(zhu)理(li)。跟著談天機械(xie)人(ren)和語(yu)音助(zhu)(zhu)理(li)愈(yu)來(lai)愈(yu)普遍和正在(zai)(zai)圖(tu)像辨認(ren)和語(yu)音辨認(ren)獲(huo)得(de)重大進(jin)展，您(nin)也許認(ren)為機械(xie)正在(zai)(zai)理(li)解言語(yu)上(shang)正干的(de)(de)愈(yu)來(lai)愈(yu)好(hao)。

　　正在表示最好(hao)的兩(liang)名參(can)賽(sai)者中(zhong)，個中(zhong)一(yi)位最好(hao)選手運用(yong)了(le)最新的機械進修方(fang)法。劉泉的團隊（個中(zhong)包羅來源于多倫(lun)多約克大學和(he)加(jia)拿大國度(du)研討委員會的研討員）運用(yong)深度(du)進修來練習計算(suan)機由(you)數千份文本中(zhong)了(le)解(jie)不一(yi)樣事情之(zhi)間的干系(xi)，比方(fang)“打籃球”和(he)“贏了(le)”或“受傷”之(zhi)間的干系(xi)。

　　“我(wo)很樂意看到(dao)深度進修的(de)利用，”Leidos公司的(de)高等研究員Leora Morgenstern說到(dao)。Leios是一(yi)家科技咨詢公司，是此次大賽的(de)組織(zhi)方之一(yi)。

　　劉泉的團隊稱，他(ta)(ta)們的體系(xi)正在明白(bai)大(da)賽出的題目時有一個缺(que)點，等他(ta)(ta)們改正這個缺(que)點后，正確率(lv)可達60%。然而(er)Morgenstern提示說，縱(zong)然他(ta)(ta)們真的能保證(zheng)，機(ji)械的正確率(lv)照(zhao)舊遠遠低于人類。

　　把 Winograd Schema 的(de)(de)句子作為一(yi)種權衡機械理解力(li)的(de)(de)方(fang)式，最開端是由多倫多大(da)學(xue)的(de)(de)一(yi)名AI研究員HectorLevesque提出的(de)(de)。憑據AI界的(de)(de)先(xian)驅Terry Winograd 的(de)(de)名字定名。Terry Winograd是斯坦福(fu)大(da)學(xue)的(de)(de)傳授，發明白第一(yi)個(ge)對話的(de)(de)計算(suan)機步伐。

　　Winograd Schema挑釁開(kai)始于2014年(nian)(nian)，是一(yi)種升級(ji)版的(de)(de)(de)圖靈測試(shi)。艾(ai)倫·圖靈是計算機(ji)和人工智能之(zhi)父，20世(shi)紀50年(nian)(nian)代，他正(zheng)在(zai)想機(ji)械(xie)是不是有一(yi)天會像人類一(yi)樣思索，然后提出(chu)了一(yi)個簡樸的(de)(de)(de)測試(shi)機(ji)械(xie)智能的(de)(de)(de)要領(ling)。他的(de)(de)(de)要領(ling)便(bian)是讓(rang)一(yi)臺機(ji)械(xie)騙(pian)過(guo)一(yi)小我，讓(rang)這(zhe)小我認為他是正(zheng)在(zai)和另(ling)一(yi)小我正(zheng)在(zai)開(kai)展文字對話。

　　圖靈測試的(de)問題在于，計算(suan)機(ji)(ji)只要利(li)用(yong)簡(jian)樸的(de)魔術和(he)回避就可(ke)以輕松(song)騙(pian)過人類。然則，計算(suan)機(ji)(ji)如果沒有知(zhi)識就不能了(le)解Winograd Schema或(huo)是其他(ta)帶歧(qi)義的(de)句子(zi)。

　　此次比賽意義龐(pang)大(da)。“當你(ni)起頭和(he)(he)機械(xie)開展對話，這類情(qing)形就會(hui)產生(sheng)，”Nuance的(de)高等(deng)首席研(yan)究(jiu)員Charlie Ortiz說。Nuance是(shi)一家(jia)干語(yu)音辨(bian)認和(he)(he)語(yu)音交互軟(ruan)件的(de)公(gong)司，是(shi)Winograd Schema挑戰(zhan)賽的(de)資助方。Ortiz說，即使是(shi)取(qu)計算機簡(jian)樸(pu)的(de)對話還會(hui)需求明白知識(shi)。“正在購物時(shi)，假如(ru)我(wo)說‘我(wo)想(xiang)給我(wo)的(de)吉他買一個(ge)盒子，它應當很牢靠的(de)。’那末，‘它’是(shi)指盒子仍是(shi)吉他呢？”

　　Marcus 填補(bu)說(shuo)，伴隨著(zhu)智(zhi)能設備(bei)和可穿著(zhu)設備(bei)的(de)遍(bian)及，了解知識將(jiang)變(bian)得(de)越來(lai)越重要(yao)。“當您(nin)向您(nin)的(de)腕表提出一(yi)個(ge)(ge)題目時，您(nin)不消(xiao)再正在50個(ge)(ge)備(bei)選謎(mi)底中開展挑選，”他說(shuo)。“當您(nin)和您(nin)的(de)汽車(che)或是腕表說(shuo)話時，您(nin)擺脫了打(da)字(zi)的(de)費(fei)事，可是卻盼望能對(dui)前后(hou)的(de)對(dui)話，還便是上(shang)下文連結高度相(xiang)關性。正在說(shuo)話時，人們(men)會很自然的(de)運(yun)用(yong)代詞指稱此(ci)前提到的(de)器械。而這(zhe)一(yi)些就要(yao)求(qiu)辦(ban)理(li)此(ci)刻的(de)題目，讓計算機能夠保證(zheng)那樣”。

上一篇：轉業軍人五年研發第三代焊接機器人登上央視

下一篇：機器人力/力矩反饋控制，海伯森六維力傳感器實現多場景落地

四川少扫搡BBw搡BBBB,国产黄色视频在线免费观看,国产羞羞无码视频在线观看免,欧美亚洲日韩二区中文字幕的,亚洲91无码精品一区在线播放

江蘇昊目智能