亚洲中字幕永久在线观看,亚洲欧洲中文日韩av尤物无码

MIT科學(xué)家開發(fā)機(jī)器翻譯新算法，專為破譯消失的古語言

2020-10-28 09:12

鈦媒體APP

學(xué)術(shù)頭條

近日，麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL）的研究人員就開發(fā)出一種計(jì)算機(jī)算法，旨在幫助語言學(xué)家破譯歷史上已消失的語言。

語言是文化的有機(jī)組成部分，也是文化的載體，世界文明的多樣性在很大程度上表現(xiàn)為世界語言的多樣性。而在 21 世紀(jì)的今天，語言學(xué)家們顯然已經(jīng)不滿足于傳統(tǒng)的、對已知語言的研究。相反，許多科學(xué)家開始利用計(jì)算機(jī)技術(shù)，去探索已經(jīng)消失的、幾乎成為謎底的滅絕古老語言。

無法“谷歌翻譯”的古老語言

如今，世界上現(xiàn)存約有 7100 種語言。然而，古時(shí)存在的大多數(shù)語言都已不再使用，幾近滅絕。數(shù)十種已滅絕語言也被認(rèn)為是“未破譯”的語言，也就是說，我們對它們的語法（grammar）、詞匯（vocabulary）或句法（syntax）了解不足，也無法理解其文本的意思。

圖 | 世界語言分布地圖 2018

而研究這些“未破譯”的語言，不僅僅是出于學(xué)術(shù)上的好奇心。還是因?yàn)椋焕斫庹Z言，我們就會(huì)錯(cuò)過與講這些語言的人有關(guān)的一整套知識體系。不幸的是，大多數(shù)滅絕語言的相關(guān)記錄極少，因此，科學(xué)家無法使用谷歌翻譯之類的機(jī)器翻譯工具或AI算法來對其進(jìn)行解密。

而傳統(tǒng)的研究方法是，找出目標(biāo)語言的“相關(guān)”語言來作比較研究，例如同一語系或相似度較高的現(xiàn)存語言。然而，有些語言并沒有對應(yīng)的、已被深入研究過的“相關(guān)”語言，并且它們通常缺少諸如空格和標(biāo)點(diǎn)符號之類的傳統(tǒng)分隔符（想像一下，要解密出用這種語言寫出的文字該有多么令人頭禿）。

但是，CSAIL 的研究人員發(fā)明的新系統(tǒng)，已被證明能夠自動(dòng)破譯消失的語言，且無需對其與其他語言的關(guān)系有深入的了解。他們還表明，該系統(tǒng)自身就可以確定語言之間的關(guān)系，并可以用它來證實(shí)最近的一項(xiàng)表明 Iberian 語言實(shí)際上與 Basque 語言無關(guān)的學(xué)術(shù)研究。

語言破譯：從文本到矢量的轉(zhuǎn)變

此研究由 MIT 教授 Regina Barzilay 牽頭，依賴于基于歷史語言學(xué)（historical linguistics)見解的幾項(xiàng)原則。其中一條原則是，一種給定的語言很少會(huì)直接添加或刪除整個(gè)音節(jié)，但是很可能會(huì)發(fā)生某些近似發(fā)音的替換。比如，母語中帶有“ p”發(fā)音的單詞可能會(huì)在其后代演變中變?yōu)?ldquo; b”，但是由于明顯的發(fā)音差異，變?yōu)?ldquo; k”的可能性則較小。

通過整合這些原則和其他語言學(xué)約束，Barzilay 等人的新算法學(xué)習(xí)將語言發(fā)音嵌入多維向量空間，在該多維空間中，相應(yīng)矢量之間的距離反映了不同發(fā)音的差異。這種設(shè)計(jì)使他們能夠捕獲語言變化的相關(guān)特征，并將這些特征表達(dá)為計(jì)算約束（computational constraints）。

因此，它可以評估兩種語言之間的相似度。實(shí)際上，當(dāng)對已知語言進(jìn)行測試時(shí)，它甚至可以準(zhǔn)確地識別出該語言屬于哪個(gè)語系（language families)。例如英語、德語同屬于日耳曼語系。

不僅如此，算法生成的模型可以將古語言中的單詞進(jìn)行細(xì)分，并將其一一映射到“相關(guān)”語言中的對應(yīng)單詞上去。研究團(tuán)隊(duì)的最終目標(biāo)是使該系統(tǒng)僅僅使用幾千個(gè)單詞，就能夠破譯數(shù)十年來語言學(xué)家們都無法理解的古語言。

機(jī)器翻譯相關(guān)研究

實(shí)際上，這并非 MIT 首個(gè)使用計(jì)算機(jī)技術(shù)破譯已消失語言的研究。

早在 2010 年，Barzilay 就和其他合作者一起，開發(fā)出一個(gè)新的計(jì)算機(jī)算法，該算法在幾個(gè)小時(shí)內(nèi)就破解了古老的猶太語言烏加里特語（Ugaritic）。

除了幫助破譯“神秘的”八種左右古老語言外，這項(xiàng)工作還可以擴(kuò)大自動(dòng)翻譯系統(tǒng)可以處理的語言數(shù)量。例如目前，谷歌翻譯支持 103 種語言，而破譯系統(tǒng)中使用的技術(shù)可以幫助其為數(shù)千種語言構(gòu)建詞典。

去年，Barzilay 等人也發(fā)表過一篇論文，文中使用改進(jìn)的計(jì)算機(jī)算法破譯了線形文字 B（Linear B，出現(xiàn)在公元前 1400 年左右）。他們說，“我們的翻譯腳本能夠以 67.3%的準(zhǔn)確率將線性文字 B 的同源詞轉(zhuǎn)換成對應(yīng)的希臘語。據(jù)我們所知，該試驗(yàn)是自動(dòng)解讀線性文字 B 的第一次嘗試。”

在未來的工作中，該團(tuán)隊(duì)希望擴(kuò)展到將文本與已知語言的相關(guān)單詞相關(guān)聯(lián)的范圍之外，這種方法被稱為“基于同源的破譯方法”。

Barzilay 說：“例如，我們可以識別文本中涉及到的所有人或地點(diǎn)的信息，然后可以根據(jù)已知的歷史證據(jù)對其進(jìn)行進(jìn)一步的調(diào)查。這些實(shí)體識別（entity recognition）方法如今已廣泛用于各種文本處理應(yīng)用程序中，并且具有很高的準(zhǔn)確性。”

參考資料：https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021https://news.mit.edu/2010/ugaritic-barzilay-0630http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdfhttp://people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

Gartner：2021年及以后IT組織和用戶十大趨勢預(yù)測

MIT科學(xué)家開發(fā)機(jī)器翻譯新算法，專為破譯消失的古語言

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

MIT科學(xué)家開發(fā)機(jī)器翻譯新算法，專為破譯消失的古語言

最新評論（評論僅代表用戶觀點(diǎn)）

半導(dǎo)體大廠豪賭HBM產(chǎn)能!

在邊緣部署人工智能的三個(gè)好處

北京移動(dòng)完成5G-A通感一體系統(tǒng)飛鳥識別技術(shù)驗(yàn)證

大模型挺進(jìn)產(chǎn)業(yè)腹地，百度智能云如何成為“央國企嚴(yán)選”？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

考閱智能面試評分系統(tǒng)提高面試工作效率

“政采云+樂采云”品牌全新亮相，雙輪驅(qū)動(dòng)政企采購數(shù)字化新征程

存力中心——構(gòu)建新型數(shù)據(jù)基礎(chǔ)設(shè)施，加速數(shù)據(jù)要素X行業(yè)推進(jìn)高質(zhì)量發(fā)展

5秒AI繪畫出圖，伊克羅德信息開箱即用的AIGC解決方案來了!

還在擔(dān)心驗(yàn)證碼錯(cuò)誤？新的算法將更容易識別文本驗(yàn)證碼

倒計(jì)時(shí)丨2019中國互聯(lián)網(wǎng)+產(chǎn)業(yè)創(chuàng)新合作發(fā)展論壇搶先看：哪些大咖會(huì)來？他們會(huì)討論啥？

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

Gartner：2021年及以后IT組織和用戶十大趨勢預(yù)測

5G toB，核心網(wǎng)如何演進(jìn)？

MIT科學(xué)家開發(fā)機(jī)器翻譯新算法，專為破譯消失的古語言

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

半導(dǎo)體大廠豪賭HBM產(chǎn)能!

在邊緣部署人工智能的三個(gè)好處

北京移動(dòng)完成5G-A通感一體系統(tǒng)飛鳥識別技術(shù)驗(yàn)證

大模型挺進(jìn)產(chǎn)業(yè)腹地，百度智能云如何成為“央國企嚴(yán)選”？

本月熱門

精選文章

熱點(diǎn)資訊

Gartner：2021年及以后IT組織和用戶十大趨勢預(yù)測

5G toB，核心網(wǎng)如何演進(jìn)？

大模型挺進(jìn)產(chǎn)業(yè)腹地，百度智能云如何成為“央國企嚴(yán)選”？

5G toB，核心網(wǎng)如何演進(jìn)？