国产精品一区二区久久国产|亚洲国产香蕉碰碰人人|久热精品男人的天堂在线视频|日韩国产欧美亚洲精品一二三区

<delect id="yuy8l"></delect>
<form id="yuy8l"></form>
  • <dl id="yuy8l"></dl>
    1. 搜索
      熱搜: 青島
      設(shè)為首頁(yè) 收藏本站
      青島信息港 首頁(yè) 青島資訊 查看內(nèi)容
      青島資訊

      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      2022-7-26 17:10     發(fā)布者: 青島信息港 查看 534
      選自blender作者:Carl Edwards等機(jī)器之心編譯編輯:小舟AI+science 領(lǐng)域近來(lái)有了諸多進(jìn)展。設(shè)想一下,醫(yī)生寫(xiě)幾句話來(lái)描述一種專門(mén)用于治療患者的藥物,AI 就能自動(dòng)生成所需藥物的確切結(jié)構(gòu)。這聽(tīng)起來(lái)像是科幻小說(shuō), ...

      選自blender

      作者:Carl Edwards等

      機(jī)器之心編譯

      編輯:小舟

      AI+science 領(lǐng)域近來(lái)有了諸多進(jìn)展。

      設(shè)想一下,醫(yī)生寫(xiě)幾句話來(lái)描述一種專門(mén)用于治療患者的藥物,AI 就能自動(dòng)生成所需藥物的確切結(jié)構(gòu)。這聽(tīng)起來(lái)像是科幻小說(shuō),但隨著自然語(yǔ)言和分子生物學(xué)交叉領(lǐng)域的進(jìn)展,未來(lái)很有可能成為現(xiàn)實(shí)。傳統(tǒng)意義上講,藥物創(chuàng)造通常依靠人工設(shè)計(jì)和構(gòu)建分子結(jié)構(gòu),然后將一種新藥推向市場(chǎng)可能需要花費(fèi)超過(guò) 10 億美元并需要十年以上的時(shí)間(Gaudelet et al., 2021)。

      近來(lái),人們對(duì)使用深度學(xué)習(xí)工具來(lái)改進(jìn)計(jì)算機(jī)藥物設(shè)計(jì)產(chǎn)生了相當(dāng)大的興趣,該領(lǐng)域通常被稱為化學(xué)信息學(xué)(Rifaioglu et al., 2018)。然而,其中大多數(shù)實(shí)驗(yàn)依舊只關(guān)注分子及其低級(jí)特性,例如 logP,辛醇 / 水分配系數(shù)等。未來(lái)我們需要對(duì)分子設(shè)計(jì)進(jìn)行更高級(jí)別的控制,并通過(guò)自然語(yǔ)言輕松實(shí)現(xiàn)控制。

      來(lái)自伊利諾伊大學(xué)厄巴納-香檳分校和 Google X 的研究者通過(guò)提出兩項(xiàng)新任務(wù)來(lái)實(shí)現(xiàn)分子與自然語(yǔ)言轉(zhuǎn)換的研究目標(biāo):1)為分子生成描述;2)在文本指導(dǎo)下從頭生成分子。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      論文地址:http://blender.cs.illinois.edu/paper/molt5.pdf


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      如下圖所示,文本指導(dǎo)分子生成任務(wù)是創(chuàng)建一個(gè)與給定自然語(yǔ)言描述相匹配的分子,這將有助于加速多個(gè)科學(xué)領(lǐng)域的研究。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      在多模態(tài)模型領(lǐng)域,自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué) (V+L) 的交叉點(diǎn)已被廣泛研究。通過(guò)自然語(yǔ)言實(shí)現(xiàn)對(duì)圖像的語(yǔ)義級(jí)控制已取得一些進(jìn)展,人們對(duì)多模態(tài)數(shù)據(jù)和模型越來(lái)越感興趣。

      該研究提出的分子 - 語(yǔ)言任務(wù)與 V+L 任務(wù)有一些相似之處,但也有幾個(gè)特殊的難點(diǎn):1)為分子創(chuàng)建注釋需要大量的專業(yè)知識(shí),2)因此,很難獲得大量的分子 - 描述對(duì),3) 同一個(gè)分子可以具有許多功能,需要多種不同的描述方式,這導(dǎo)致 4) 現(xiàn)有評(píng)估指標(biāo)(例如 BLEU)無(wú)法充分評(píng)估這些任務(wù)。

      為了解決數(shù)據(jù)稀缺的問(wèn)題,該研究提出了一種新的自監(jiān)督學(xué)習(xí)框架 MolT5(Molecular T5),其靈感來(lái)源于預(yù)訓(xùn)練多語(yǔ)言模型的最新進(jìn)展(Devlin et al., 2019; Liu et al., 2020)。MolT5 首先使用簡(jiǎn)單的去噪目標(biāo)在大量未標(biāo)記的自然語(yǔ)言文本和分子字符串上預(yù)訓(xùn)練模型。之后,預(yù)訓(xùn)練模型在有限的黃金標(biāo)準(zhǔn)注釋上進(jìn)行微調(diào)。

      此外,為了充分評(píng)估分子描述或生成模型,該研究提出了一個(gè)名為 Text2Mol 的新指標(biāo)(Edwards et al., 2021)。Text2Mol 重新調(diào)整了檢索模型的用途,以分別評(píng)估實(shí)際分子 / 描述和生成的描述 / 分子之間的相似性。

      多模態(tài)文本 - 分子表示模型 MolT5

      研究人員可以從互聯(lián)網(wǎng)上抓取大量的自然語(yǔ)言文本。例如,Raffel et al. (2019) 構(gòu)建了一個(gè) Common Crawl-based 數(shù)據(jù)集,該數(shù)據(jù)集包含超過(guò) 700GB、比較干凈的自然英語(yǔ)文本。另一方面,我們也可以從 ZINC-15 等公共數(shù)據(jù)庫(kù)中獲取超過(guò) 10 億個(gè)分子的數(shù)據(jù)集。受近期大規(guī)模預(yù)訓(xùn)練進(jìn)展的啟發(fā),該研究提出了一種新的自監(jiān)督學(xué)習(xí)框架 MolT5(Molecular T5),其可以利用大量未標(biāo)記的自然語(yǔ)言文本和分子字符串。

      圖 3 為 MolT5 架構(gòu)圖。該研究首先使用 T5.1.1(T5 的改進(jìn)版本)的公共檢查點(diǎn)(public checkpoints)之一初始化編碼器 - 解碼器 Transformer 模型。之后,他們使用「replace corrupted spans」目標(biāo)對(duì)模型進(jìn)行預(yù)訓(xùn)練。具體而言,在每個(gè)預(yù)訓(xùn)練 step 中,該研究都會(huì)采樣一個(gè)包含自然語(yǔ)言序列和 SMILES 序列的 minibatch。對(duì)于每個(gè)序列來(lái)說(shuō),研究者將隨機(jī)選擇序列中的一些單詞進(jìn)行修改。每個(gè)連續(xù) span 中的 corrupted token 都被一個(gè) sentinel token 替換(如圖 3 中的 [X] 和 [Y] 所示)。接下來(lái)的任務(wù)是預(yù)測(cè) dropped-out span。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      分子(例如,用 SMILES 字符串表示)可以被認(rèn)為是一種具有非常獨(dú)特語(yǔ)法的語(yǔ)言。直觀地說(shuō),該研究的預(yù)訓(xùn)練階段本質(zhì)上是在來(lái)自兩種不同語(yǔ)言的兩個(gè)單語(yǔ)語(yǔ)料庫(kù)上訓(xùn)練一個(gè)語(yǔ)言模型,并且兩個(gè)語(yǔ)料庫(kù)之間沒(méi)有明確的對(duì)齊方式。這種方法類似于 mBERT 和 mBART 等多語(yǔ)言語(yǔ)言模型的預(yù)訓(xùn)練方式。由于 mBERT 等模型表現(xiàn)出出色的跨語(yǔ)言能力,該研究還期望使用 MolT5 預(yù)訓(xùn)練的模型對(duì)文本 - 分子翻譯任務(wù)有用。

      預(yù)訓(xùn)練之后,可以對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),以用于分子描述(molecule captioning)或生成(如圖 3 的下半部分所示)。在分子生成中,輸入是一個(gè)描述,輸出是目標(biāo)分子的 SMILES 表示。另一方面,在分子描述中,輸入是某個(gè)分子的 SMILES 字符串,輸出是描述輸入分子的文字。

      實(shí)驗(yàn)結(jié)果

      下表 1 為分子描述測(cè)試結(jié)果,研究發(fā)現(xiàn),大的預(yù)訓(xùn)練模型在生成逼真語(yǔ)言來(lái)描述分子方面,T5 或 MolT5 比 Transformer 或 RNN 要好得多。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      下圖 5 顯示了幾個(gè)不同模型輸出示例。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      不同模型的生成結(jié)果示例(節(jié)選)。

      通常 RNN 模型在分子生成方面優(yōu)于 Transformer 模型,而在分子描述任務(wù)中,大型預(yù)訓(xùn)練模型比 RNN 和 Transformer 模型表現(xiàn)得更好。眾所周知,擴(kuò)展模型大小和預(yù)訓(xùn)練數(shù)據(jù)會(huì)導(dǎo)致性能顯著提高,但該研究的結(jié)果依舊令人驚訝。

      例如,一個(gè)默認(rèn)的 T5 模型,它只在文本數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,能夠生成比 RNN 更接近真值的分子,而且通常是有效的。并且隨著語(yǔ)言模型規(guī)模的擴(kuò)展,這種趨勢(shì)持續(xù)存在,因?yàn)榫哂?770M 參數(shù)的 T5-large 優(yōu)于具有 60M 參數(shù)的專門(mén)預(yù)訓(xùn)練的 MolT5-small。盡管如此,MolT5 中的預(yù)訓(xùn)練還是略微改善了一些分子生成結(jié)果,尤其是在有效性方面的大幅提升。

      下圖 4 顯示了模型的結(jié)果,并且按輸入描述對(duì)其進(jìn)行編號(hào)。實(shí)驗(yàn)發(fā)現(xiàn),與 T5 相比,MolT5 能夠更好地理解操作分子的指令。


      給幾句話就能生成分子,神秘的Google X把多模態(tài)AI做成了黑科技

      不同模型生成的分子示例展示。


      文章來(lái)源:機(jī)器之心Pro。如上內(nèi)容為青島信息港(m.vtef7.com)官方網(wǎng)站綜合整理發(fā)布,版權(quán)歸原作者所有。青島信息港官方網(wǎng)站是山東青島區(qū)域化綜合性新媒體平臺(tái),目前青島信息港已全網(wǎng)覆蓋,主要有今日頭條、微博、微信、嗶站、知乎、搜狐新聞、網(wǎng)易新聞、騰訊新聞、新浪新聞等商業(yè)平臺(tái),以及中央和省市地方官方媒體平臺(tái)入駐號(hào),實(shí)現(xiàn)了全網(wǎng)覆蓋。青島信息港是山東半島地方信息門(mén)戶,擁有廣播電視經(jīng)營(yíng)許可證,按規(guī)定進(jìn)行工信部和公安局的備案,內(nèi)容源于網(wǎng)絡(luò),版權(quán)歸原網(wǎng)站所有,如有侵權(quán)請(qǐng)聯(lián)系。如需轉(zhuǎn)載時(shí)請(qǐng)保留原版權(quán)的完整信息,否則追究侵權(quán)責(zé)任。
      收藏 邀請(qǐng)
      上一篇:走進(jìn)AI世界,感受科技魅力,松江這所學(xué)校推出“人工智能”課程下一篇:快遞丟了中通卻顯示已簽收 不打招呼投遞成慣常做法

      相關(guān)閱讀

      返回頂部