Validsoft的語音認證創新技術，破解深偽語音犯罪的利器

李韻柔
2024-03-27

人工智慧,資訊安全
AI語音認證；防詐騙
167
分享

近年來，人工智慧技術發展迅速，不僅有圖像生成AI工具，還有「Text-to-Speech AI」和「CoeFont」等語音生成AI工具問世。在語音生成AI工具中，有的實現了自然的語調，有的具備聲音變換功能，可以將自己的聲音轉換為名人的聲音，使得每個人都可以輕鬆地製作出與人類聲音無異的語音。

然而，隨著AI語音技術的發展，國內外皆發生利用AI生成的合成語音進行犯罪的情況。根據針對世界7個國家(日本、美國、英國、德國、法國、印度、澳大利亞)的18歲以上成年人，共7,054人的調查，有10%的人遭遇過AI語音詐騙；15%的人知道有人遭詐騙過。在應對破解「深偽語音」犯罪的需求日益迫切之際，總部位於美國的Validsoft提供了檢測深偽語音的認證解決方案。

金融資訊老手創辦Validsoft，破解深偽語音犯罪

Validsoft成立於2003年，是提供語音認證解決方案的公司。透過檢測語音合成、深度偽造和重放攻擊(Replay Attack，使用錄音設備重放他人的聲音)等技術，致力於防止詐騙和個人資訊遭竊。

Validsoft的首席執行官和創始人卡羅爾(Pat Carroll)是一位在金融和資訊技術領域擁有25年經驗的老手。過去，他曾在高盛、摩根大通、瑞士信貸等金融集團擔任高級職位。此外，Validsoft還擁有專業的語音技術博士以及法令遵循(合規)和法律事務專家等優秀人才。透過與各領域專家的合作，該公司發展迅速，現階段不僅在美國設有總部，還在英國和印度提供服務。

能夠進行對話的深偽語音

過去幾年，生物認證(例如聲音或指紋)取代了PIN碼或密碼，但安全技術在尚未跟上的情況下即開始普及。深度偽造中有些案例的偽造程度已經到了人類難以識別的程度。2019年，有媒體報導一宗由偽造聲音引起的詐騙案件，引起了廣泛關注。

該事件的情節如下：某英國能源公司的CEO接到了來自德國母公司CEO的電話，指示其「立即向匈牙利的合作夥伴轉帳資金」。該CEO依照指示，轉帳22萬歐元(約24萬3000美元，新台幣750萬元)，而發出指示的聲音實際上是由深偽語音生成的。這種深偽造語音是透過大量的聲音數據和精心訓練的機器學習，使用合成語音的「語音調變技術」來生成，語音調變技術不同於錄音，能夠以接近本人聲音的音調進行對話。

Validsoft的語音認證技術

面對深偽語音的威脅，Validsoft利用數學基礎和實證方法，開發出了能夠檢測深偽語音並進行本人確認的語音認證技術。在名為「防篡改聲紋」(Spoof-Proof Voiceprint)的技術中，用戶的聲音特徵，如口音、節奏、語調皆會被分析和記錄，然後透過「深度神經網絡」(DNN)來創建聲紋。

DNN是一種數學模型，模仿了大腦神經迴路的層次，據悉能夠進行更複雜、更深入的分析。這樣創建的聲紋將被註冊為用戶的聲音ID，已註冊的聲音將透過深度偽造檢測系統進行分析，並根據相似性指標顯示是否通過。根據Validsoft的研發負責人表示，深偽語音與本人聲紋存在明顯的差異。

利用語音認證進行身分檢測

Validsoft利用上述技術展開了基於語音認證的解決方案。例如，在「顧客身分保證」方案中，企業在與顧客通話或在線交流時，提供語音認證來確認顧客身分；在「員工身分保證」方案中，企業在員工遠距訪問內部資訊時，提供語音認證來確認員工身分。這種技術不僅適用於一般企業，還可應用於客服中心、金融機構等需要進行身分確認的場域。

近年來，高度生成式人工智慧不斷湧現，避免深度偽造帶來的風險是不可避免的。Validsoft的偽造聲音檢測認證技術被認為是應對人工智慧威脅的重要措施之一，值得高度關注。