文|James Bowers
編輯|Meister Xia
導(dǎo)讀
隨著人工智能技術(shù)的快速發(fā)展,已經(jīng)在各個行業(yè)中產(chǎn)生深刻影響。其中,財稅是一個受到廣泛關(guān)注的領(lǐng)域。人工智能能夠幫助稅務(wù)機關(guān)提高反欺詐能力,打擊欺詐行為。法國的公共財政總局近年來使用人工智能工具取得了諸多成果。那么,人工智能是如何檢測欺詐的?準確度如何?
一覽:
- 偷稅漏稅在稅收缺口中占很大的比例,為經(jīng)合組織國家所欠稅款的4%至15%不等。
- 法國正在積極使用人工智能工具,加大稅務(wù)欺詐打擊力度。
- 法國跨部委人力資源信息技術(shù)服務(wù)中心(CISIRH)開發(fā)了一個操作框架,供世界各地的科研人員開發(fā)各自的反欺詐算法,并進行比對。
- 打擊稅務(wù)欺詐,不能把工作全盤交給簡單的檢測算法。算法是用來配合人類稅務(wù)審計員的團隊檢測工作的。
在當前多國政府赤字居高不下的背景下,偵查稅務(wù)欺詐成為了當務(wù)之急。偷稅漏稅在稅收缺口中占很大的比例,為經(jīng)合組織國家所欠稅款的4%至15%不等。在法國,僅增值稅偷稅漏稅的金額就高達200-250億歐元左右[1]。為此,法國審計法院發(fā)布了多份研究報告,強調(diào)加強打擊欺詐行為的重要性[2]。在法國,公共財政總局(DGFiP)負責監(jiān)察稅務(wù)欺詐,該機構(gòu)近年來積極使用多種人工智能工具,取得了喜人的效果。
法國跨部委人力資源信息技術(shù)服務(wù)中心數(shù)字應(yīng)用辦公室主任Christophe Gaie與巴黎中央理工-高等電力學院的學生成立了一個研究項目組,旨在建立一款全新的,含有先進理論、算法、計算機代碼、模擬數(shù)據(jù)的操作框架,供打擊稅務(wù)欺詐的部門使用[3]。
Christophe Gaie,法國跨部委人力資源信息技術(shù)服務(wù)中心數(shù)字應(yīng)用辦公室主任
01、這項研究的目的是什么?
我們先前的理論研究明確了研究領(lǐng)域,確定了各種概念的定義和值得研究的問題,并制定了未來方向[4]。當前的操作框架開發(fā)項目是理論研究的延續(xù),該操作框架供世界各地的科研人員開發(fā)各自的反欺詐算法,并進行比對。
由于合理避稅不是違法行為,因此我們重點關(guān)注檢測稅務(wù)違法行為的算法,特別是檢測自然人的,因為法人實體有其他渠道制裁。
02、你們項目的數(shù)據(jù)庫來自哪里?
公民的稅務(wù)檔案包含大量個人信息:家庭狀況、收入、資產(chǎn)等,但無論是在實驗室分析中還是實際案例研究中,常常難以獲取全部數(shù)據(jù)。因此,我們根據(jù)預(yù)先選定的若干個維度,創(chuàng)建了一組虛構(gòu)數(shù)據(jù)。維度包括:社會職業(yè)類別、收入、支出、財產(chǎn)金額。當然,在條件成熟后,我們會加載真實數(shù)據(jù),代替虛構(gòu)數(shù)據(jù)。
出于對個人數(shù)據(jù)隱私的保護,法國公共財政總局(DGFiP)不能將真實數(shù)據(jù)提供給學者用于開發(fā)稅務(wù)欺詐檢測工具。這意味著每個學者都得獨立建立自己的數(shù)據(jù)庫,十分耗時,而且要花費精力學習收入、資產(chǎn)等稅務(wù)概念。由于每人的數(shù)據(jù)庫不一樣,開發(fā)出來的算法便缺乏可比性。一般而言,數(shù)字技術(shù)開發(fā)是需要統(tǒng)一的參考數(shù)據(jù)庫的(如電信信號數(shù)據(jù)庫、圖像數(shù)據(jù)庫等)。
03、人工智能是如何檢測欺詐的?
人工智能算法采用“稅務(wù)文件模型”,根據(jù)可配置的標準檢查文件內(nèi)容。從稅務(wù)欺詐案例中總結(jié)出主要規(guī)律后,我們定義了三大類最有可能實施偷稅漏稅的群體:
- 消費、資產(chǎn)明顯高于個人收入水平的群體,
- 消費、資產(chǎn)明顯低于個人收入水平的群體,
- 財富擁有量明顯超出其社會背景、職業(yè)背景水平的群體。
參考數(shù)據(jù)集[5]是利用INSEE公布的參考數(shù)據(jù)編制的,包含了多種社會職業(yè)群體、收入水平和財富水平,以及每個社會職業(yè)類別的支出水平。每個社會職業(yè)類別的人數(shù)比例參照了現(xiàn)實中的比例。其他參數(shù)我們使用了Singh-Maddala分布來模擬[6]。
“打擊稅務(wù)欺詐,不能把工作全盤交給簡單的檢測算法。算法是用來配合人類稅務(wù)審計員的團隊檢測工作的?!?/p>
我們自己也成功地開發(fā)出了多種稅務(wù)欺詐檢測算法:有的基于多采樣神經(jīng)網(wǎng)絡(luò),有的則基于隨機森林(由多個決策樹組成的機器學習算法,可解決回歸和分類問題)。
04、這些算法在真實案例中使用過嗎?
暫未,但是我們可以將開發(fā)成果與政府部門共享,特別是法國公共財政總局的控制編程和數(shù)據(jù)分析辦公室(SJCF-1D)。該辦公室還接受了我們項目組的一名學生作為實習生。與政府密切合作的每一個機會,我們都會把握珍惜。
05、算法的準確度如何?
值得注意的是,算法的檢測準確率(即檢測出欺詐案的實際正確率)和靈敏度(即檢測出的欺詐者占總?cè)后w的比率)之間,存在取舍關(guān)系。因此,算法的好壞以準確率和靈敏度之間的折衷的度量來表示,專業(yè)術(shù)語是AUPRC,即“精確度—回歸曲線下的面積”。
對于靈敏度優(yōu)化的隨機森林,我們開發(fā)的算法實現(xiàn)了高達0.851的AUPRC。這是一個非常好的結(jié)果,說明使用人工智能檢測潛在欺詐具有良好的前景。
06、AI能全自主檢測稅務(wù)欺詐嗎?
不能。打擊稅務(wù)欺詐,不能把工作全盤交給簡單的檢測算法。算法是用來配合人類稅務(wù)審計員的團隊檢測工作的。稅務(wù)欺詐監(jiān)管不僅是個技術(shù)問題,必須由稅務(wù)審計員最終確認,在法官的監(jiān)督下,依法審查定奪,從而在程序上尊重納稅人權(quán)利。
分配給稅務(wù)審計員的案件,應(yīng)與其業(yè)務(wù)水平、工作量、熟悉的專業(yè)領(lǐng)域和稅法領(lǐng)域相符合。我們開發(fā)的算法能向?qū)徲媹F隊的負責人建議案件分配方式,然后由他們做出最終的決定。負責人也可以根據(jù)主觀標準酌情采納算法的建議。
欺詐檢測應(yīng)用程序還必須集成到相關(guān)部門的行政數(shù)字系統(tǒng)中。因此,除了常規(guī)的研究之外,我們還要考慮開發(fā)出來的應(yīng)用程序如何與其他應(yīng)用互聯(lián)互通,以及程序的可維護性高低。當然,也需要留出接口,以便未來集成更新、更強大的算法。
參考資料
1. https://www.insee.fr/fr/statistiques/6478533
2. https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf
3. Prolhac,J.,Gaie,C.“Providing an open framework to facilitate tax frauddetection”, International Journal of Computer Applications in Technology, In Publish, 2023, https://doi.org/10.1504/IJCAT.2023.10055494
4. Gaie,C.(2023).Struggling Against Tax Fraud, a Holistic Approach Using Artificial Intelligence. In:Gaie,C.,Mehta,M.(eds) Recent Advancesin Dataand Algorithms fore Government. Artificial Intelligence-Enhanced Soft ware and Systems Engineering, vol5. Springer, Cham. https://doi.org/10.1007/978–3031–22408-9_4
5. https://gitlab.com/jean.prolhac/detection-de-fraude/
6. Singh,A.,Narina,T.andAakanksha,S.(2016) “Areview of supervised machinelearning algorithms”, Proceedings of the 3rd International Conferenceon Computing for Sustainable Global Development (INDIACom), pp.1310–1315. https: //ieeexplore. ieee. org/ abstract/ document/7724478