文|James Bowers
編輯|Meister Xia
導(dǎo)讀
隨著人工智能技術(shù)的快速發(fā)展,已經(jīng)在各個(gè)行業(yè)中產(chǎn)生深刻影響。其中,財(cái)稅是一個(gè)受到廣泛關(guān)注的領(lǐng)域。人工智能能夠幫助稅務(wù)機(jī)關(guān)提高反欺詐能力,打擊欺詐行為。法國(guó)的公共財(cái)政總局近年來(lái)使用人工智能工具取得了諸多成果。那么,人工智能是如何檢測(cè)欺詐的?準(zhǔn)確度如何?
一覽:
- 偷稅漏稅在稅收缺口中占很大的比例,為經(jīng)合組織國(guó)家所欠稅款的4%至15%不等。
- 法國(guó)正在積極使用人工智能工具,加大稅務(wù)欺詐打擊力度。
- 法國(guó)跨部委人力資源信息技術(shù)服務(wù)中心(CISIRH)開(kāi)發(fā)了一個(gè)操作框架,供世界各地的科研人員開(kāi)發(fā)各自的反欺詐算法,并進(jìn)行比對(duì)。
- 打擊稅務(wù)欺詐,不能把工作全盤(pán)交給簡(jiǎn)單的檢測(cè)算法。算法是用來(lái)配合人類(lèi)稅務(wù)審計(jì)員的團(tuán)隊(duì)檢測(cè)工作的。
在當(dāng)前多國(guó)政府赤字居高不下的背景下,偵查稅務(wù)欺詐成為了當(dāng)務(wù)之急。偷稅漏稅在稅收缺口中占很大的比例,為經(jīng)合組織國(guó)家所欠稅款的4%至15%不等。在法國(guó),僅增值稅偷稅漏稅的金額就高達(dá)200-250億歐元左右[1]。為此,法國(guó)審計(jì)法院發(fā)布了多份研究報(bào)告,強(qiáng)調(diào)加強(qiáng)打擊欺詐行為的重要性[2]。在法國(guó),公共財(cái)政總局(DGFiP)負(fù)責(zé)監(jiān)察稅務(wù)欺詐,該機(jī)構(gòu)近年來(lái)積極使用多種人工智能工具,取得了喜人的效果。
法國(guó)跨部委人力資源信息技術(shù)服務(wù)中心數(shù)字應(yīng)用辦公室主任Christophe Gaie與巴黎中央理工-高等電力學(xué)院的學(xué)生成立了一個(gè)研究項(xiàng)目組,旨在建立一款全新的,含有先進(jìn)理論、算法、計(jì)算機(jī)代碼、模擬數(shù)據(jù)的操作框架,供打擊稅務(wù)欺詐的部門(mén)使用[3]。
Christophe Gaie,法國(guó)跨部委人力資源信息技術(shù)服務(wù)中心數(shù)字應(yīng)用辦公室主任
01、這項(xiàng)研究的目的是什么?
我們先前的理論研究明確了研究領(lǐng)域,確定了各種概念的定義和值得研究的問(wèn)題,并制定了未來(lái)方向[4]。當(dāng)前的操作框架開(kāi)發(fā)項(xiàng)目是理論研究的延續(xù),該操作框架供世界各地的科研人員開(kāi)發(fā)各自的反欺詐算法,并進(jìn)行比對(duì)。
由于合理避稅不是違法行為,因此我們重點(diǎn)關(guān)注檢測(cè)稅務(wù)違法行為的算法,特別是檢測(cè)自然人的,因?yàn)榉ㄈ藢?shí)體有其他渠道制裁。
02、你們項(xiàng)目的數(shù)據(jù)庫(kù)來(lái)自哪里?
公民的稅務(wù)檔案包含大量個(gè)人信息:家庭狀況、收入、資產(chǎn)等,但無(wú)論是在實(shí)驗(yàn)室分析中還是實(shí)際案例研究中,常常難以獲取全部數(shù)據(jù)。因此,我們根據(jù)預(yù)先選定的若干個(gè)維度,創(chuàng)建了一組虛構(gòu)數(shù)據(jù)。維度包括:社會(huì)職業(yè)類(lèi)別、收入、支出、財(cái)產(chǎn)金額。當(dāng)然,在條件成熟后,我們會(huì)加載真實(shí)數(shù)據(jù),代替虛構(gòu)數(shù)據(jù)。
出于對(duì)個(gè)人數(shù)據(jù)隱私的保護(hù),法國(guó)公共財(cái)政總局(DGFiP)不能將真實(shí)數(shù)據(jù)提供給學(xué)者用于開(kāi)發(fā)稅務(wù)欺詐檢測(cè)工具。這意味著每個(gè)學(xué)者都得獨(dú)立建立自己的數(shù)據(jù)庫(kù),十分耗時(shí),而且要花費(fèi)精力學(xué)習(xí)收入、資產(chǎn)等稅務(wù)概念。由于每人的數(shù)據(jù)庫(kù)不一樣,開(kāi)發(fā)出來(lái)的算法便缺乏可比性。一般而言,數(shù)字技術(shù)開(kāi)發(fā)是需要統(tǒng)一的參考數(shù)據(jù)庫(kù)的(如電信信號(hào)數(shù)據(jù)庫(kù)、圖像數(shù)據(jù)庫(kù)等)。
03、人工智能是如何檢測(cè)欺詐的?
人工智能算法采用“稅務(wù)文件模型”,根據(jù)可配置的標(biāo)準(zhǔn)檢查文件內(nèi)容。從稅務(wù)欺詐案例中總結(jié)出主要規(guī)律后,我們定義了三大類(lèi)最有可能實(shí)施偷稅漏稅的群體:
- 消費(fèi)、資產(chǎn)明顯高于個(gè)人收入水平的群體,
- 消費(fèi)、資產(chǎn)明顯低于個(gè)人收入水平的群體,
- 財(cái)富擁有量明顯超出其社會(huì)背景、職業(yè)背景水平的群體。
參考數(shù)據(jù)集[5]是利用INSEE公布的參考數(shù)據(jù)編制的,包含了多種社會(huì)職業(yè)群體、收入水平和財(cái)富水平,以及每個(gè)社會(huì)職業(yè)類(lèi)別的支出水平。每個(gè)社會(huì)職業(yè)類(lèi)別的人數(shù)比例參照了現(xiàn)實(shí)中的比例。其他參數(shù)我們使用了Singh-Maddala分布來(lái)模擬[6]。
“打擊稅務(wù)欺詐,不能把工作全盤(pán)交給簡(jiǎn)單的檢測(cè)算法。算法是用來(lái)配合人類(lèi)稅務(wù)審計(jì)員的團(tuán)隊(duì)檢測(cè)工作的?!?/p>
我們自己也成功地開(kāi)發(fā)出了多種稅務(wù)欺詐檢測(cè)算法:有的基于多采樣神經(jīng)網(wǎng)絡(luò),有的則基于隨機(jī)森林(由多個(gè)決策樹(shù)組成的機(jī)器學(xué)習(xí)算法,可解決回歸和分類(lèi)問(wèn)題)。
04、這些算法在真實(shí)案例中使用過(guò)嗎?
暫未,但是我們可以將開(kāi)發(fā)成果與政府部門(mén)共享,特別是法國(guó)公共財(cái)政總局的控制編程和數(shù)據(jù)分析辦公室(SJCF-1D)。該辦公室還接受了我們項(xiàng)目組的一名學(xué)生作為實(shí)習(xí)生。與政府密切合作的每一個(gè)機(jī)會(huì),我們都會(huì)把握珍惜。
05、算法的準(zhǔn)確度如何?
值得注意的是,算法的檢測(cè)準(zhǔn)確率(即檢測(cè)出欺詐案的實(shí)際正確率)和靈敏度(即檢測(cè)出的欺詐者占總?cè)后w的比率)之間,存在取舍關(guān)系。因此,算法的好壞以準(zhǔn)確率和靈敏度之間的折衷的度量來(lái)表示,專(zhuān)業(yè)術(shù)語(yǔ)是AUPRC,即“精確度—回歸曲線(xiàn)下的面積”。
對(duì)于靈敏度優(yōu)化的隨機(jī)森林,我們開(kāi)發(fā)的算法實(shí)現(xiàn)了高達(dá)0.851的AUPRC。這是一個(gè)非常好的結(jié)果,說(shuō)明使用人工智能檢測(cè)潛在欺詐具有良好的前景。
06、AI能全自主檢測(cè)稅務(wù)欺詐嗎?
不能。打擊稅務(wù)欺詐,不能把工作全盤(pán)交給簡(jiǎn)單的檢測(cè)算法。算法是用來(lái)配合人類(lèi)稅務(wù)審計(jì)員的團(tuán)隊(duì)檢測(cè)工作的。稅務(wù)欺詐監(jiān)管不僅是個(gè)技術(shù)問(wèn)題,必須由稅務(wù)審計(jì)員最終確認(rèn),在法官的監(jiān)督下,依法審查定奪,從而在程序上尊重納稅人權(quán)利。
分配給稅務(wù)審計(jì)員的案件,應(yīng)與其業(yè)務(wù)水平、工作量、熟悉的專(zhuān)業(yè)領(lǐng)域和稅法領(lǐng)域相符合。我們開(kāi)發(fā)的算法能向?qū)徲?jì)團(tuán)隊(duì)的負(fù)責(zé)人建議案件分配方式,然后由他們做出最終的決定。負(fù)責(zé)人也可以根據(jù)主觀(guān)標(biāo)準(zhǔn)酌情采納算法的建議。
欺詐檢測(cè)應(yīng)用程序還必須集成到相關(guān)部門(mén)的行政數(shù)字系統(tǒng)中。因此,除了常規(guī)的研究之外,我們還要考慮開(kāi)發(fā)出來(lái)的應(yīng)用程序如何與其他應(yīng)用互聯(lián)互通,以及程序的可維護(hù)性高低。當(dāng)然,也需要留出接口,以便未來(lái)集成更新、更強(qiáng)大的算法。
參考資料
1. https://www.insee.fr/fr/statistiques/6478533
2. https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf
3. Prolhac,J.,Gaie,C.“Providing an open framework to facilitate tax frauddetection”, International Journal of Computer Applications in Technology, In Publish, 2023, https://doi.org/10.1504/IJCAT.2023.10055494
4. Gaie,C.(2023).Struggling Against Tax Fraud, a Holistic Approach Using Artificial Intelligence. In:Gaie,C.,Mehta,M.(eds) Recent Advancesin Dataand Algorithms fore Government. Artificial Intelligence-Enhanced Soft ware and Systems Engineering, vol5. Springer, Cham. https://doi.org/10.1007/978–3031–22408-9_4
5. https://gitlab.com/jean.prolhac/detection-de-fraude/
6. Singh,A.,Narina,T.andAakanksha,S.(2016) “Areview of supervised machinelearning algorithms”, Proceedings of the 3rd International Conferenceon Computing for Sustainable Global Development (INDIACom), pp.1310–1315. https: //ieeexplore. ieee. org/ abstract/ document/7724478