1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 数据挖掘场景-发票虚开

数据挖掘场景-发票虚开

时间:2021-02-23 15:13:33

相关推荐

数据挖掘场景-发票虚开

—对基本业务做个简单介绍,后续会补充税务这一块的详细内容

一.业务分析

1.什么是增值税专用发票虚开

(1)没有货物购销或者没有提供或接受应税劳务而为他人、为自己、让他人为自己、介绍他人开具增值税专用发票;

(2)有货物购销或者提供或接受了应税劳务但为他人、为自己、让他人为自己、介绍他人开具数量或者金额不实的增值税专用发票;

(3)进行了实际经营活动,但让他人为自己代开增值税专用发票。

2.业务分析

纳税人风险画像通过数据模型分析、机器学习算法,以批量发现如具有虚开增值税发票嫌疑的税收风险企业。通过定性和定量的标签刻画税收风险纳税人群体的显著特征,形成风险画像,辅助税务人员对税收风险纳税人的发现与识别。提供标签模型管理、风险清册,支持群体画像、单体画像等多类型画像模式。

通过数据模型分析、机器学习算法,综合利用发票关系、企业三员/四员交叉任职关系等其他关系的分析研判整个发票虚开团伙,以批量发现具有虚开增值税发票嫌疑的异常企业。通过定性和定量的标签刻画虚开增值税发票嫌疑纳税人群体的显著特征,辅助税务人员对虚开增值税发票嫌疑纳税人的发现与识别。

三.增值税专用发票虚开的种类和特点

我这里主要介绍我分析过的几种:

1.走逃型虚开

走逃型虚开,又被称为“暴力虚开”,是指,行为人完成虚开后,并不申报税款,或者申报而并不缴纳税款。这类虚开的开票方通常打游击战,打一枪换一个地方。

这类虚开的特点是:行为人通常注册多家公司,且通常利用他人的身份证进行注册,之后密集地开展虚开活动。

2.票货分离型虚开

票货分离型虚开,通常是指,对于虚开发票上的交易,开票方存在对应的真实交易,而真实的购买方不需要发票。而无论是否开具发票,开票方都需申报纳税,所以开票方将该笔真实交易对应的发票转开给其他需票人。这种虚开行为通过李代桃僵、偷梁换柱的方式,逃避对虚开的发票的税款申报,使下游予以抵扣进项税额或(和)税前扣除。

票货分离型虚开的典型模式是:A公司将货物销售给李四,李四不需要发票,于是A公司将发票开具给B公司。用生活中的一个热门小品举例:我去饭店吃饭,我点了一碗炒面,然后我没吃又和店家换了一碗汤面,当店家让我付钱的时候,我说我用炒面换的汤面,炒面我又没吃所以不用付钱。就这样我是不是就能白吃以为面啦?(哈哈,举个例子)

3.税收优惠型虚开

所谓税收优惠型的虚开,是指开票方利用税收优惠政策,或者类似税收优惠政策的特殊政策(比如,核定征税、财政补贴、保税制、农产品收购发票等),实施的虚开行为。这种虚开行为的特点是,行为人通过税收优惠政策或者类似税收优惠政策的特殊政策,就虚开的发票不必足额申报缴纳税款。

四.增值税专用发票虚开的特征有哪些

从虚开增值税专用发票的种类、特点以及对应的数据,我们可以列出以下几种特征:

(1)开票时经常换单位名字,多为商贸企业;—(存在企业改名字)

(2)发票开具后大量作废等;—(还涉及其他)

(3)公司的税务大部分发票顶额开具,发票开具金额满额度高于90%;—(现在可能随着管理力度加强,顶额满额度在下降)

(4)登记信息雷同,企业法人、财务人员、办税人员多为同一人;

(5)商贸公司购进与销售货物名称严重背离的;

(6)发票连续多次增量增版;

(7)存在大量红字普通发票、随意开具红字发票来冲减以往年度的篮字发票;—(是否当月,不可跨月。是个负数。)

(8)资金或存货周转次数平均每月超过五次;

(9)一定时间内开具增值税发票金额突增;

(10)成立时间短,成立时间多在半年以内,但营业规模迅速扩大;

(11)登记地址多为住宅小区某楼层某室,明显不适合对外经营;

(12)法人户籍非本地、法人设立异常集中;

(13)生产能耗如电费情况与销售情况严重不符的;—(待定)

(14)公司多为认缴制或者收资本多为较低金额;

(15)多户企业登记法人为同一人,且税务登记信息中所留的手机号码也为同一个手机号码;

(16)连续同时办理税务登记或一般纳税人认定的多家企业;

(17)公司所属行业属于虚开高危行业;

(18)法人、财务负责人曾担任非正常户的负责人或财务负责人、且法人与财务负责人交叉担任;

(19)劳务票开的很多;—(要结合个税缴纳情况去判定)

(20)夜间开票;—(现在犯罪分子也在“进步”,他们也在使自己更像正常企业)

五.算法模型搭建

在各种偷税漏税的案例中,可以看到最明显、最易查的是货物发票这一块的进销不匹配。因此这里对这个场景进行算法模型的构建。

(1)业务理解:

对于一个正常的企业,其会进行经营生产活动,因此会存在进销商品记录,即一个企业既会购入符合自己经营范围的相关商品,即进项集合,也会向市场销售符合其经营范畴的相关商品,即销项集合。那么这么看,一个正常的企业的进项集合和销项集合是具有相关性的。如果某个企业的进项和销项没有相关性或者相关性比较小,那么这个企业很有可能异常,即非正常经营,那么这个企业所开具的发票也就具有虚开性。比如在税务中,一些虚开发票的企业和变票企业,会使用大量的减免税的商品进项增值税专用发票,或者为下游开据这些发票来进行抵扣而进行偷税漏税的违法行为;又如在出口退税企业中,根据其购买的商品,其应该出口的商品与其申报的商品的税率不一样,从而进行骗退免税违法活动。

(2)算法选择:

Word2Vec算法对企业进销商品内容映射,构建语义词向量,在此基础上采用改进相似00度算法探索发现异常变票企业。这个算法能够对企业的进销商品集合的相关性进行建模,通过对企业进行评分,来分析该企业是否合理。在这个打分的过程中,一个企业的得分越高,那么这个企业也就越正常;反之,则越反常。进销商品集合是由其购买和销售的商品和金额构成的,那么目前来看,商品就是这两个集合的最小单元,因此应该要做的是从商品和商品之间的相关度做起,然后基于商品的相关度,得到进销之间的相关度。

(3)分析:

一般来说,正常的企业进销的商品之间是具有较大的联系的。那么基于这样的假设,使用Word2Vec工具使用一个n维的实数向量来对每一个商品进行表征,且满足向量之间的相关性能够对商品之间的相关性进行表征。而原始的Word2Vec是用来处理自然语言的,分析的是词之间的相关性。那么这里我们假设把每个商品看作是一个词,然后去构造商品序列。

这里采用将一个企业看作一条语句,企业的进销商品共同来构造商品序列。每个企业的序列构造完成之后,输给Word2Vec,输出每个商品的n维向量v。最后,使用cosine相关性度量公式对两个不同商品p,q之间的相关性进行度量。如下:

商品之间的相关性大小确定之后,便可以基于商品之间的相关性,并融合金额大小来对每一个企业的进销商品集合之间的相关性进行度量。设G为企业的进项集合,X为该企业的销项集合。构造G、X对,对于每一个p属于G的商品,从X中找到相似度最大的q,构成GX1={<p ,q>}对集合;并对于每一个q属于X的商品,从G中找到相似度最大的p,构成GX2={<p,q>};最后取GX1与GX2的并集,得到GX。最后G与X度量公式如下:

其中,sim(p,q)表示进项中的商品p向量与销项商品q向量之间的相关性值,min表示进项中商品p的购买金额与销项中商品q的销售金额之间较小的金额,max则是这两个金额之间的较大金额。

由此便得到了每个企业进销商品集合之间的相关度,并使用该相关度来判断该企业是否异常。如果相关度sim(G,X)小于一个给定的阈值,那么认为该企业异常,否则正常。也可以使用该相关度来作为每个企业正常度。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。