1200字范文 > 数据分类方法装置计算机设备和可读存储介质与流程

数据分类方法装置计算机设备和可读存储介质与流程

时间：2024-03-03 07:05:24

本申请涉及数据处理技术领域，具体而言，涉及一种数据分类方法、装置、计算机设备和可读存储介质。

背景技术：

目前，在深度学习中的各种分类场景中，可以采用例如softmax的方式来输出各个分类结果的单一类别概率。然而，直接使用现有的数据分类方法并不能满足用户的所有需求，在一些特殊的情况下，使用现有的数据分类方法得出的分类结果并不准确。

有鉴于此，如何提供一种更为可靠的数据分类方案，是本领域技术人员需要解决的。

技术实现要素：

本申请实施例提供了一种数据分类方法、装置、计算机设备和可读存储介质。

本申请实施例可以这样实现：

第一方面，实施例提供一种数据分类方法，包括：

获取待处理数据，其中，所述待处理数据中包括多个有效数据单元；

根据所述有效数据单元，得到目标校正数据；

对所述待处理数据和目标校正数据进行数据归一化，以使所述目标校正数据对所述待处理数据进行校正，得到所述待处理数据的分类结果。

在可选的实施方式中，所述方法还包括对所述待处理数据的原始数据进行预处理的步骤，该步骤包括：

获取所述多个有效数据单元中的最大长度；

根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元；

合并所述有效数据单元和补零数据单元，得到所述待处理数据。

在可选的实施方式中，所述根据所述有效数据单元，得目标校正数据，包括：

根据所述有效数据单元，得到第一校正数据单元；

根据所述补零数据单元，得到第二校正数据单元；

合并所述第一校正数据单元和第二校正数据单元，得到所述目标校正数据。

在可选的实施方式中，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

其中，vi为待处理数据v中的第i个数据单元，si为待处理数据v中的第i个数据单元的softmax值，vj为待处理数据v中的第j个数据单元，maski为所述目标校正数据中对应待处理数据v中的第i个数据单元的校正数据单元，maskj为所述目标校正数据中对应待处理数据v中的第j个数据单元对应的校正数据单元；

当所述待处理数据v中的数据单元为所述有效数据单元时，所述mask为第一校正数据单元；

当所述待处理数据v中的数据单元为所述补零数据单元时，所述mask为第二校正数据单元。

在可选的实施方式中，根据所述有效数据单元，得到第一校正数据单元的步骤，包括：

当数据单元为所述有效数据单元时，得到赋值为1的所述第一校正数据单元；

根据所述补零数据单元，得到第二校正数据单元的步骤，包括：

当数据单元为所述补零数据单元时，得到赋值为0的所述第二校正数据单元。

在可选的实施方式中，所述待处理数据为多维数据，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

其中，为待处理数据a中的第i个数据单元，为待处理数据a中的第i个数据单元的softmax值，为待处理数据a中的第j个数据单元，为所述目标校正数据中对应待处理数据a中的第i个数据单元的校正数据单元，为所述目标校正数据中对应待处理数据a中的第j个数据单元对应的校正数据单元。

第二方面，实施例提供一种数据分类装置，包括：

获取模块，用于获取待处理数据，其中，所述待处理数据中包括多个有效数据单元；

计算模块，用于根据所述有效数据单元，得到目标校正数据；

分类模块，用于对所述待处理数据和目标校正数据进行数据归一化，以使所述目标校正数据对所述待处理数据进行校正，得到所述待处理数据的分类结果。

在可选的实施方式中，所述装置还包括处理模块，所述处理模块用于获取所述多个有效数据单元中的最大长度；根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元；合并所述有效数据单元和补零数据单元，得到所述待处理数据。

第三方面，实施例提供一种计算机设备，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行前述实施方式中任意一项所述的数据分类方法。

第四方面，实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行前述实施方式中任意一项所述的数据分类方法。

本申请实施例的有益效果包括，例如：

采用本申请实施例提供的数据分类方法、装置、计算机设备和可读存储介质，通过利用目标校正数据巧妙的对待处理数据进行校正，使得在归一化的过程中，待处理数中的有效数据单元能够被用于计算待处理数据的分类结果，而其他会影响计算结果的数据单元会被目标校正数据校正，不参与到计算过程中，能够使根据待处理数据计算得到的分类结果更加准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的数据分类方法的步骤流程示意图；

图2为本申请实施例提供的待处理数据的示意图；

图3为本申请实施例提供的目标校正数据的示意图；

图4为本申请实施例提供的自注意力计算模型示意图；

图5为本申请实施例提供的数据分类装置的结构示意框图；

图6为本申请实施例提供的计算机设备的结构示意框图。

图标：100-计算机设备；110-数据分类装置；1101-获取模块；1102-计算模块；1103-分类模块；1104-处理模块；111-存储器；112-处理器；113-通信单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

目前在进行数据分类时，大多是直接使用现有的分类模型对数据进行分类，并且会将输入的数据映射为0-1之前的实数，归一化使总和为1，使得数据的分类结果可以代表多分类的单一类别概率。然而直接使用现有的分类模型对数据进行分类并不能准确地获取数据的分类结果。其原因在于在深度学习中，尤其是在自然语言处理领域，深度模型网络面临的输入通常是长度变化的序列，由于深度学习的特性，通常采用批处理的方式处理数据，而由于待处理数据中各个数据单元的数据序列长度的不一致，导致了在进行计算的过程中，需要为序列长度相对短的数据单元进行填充以使各个数据单元的数据序列长度一致，而在填充的过程中，新增加的数据单元也会参与计算，而新增加的数据单元的加入，会影响待处理数据的数据分类结果的准确度。基于此，请参考图1，本申请实施例提供一种数据分类方法的示例，包括步骤s201至步骤s203。

步骤s201，获取待处理数据，其中，所述待处理数据中包括多个有效数据单元。

步骤s202，根据所述有效数据单元，得到目标校正数据。

步骤s203，对所述待处理数据和目标校正数据进行数据归一化，以使所述目标校正数据对所述待处理数据进行校正，得到所述待处理数据的分类结果。

在本申请实施例中，待处理数据可以是向量，也可以是其他形式的数据，为了提高计算效率，在进行数据的单一类别分类时，可以是多个数据同时进行处理，而由于多个数据之间由于数据长度、数据类型等存在差异，可以根据待处理数据中的有效数据单元，计算得到目标校正数据，在对待处理数据进行归一化的过程中，可以利用目标校正数据使得待处理数据中的多个数据被校正，以得到可靠的分类结果。

在此基础上，本申请实施例还提供一种对所述待处理数据的原始数据进行预处理的示例，可以通过以下步骤实现。

获取所述多个有效数据单元中的最大长度。

根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元。

合并所述有效数据单元和补零数据单元，得到所述待处理数据。

如前所述，待处理数据中可以包括多个有效数据单元，而各个有效数据单元的数据序列长度可以不一样，可以获取多个有效数据单元中数据序列长度最大的有效数据单元，可以得到最大长度，为了方便数据的处理，可以根据多个有效数据单元中的最大长度，对其他数据序列长度相对短的有效数据单元进行补零处理，以使多个有效数据的数据序列长度一致，方便后续进行归一化的操作。例如，请参照图2，待处理数据中可以包括“输入的通常是变长的序列”、“深度神经网络方法”和“自然语言处理”这三个有效数据单元，其中，“输入的通常是变长的序列”的数据序列长度为最大长度，可以根据“输入的通常是变长的序列”对“深度神经网络方法”和“自然语言处理”进行补零处理，对“深度神经网络方法”补上三个“0”，对“自然语言处理”补上五个“0”，以使“输入的通常是变长的序列”、“深度神经网络方法000”和“自然语言处理00000”的数据序列长度相同，然后根据多个有效数据单元和补零数据单元，合并得到待处理数据，以方便后续进行归一化的处理。在本申请实施例的其他实施方式中，还可以在设置预设补零数据，预设补零数据中包括多个预设补零数据单元，而预设补零数据单元的数量多于多个有效数据单元的数量，可以将多个有效数据单元填充预设补零数据单元中，将空余的预设补零数据单元作为补零数据单元，可以将有效数据单元和补零数据单元作为待处理数据。应当理解的是，在本申请实施例中，待处理数据的有效数据单元可以是数值、向量等，采用上述中文字符的方式仅为便于理解。

在此基础上，根据所述有效数据单元，得目标校正数据可以通过以下步骤实现。

根据所述有效数据单元，得到第一校正数据单元。

根据所述补零数据单元，得到第二校正数据单元。

合并所述第一校正数据单元和第二校正数据单元，得到所述目标校正数据。

可以通过有效数据单元，得到第一校正数据单元，通过补零数据单元，得到第二校正数据单元，其中，第一校正数据单元的位置与有效数据单元对应，第二校正数据的单元与补零数据单元对应，以使在后续归一化过程中，通过第一校正数据单元对有效数据单元进行校正，使得有效数据单元能够作为计算输出的分类结果的计算依据，通过第二校正数据单元对补零数据单元进行校正，使得补零数据单元在计算输出的分类结果时不对其造成影响。通过上述步骤，能够校正对计算结果的准确性有影响的补零数据单元，避免因为补零数据单元参与计算导致的分类结果不准确的问题。

在前述基础上，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

当所述待处理数据v中的数据单元为所述有效数据单元时，所述mask为第一校正数据单元。

当所述待处理数据v中的数据单元为所述补零数据单元时，所述mask为第二校正数据单元。

可以基于softmax这种分类方法来进行数据的分类，具体的可以参照如下公式：

其中，当所述待处理数据v中的数据单元为所述有效数据单元vn时，所述mask为第一校正数据单元当所述待处理数据v中的数据单元为补零数据单元padn时，所述mask为第二校正数据单元应当理解的是，第一校正数据单元的位置与有效数据单元的位置对应，第二数据单元的位置与补零数据单元的位置对应，在计算时，可以采取相乘的计算形式。

在此基础上，本申请实施例还提供一种根据所述有效数据单元，得到第一校正数据单元的示例，可以通过以下步骤实现。

当数据单元为所述有效数据单元时，得到赋值为1的所述第一校正数据单元。

在此基础上，本申请实施例还提供一种根据所述补零数据单元，得到第二校正数据单元的示例，可以通过以下步骤实现。

当数据单元为所述补零数据单元时，得到赋值为0的所述第二校正数据单元。

可以将第一校正数据单元赋值为1，在基于softmax进行计算时，有效数据单元vn可以理解为被添加了系数“1”，在计算过程中并不会对计算得到的数据分类结果造成影响，而第二校正数据单元可以赋值为0，补零数据单元padn可以理解为被添加了系数“0”，在计算过程中，补零数据单元的计算结果都会变为“0”，因此在后续进行归一化的过程中，不会对待处理数据的分类结果造成任何影响，以此来获取更为准确的数据分类结果。根据有效数据单元vn得到的第一校正数据单元和根据补零数据单元padn得到的第二校正数据单元组成的目标校正数据如图3所示，可以对比参照图2，可以得到待处理数据中的有效数据单元和补零数据单元与目标校正数据中的第一校正数据单元和第二校正数据单元是对应。

在现有技术中，可以将补零数据单元padn设置为“-∞”，根据softmax中的公式，也能降低补零数据单元padn对最终分类结果的影响，具体的，在softmax原本的公式中，趋近于0。然而，在实际应用中，是无法输入“-∞”的，必须输入一个数字，因此大多会输入一个很小的数字来代替“-∞”(例如“-9999”)，而输入的数字后，也会得到一个很小的数，而在有效数据单元vn的在公式中的的计算结果的值与e-9999的值恰好接近的话，那么对于最终输出的数据分类结果的准确性也会造成影响。基于此，采用本申请实施例提供的方案，根据第二校正补零数据单元对补零单元进行校正，能够完全避免对结果造成影响的补零数据单元padn参与计算，同时不会对决定结果的有效数据单元vn造成影响，提高了计算得到的数据分类结果的准确率。

通过上述的数据分类方法，可以在进行人脸识别的图像中，获得更为准确的分类结果，例如，待处理数据可以是包括人脸图像的待处理图像，用户可以从待处理图像中获取人脸图像，可以通过本申请实施例提供的数据分类方法对待处理图像进行人脸图像的单一类别分类。有效数据单元可以为人脸图像，补零数据单元可以根据人脸图像与其他子图像获取，然后代入前述公式便可以计算得到分类结果，即各个子图像为人脸图像的概率。

采用本实施提供的数据分类方法，能够基于softmax精确地根据有效数据单元计算得出待处理数据的分类结果，消除在神经网络中因补零单元产生的影响。且在计算过程中并没有额外增加计算量，计算过程简单，可实现性高。

除了前述处理二维数据之外，本申请实施例还提供一种处理多维数据的示例，所述待处理数据为多维数据，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

在前述的方案中，待处理数据可以是向量，可以由有效数据单元和补零数据单元组成，在本实施的其他实施方式中，待处理数据还可以是多维数据，待处理数据包括多个有效数据单元，多个有效数据单元分布在多个维度上，可以根据分布在多个维度上的多个有效数据单元获得各个维度上的补零数据单元，然后如前所述得到用于校正有效数据单元的第一校正数据单元和用于校正补零数据单元的第二校正数据单元，进而可以根据公式计算得到待处理数据的多维分类结果。

除了上述应用在人脸图像的识别中，对于其他任意位置的非关注信息，都可以采用本申请实施例提供的数据分类方法。例如，可以参照图4，对于自注意力机制，例如transformer，bert等模型，其处理过程可以是：

获取待处理数据，统一待处理数据的数据序列长度(即前述预处理的过程)，得到输入inputn×l，其中n为待处理数据的数据量，l为待处理数据的数据序列长度。

输入inputn×l通过embedding层得到每个字的向量表示，输出embedding张量wordvecn×l×e，其中e为embedding的维度。

通过如下公式进行自注意力计算：

q＝k＝v＝wordvecn×l×e

其中，q为自注意力的查询query，k为自注意力的关键字key，v为自注意力的值value，attention(k,q,v)为自注意力的计算结果，t为转置矩阵，d为自注意力的关键字key的维度。可以代入本实施例提供的公式中，通过前述方式进行基于softmax的计算，能够提高最终自注意力计算结果的准确性。

本申请实施例提供一种数据分类装置110的示例，如图5所示，数据分类装置110包括：

获取模块1101，用于获取待处理数据，其中，所述待处理数据中包括多个有效数据单元。

计算模块1102，用于根据所述有效数据单元，得到目标校正数据。

分类模块1103，用于对所述待处理数据和目标校正数据进行数据归一化，以使所述目标校正数据对所述待处理数据进行校正，得到所述待处理数据的分类结果。

进一步地，所述装置还包括处理模块1104，所述处理模块1104用于获取所述多个有效数据单元中的最大长度；根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元；合并所述有效数据单元和补零数据单元，得到所述待处理数据。

在本申请实施例中，数据分类装置110的实现原理可以参考前述数据分类方法的实现原理，在此不再赘述。

本申请实施例提供一种计算机设备100，所述计算机设备100包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备100执行前述的数据分类方法。如图6所示，图6为本申请实施例提供的计算机设备100的结构框图。所述计算机设备100包括数据分类装置110、存储器111、处理器112及通信单元113。

所述存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述数据分类装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述计算机设备100的操作系统(operatingsystem，os)中的软件功能模块。所述处理器112用于执行所述存储器111中存储的可执行模块，例如所述数据分类装置110所包括的软件功能模块及计算机程序等。

其中，所述存储器111可以是，但不限于，随机存取存储器(randomaccessmemory，ram)，只读存储器(readonlymemory，rom)，可编程只读存储器(programmableread-onlymemory，prom)，可擦除只读存储器(erasableprogrammableread-onlymemory，eprom)，电可擦除只读存储器(electricerasableprogrammableread-onlymemory，eeprom)等。

本申请实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备100执行前述的数据分类方法。

综上所述，本申请实施例提供了一种数据分类方法、装置、计算机设备和可读存储介质，通过利用目标校正数据巧妙的对待处理数据进行校正，能够使根据待处理数据计算得到的分类结果更加可靠。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

技术特征：

1.一种数据分类方法，其特征在于，包括：

获取待处理数据，其中，所述待处理数据中包括多个有效数据单元；

根据所述有效数据单元，得到目标校正数据；

对所述待处理数据和目标校正数据进行数据归一化，以使所述目标校正数据对所述待处理数据进行校正，得到所述待处理数据的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括对所述待处理数据的原始数据进行预处理的步骤，该步骤包括：

获取所述多个有效数据单元中的最大长度；

根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元；

合并所述有效数据单元和补零数据单元，得到所述待处理数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述有效数据单元，得目标校正数据，包括：

根据所述有效数据单元，得到第一校正数据单元；

根据所述补零数据单元，得到第二校正数据单元；

合并所述第一校正数据单元和第二校正数据单元，得到所述目标校正数据。

4.根据权利要求3所述的方法，其特征在于，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

当所述待处理数据v中的数据单元为所述有效数据单元时，所述mask为第一校正数据单元；

当所述待处理数据v中的数据单元为所述补零数据单元时，所述mask为第二校正数据单元。

5.根据权利要求3所述的方法，其特征在于，根据所述有效数据单元，得到第一校正数据单元的步骤，包括：

当数据单元为所述有效数据单元时，得到赋值为1的所述第一校正数据单元；

根据所述补零数据单元，得到第二校正数据单元的步骤，包括：

当数据单元为所述补零数据单元时，得到赋值为0的所述第二校正数据单元。

6.根据权利要求3所述的方法，其特征在于，所述待处理数据为多维数据，对所述待处理数据和目标校正数据进行数据归一化的过程通过以下公式计算得到：

7.一种数据分类装置，其特征在于，包括：

获取模块，用于获取待处理数据，其中，所述待处理数据中包括多个有效数据单元；

计算模块，用于根据所述有效数据单元，得到目标校正数据；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括处理模块，所述处理模块用于获取所述多个有效数据单元中的最大长度；根据所述最大长度，对所述待处理数据的原始数据进行补零处理，得到补零数据单元；合并所述有效数据单元和补零数据单元，得到所述待处理数据。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行权利要求1-6中任意一项所述的数据分类方法。

10.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-6中任意一项所述的数据分类方法。

技术总结

本申请实施例涉及数据处理技术领域，提供了一种数据分类方法、装置、计算机设备和可读存储介质。数据分类方法包括：获取待处理数据，其中，待处理数据中包括多个有效数据单元；根据有效数据单元，得到目标校正数据；对待处理数据和目标校正数据进行数据归一化，以使目标校正数据对待处理数据进行校正，得到待处理数据的分类结果，能够准确获取待处理数据的分类结果。

技术研发人员：于广泽

受保护的技术使用者：精硕科技(北京)股份有限公司

技术研发日：.11.13

技术公布日：.02.28

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。