
Ai创想实验室是专门为中小学AI教育开发的教学平台包含了值计算、图像分类、音频分类、文本分类、数值回归、图像回归、图像分类回归、平衡杆、手写数字生成、文本生成等中小学人工智能学习类项目。无需编程基础、无需添加硬件、无需购买算力、无隐私担忧、无需师资培训即可进行教学实践。文本分类任务是一项有趣的任务模型能够学会对自然语言描述的事物进行分类。例如学会诗歌体裁分类、产品评价归类、好评差评、心理活动分析等通常这类任务需要较大的模型和大量的文本来进行训练所以在进行该实验时更应充分考虑样本质量和数量带来的影响并且中文和英文样本训练难度有显著差异。从技术的角度来说文本分类任务通常需要使用Embedding层而文本生成任务中即使简单的模型也需要使用Embedding层和LSTM层。为使这样的模型能够在浏览器内能够正常训练开发过程中进行了若干创造性劳动、使用了诸多技术方法——在Ai创想实验室内你可以正常从零训练模型且训练任意多轮次也不会出现诸如WebGL崩溃等问题。一、模型搭建在这里我们依然以低配硬件使用核显4G内存为标准构建模型该模型可以在几分钟到十几分钟内被训练达到教学要求。其中包括使用一个5000大小的词汇表也就是说我们可以使用真实数据而无需过度清洗输出使用了2个分类好评和差评。二、数据构建一般来说我们保持默认设置即可需要注意的是对于长文本样本训练起来更容易而对于短文本样本需要有足够的数量才能让模型学会某些否定词。例如我们使用外卖评价想让模型学会“好吃”、“好难吃”之间的区别就要有多个类似的短评价和使用较多轮次的训练。三、分词设置和训练分词设置在文本类模型中非常重要我们使用一个通用的分词器来降低数据清洗和训练数据准备的难度该分词器可以用于中英文混合样本多数情况下保持默认即可修改时应仔细阅读说明。点击“开始训练”即可进行训练从训练日志可以看到使用4000个样本来训练前述模型时在核显上仅需几十秒即可训练一轮几轮之后就可以看到显著效果。如果对训练效果不满意可以点击“继续训练”来继续训练模型。在开始训练前训练器会验证您的硬件承受能力上限该上限被确定的较为激进。如果在训练过程中浏览器等窗口略感卡顿可以打开任务管理器查看GPU占用情况若过高或卡顿过强可以尝试减小批次大小。如果你使用独显且性能强劲可以尝试把批次设置更大一些这样训练时长会有所减少。四、预测导出已训练模型然后将其导入到预测器输入文本即可预测使用几千的数据进行训练不会得到非常准确的模型。如果你希望模型达到更高的准确率那么首先要准备更多的训练样本并尝试更多的轮次。当然你也可以更具自身硬件的能力尝试增大模型。Ai创想实验室已申请多项知识产权保护但文本分类训练器涉及大量核心技术机密且暂无公开计划。所以在演示版本中训练器的核心算法已被删除。但在演示版中你仍可以体验整个过程包括使用预训练的模型进行预测。在AI创想实验室中我们无需编程基础不用学习框架不用配置环境无需购买费用高昂的显卡更不用为云端算力付费使用当前已有的各种硬件仅有核显的个人、办公、机房电脑希沃白板等都能达到理想的教学效果。操作简单但AI核心知识样样俱全无需师资培训就可以进行教学且能取得理想的教学效果。如果加入试点或合作方那么只需要一台局域网服务器无需显卡、服务器不用供算力即可一次投入永久使用全部项目和功能通过后台管理一分钟即可创建一个本地化、校本化的项目实例。