今天(4月2日)是第十七个世界孤独症日。孤独症儿童被称为“星星的孩子”。
去年年底,特殊教育学校——杭州市杨绫子学校,在职高部开设了一个孤独症实验班。其中,高一、高二10名“星星的孩子”,成为这个班开设的数据标注课的首批学员,经过一段时间的学习,毕业后他们或将有能力进入相关公司,独立就业,成为文员甚至是数据标注员。
尽管目前培养路径、教学内容仍处在“摸着石头过河”的阶段,但学生们的表现让专业老师袁圆很开心,“在这件事上,孤独症的孩子有种‘天赋’。”
和其他正全神贯注地盯着电脑的孩子不同,学生小马有些烦躁,他站起身,把教室门关上,确认似的点了点头,又回到电脑前继续点击鼠标。
“孤独症的孩子比较喜欢相对安全的环境。”袁圆是学校的孤独症康复老师,上学期她接到了新任务,要全身心投入到“数据标注”这个新课程中。“‘数据’‘标注’拆开来每个词都能懂,但组合在一起,这件事之前听都没听说过。”袁圆说。
数据标注是一项新兴行业,即通过人工分类、拉框、注释、标记等方式,为图片、音频打上标签,把未处理的数据加工成机器可识别的信息。它的另一个名称叫“人工智能训练师”,则更为形象。比如要让机器学会人脸识别,需要数据标注员用专业软件,在包含人脸的图片中框出人脸并输入相应的标签,或者对五官画框做标注,告诉机器这个框里的是“鼻子”,那个框里叫“眼睛”。大量这类经过标注的数据被人工智能公司用来训练算法模型,并运用到交通管理、智慧医疗、新零售、自动驾驶等领域。简单来说,如果人工智能是牙牙学语的婴儿,数据标注员就是教其认字的启蒙老师。
自人工智能训练师于2020年纳入国家职业分类目录,《人工智能训练师国家职业技能标准(2021年版)》将数据标注员作为其子工种之一,从一个侧面说明了数据标注在人工智能场景应用中的重要性。
“老师快来看,我做好了!”小马身旁的孩子转过头,袁圆俯下身查看,屏幕上,黄色、红色、绿色的点,精准覆盖在表格的每个节点上,“真棒!老师给你发两个‘橘子’!”在杨绫子学校,“橘子”的作用,类似“小红花”。
目前,给其他学校学生作业统计表做标注,是这10个孩子的主要学习内容:在软件上,把表格每一行每一列的交点标注出来,告诉人工智能,这是一张表格,表格里对应不同学生的作业完成情况。这些标注好的图片交给人工智能后,他才能够识别学生、统计结果。
起步很难,袁圆需要从软件在电脑的哪个位置教起。给孩子构建表格的概念也花了很大工夫,她要拿着彩笔在孩子面前一遍遍演示,“这个是表格的‘角点’,用红色点出来,绿色标出来的叫‘T点’,黄色是‘交叉点’,孩子们只要记住这三种颜色就行。”袁圆说,认知能力稍好的孩子,一学便会。
郭斌曾担任一个公益项目的负责人,在杨绫子学校推行公益时,他发现孤独症孩子身上有些很宝贵的特性,“老师告诉我,他们适合做单调而重复的事。”
同时,他从前同事口中了解过一个现状:人工智能公司需要做大量数据标注的工作,目前数据标注对从业者的学历要求不高,他们只需经过简单的职前培训便可走上岗位,但因工作单调、刻板,人员流失很严重。他目前的创业公司里,也有数据标注的需求。
“我们是不是可以在杨绫子试一下?”听了他的建议,杨绫子学校校长俞林亚便带着他和专业老师,立刻开始谋划这件全国特教学校都未做过的事。
2023年底,袁圆接过学校的这项教学任务,经过郭斌所在公司的培训,初步编写好一套教材、课件,开始试水“数据标注课”。
然而孤独症学生到底能不能做好数据标注?这个问题在去年12月开课后仍困扰着郭斌。不久前,他带着同事来学校看孩子们上课,课堂里他问同事:“一个正常人标注这样一批表格要多久?”“二三十分钟吧。”他转过头来问袁圆,孩子们花了多长时间,“可以达到40分钟。”“我当时就觉得,靠谱了!”
现在班里的孩子在精确度上还稍有参差,方法也不同,但他们做得都很认真,以至于袁圆要不时提醒他们,不要做得太“入迷”,隔一段时间要望一望远处,缓解视觉疲劳。
袁圆的管理压力也不大,“孤独症孩子靠视觉建立认知,所以做标注很有优势,加上他们喜欢寻求安全、确定,一个点一个点必须点好点齐,所以特别认真。”
从入门到入行数据标注员,孩子们还有大量难题要面对,比如脱离了班级,孤独症孩子在数据标注团队中如何适应,但郭斌所在的公司愿意敞开大门,让孩子们先来试一试。目前,孩子们正在穿插着学习语音的文字识别纠错,郭斌正在为学校提供一些语音材料,“这些都是我们团队以及数据标注行业在做的业务,也是在帮助这些孩子提前适应。”
在听过郭斌以及一些相关从业者的讲述后,把数据标注这门“课程”扩展成“专业”的事,在俞林亚脑海里慢慢成形。
一所学校新设专业前的调研,需要评估职位的供需关系和市场前景。相关机构曾预计2024年数据标注市场规模将达130亿—180亿元,一年后市场规模将达200亿—300亿元。猎聘大数据研究院近日发布的《2023年度就业趋势数据报告》显示,当ChatGPT火爆全球后,数据标注人员需求量大幅增长,2023年较2022年增长34.43%。去年,星尘数据、标贝科技、整数智能等行业企业均获新一轮融资。阿里巴巴、百度、京东、字节跳动、科大讯飞等头部企业也与地方持续深化合作,加快推动数据标注产业基地的建设,“一些政府部门需要标注的数据量非常多,对数据标注员的需求量很大。”俞林亚还了解到,在一些公司,这个职位还被冠以“工程师”之名,月薪过万。
杨绫子学校职高部的学生,三年能学6门专业,可供选择的专业里,诸如超市服务、餐厅服务等服务性专业占多数,面对这门新专业,俞林亚感慨,“当发现孩子们能从事这类工作时,我们是欣喜的。在论证中,将其从课程变成专业的可行性一点一点增加。但我们也明白,过程是艰辛的,比如国内还没有类似的专业,我们该怎么建章立制,他们未来实习能够去哪。”
很难但也很有意义。在俞林亚的眼中,这件事对特教学校办学模式,乃至残疾人事业都有一定的积极影响,“现在人们往往关注孤独症的小龄康复,义务教育和高中、成人阶段的康复,教育层面研究很少,也难有突破,所以到高中阶段,我们更多考量孩子如何与社会接轨,如何体现社会价值。”而孤独症孩子真正走入社会成功就业的案例,并不多见,“我们更看重的,是孩子们拥有一份真正的职业,感受到他的价值和尊严。”
价值恰恰是从孤独症孩子的优势上来的,但长久以来,一个思维定势影响着大众:如果把孤独症孩子和普通孩子放在一条跑道上,孤独症孩子一定是落在后头的那个,但俞林亚看到了这件事的另一面,“那如果对比孤独症孩子的优势呢?数据标注的结构化和视觉化,正巧就是他们的优势。他们可以用这种优势,从事有尊严的工作,让他们更有社会价值。”
俞林亚提到了在网上看到的一个例子:一个国外科技公司,14个职员中,有10人是孤独症谱系的患者,而该公司的主要业务就是做AI的数据标注。而该公司CEO坦言,之所以如此选择职员,看重的就是这些人做事的关注度和耐枯燥力。
孩子们对自己能当“工程师”兴趣浓厚。家长们对这件事,也颇为支持。这不仅关乎教育,还关乎家庭、社会与尊严。
学员小杨(化名)的动手能力很强,是做数据标注的“模范生”,在家里做数据标注作业时,他的父亲会在一旁陪着他。“上周末他做了一个多小时,很少走神。”杨爸欣慰地说,“换做过去,小杨在家里做事的劲头,远没有现在足。”杨爸的工作内容也会接触到数据标注,在这件事上,父子俩难得有了共鸣。
目前,杨绫子学校已经把开设数据标注专业的申请材料报送至浙江省教育厅。未来或有更多“星星的孩子”,独立走入职场,成为人工智能的“启蒙老师”。