在线教育
行业观察
在线教育的创新本质上都在解决“如何规模化优质供给”的问题:
- Coursera 用录像方式实现全球 Top 级大学经典课程这一稀缺教育资源的规模化
- 国内市场中,Vipkid 创新在于用差异化的“北美教师”供给和线上授课的方式降低了少儿外教的门槛。
模式分析
从成本和教学体验维度来衡量,把现有的学习解决方案进行简单分类:
- 1)基于录播课的异步学习公开资源和工具(如 Youtube 视频、google 翻译、慕课等免费录播课);
- 2)工具类服务,将学习中的某类需求或学习过程抽象为标准化产品,例如 Chegg、Duolingo 等;
- 3)真人老师的实时授课,包括线上、线下的大班课和 1对1 私教。
综合来看,对于学习者来说
- 体验最好的一定是 1 对 1 教学服务,但成本最高。
随着 LLM 和其他 AI 技术的成熟,用 AI 来复刻真人课堂环境、甚至更进一步模拟过去只有真人教师才能提供的实时互动成为可能,即 AI Tutor
本质上是用技术规模化教师供给,低成本的实现真人授课。
教育大模型
AI辅助家教,20美元/月定制虚拟老师家庭还是教育的园地,但很多父母难以对孩子进行很好的辅导,如果每个家里有一个定制虚拟老师会不是让情况变得不一样?
国内知名教育机构
- 5月5日,
学而思
传出正自研数学大模型MathGPT
,将于年内推出基于该自研大模型的产品级应用; - 同日,
网易有道
官方发布了基于“子曰
”大模型开发的AI口语老师剧透视频; - 5月6日,
科大讯飞
发布了认知大模型成果,并演示了“大模型+AI学习机
”的功能,包括批改作文、模拟口语老师实景对话等。
AI Tutor
现阶段 AI Tutor
- 最典型的产品形态就是“解释错题”,例如,Duolingo Max 可以为用户讲解错题的原因、给出具体指导,还可以让用户和 AI 进行 Roleplay 对话练习语言。
- 此外,还有产品借助日益成熟的 AI 语音识别、Avatar 技术提供“AI 教师”功能,以一种更沉浸式、拟人化方式实现 AI Tutor 功能,OpenAI 投资的 Speak 就是其中的典型代表。
公司 | LLM产品 | 功能 |
---|---|---|
Duolingo | Duolingo Max | 功能包括Explain my answer,roleplay。 |
Preply | 推出一款人工智能助手 | 帮助老师创建练习、解释语法、与用户对话。 |
Chegg | Cheggmate与ScaleAl合作,利用Chegg的专有数据,训练自己的LLMS | 作为对话式学习伴侣提高学生作业的准确率和效率。 |
Khan Academy | Khanmigo | 为学校打造的聊天机器人导师,模拟一对一的人类辅导。 |
Quizlet | Q-chat | 利用Quizlet教育内容库,根据学习材料向学生提问。 |
虽然现阶段 AI Tutor 的效果和传统 1 对 1 私教仍存在一些差距,但已经很大幅度改变用户在学习过程中的互动体验,对话式问题解答功能的引入使得学习不再是单向的知识传递,而更像是与一个智能伙伴进行深入互动的过程。
免费方案包括可以进行语音交互的 ChatGPT、Pi、Character AI 中的语言老师、Call Annie 等。
Quizlet
- 国外教育应用平台
Quizlet
率先采用了ChatGPT。试想一下,如果所有孩子都有一个一对一家教将会怎样?- 2月28日,Quizlet推出了一款基于ChatGPT的家教软件,名为“
Q-Chat
”。不同于许多企业希望ChatGPT来帮其回答问题,Q-Chat通过有趣的聊天体验,根据相关学习材料提出可选问题,吸引学生。其从Quizlet的大量教育内容库中提取知识,能够测试学生学习情况,提出深入的问题,帮助学生学习语言,鼓励学生养成健康的学习习惯。 - Q-Chat的聊天教学界面:演示视频
- 2月28日,Quizlet推出了一款基于ChatGPT的家教软件,名为“
可汗:Khanmigo
美国可汗实验学校的Khanmigo基于GPT-4等模型开发了个性化学习工具,比如“辅导我”模式和针对不同科目的测验模块。
- 首席学习官Kristen DiCerbo(克里斯汀·迪塞尔博)说:“该模型(GPT-4)对于K12主题的问题回答最准确,但对于小众主题则不太准确。”享受这一服务需要每月支付至少20美元。
讯飞AI学习机
【2023-8-25】首个大模型教育产品开箱:“最聪明”国产大模型加持的学习机,质变了吗?
随着星火大模型的几次迭代,讯飞AI学习机T20系列、Lumie10系列率先完成了7大功能升级 —— 英语口语陪练、中英作文批改、数学互动辅学、百科自由问答、亲子教育助手;主打就是一个1V1的陪伴
以及最近星火V2.0多模态和代码能力的更新,学习机也相应搭载了智能编程助手、创意绘画伙伴。
网易:Hi Echo 口语私教
【2023-7-26】有道宣布推出国内首个教育领域垂直大模型“子曰
”,同时发布基于“子曰”大模型研发的6款应用——“LLM翻译
”、“虚拟人口语教练
”、“AI作文指导
”、“语法精讲”、“AIBox”以及“文档问答”。
网易推出全球首个虚拟人口语私教 Hi Echo
用户可通过微信小程序或应用市场搜索“Hi Echo”体验。结束与虚拟人的对话之后,用户可查看结果报告,提供发音、语法、表达建议。
多邻国(Duolingo)
美国教育平台多邻国(Duolingo)上的新Roleplay机器人可以与法语和西班牙语学习者聊天,纠正他们的错误并提出建议以提高他们的词汇量。
- 公司对大语言模型进行了二次开发,使其以教师身份出现,应用发现没有两次对话是相同的,教师会随着学习者的进步变得更高级。
- 这一服务每月收费30美元或每年168美元。
多邻国Roleplay机器人服务界面
Duolingo 从创立就在探索 AI 和语言学习的结合,同样也提前试用了 GPT-4 ,并在此基础上推出了 AI Tutor 功能,即 Duolingo Max。Duolingo 最大的优势在于其庞大的用户基础及完整且丰富的产品设计。
Duolingo Max 提供的 “Explain My Answer”和“Roleplay”功能与 Speak 极为相似,均为模拟真实对话场景,并且针对用户的错误给出即时反馈。从 Reddit 上用户的评价综合来看,Duolingo Max 获得了一定积极反馈,用户评论主要集中在提供更多互动和体验个性化、实时解决问题、提高口语能力等,但也有不少用户认为价格太高、超出预算、担心 AI 的准确性。
目前 Duolingo Max 尚未在全球用户中全量开放,所以对于其他早期团队而言,也许存在一定窗口期。
Speak
【2023-12-15】Speak:用LLM重塑语言学习,再造一个Duolingo
Speak 是由 Connor Zwick 和 Andrew Hsu 在 2016 年在旧金山创立的一款语言学习产品,在其创立早期就积极探索 用 AI 提升语言学习的效率和体验。
Speak 早期主要专注于韩国的英语学习市场。目前 Speak 在韩国苹果商店 “教育应用”中排第一名。
- 2023 年之前,Speak 重点放在课程研发,累计开设了近 1500 万节英语课程。
- 2023 年开始国际扩张、多语种扩张,目前产品已在日本、德国、法国、巴西、墨西哥等 20 多个国家上线。
2022 年, Speak 获得 OpenAI Startup Fund 及头部硅谷基金的支持,融资 2700 万美元,2023 年 8 月又融资 1600 万美元,估值在不到一年的时间里翻了一番。
作为 OpenAI 的合作伙伴,Speak 提前获取了 GPT-4、Whisper 的使用权以及微软的 Azure 资源,通过和 Speak 的语言学习系统、教学法相结合,开发语言学习的 AI Tutor ,目标是为用户提供更准确的实时反馈、提升用户的语言学习体验。Speak 的 CEO 认为,高度个性化和语境反馈只能使用 GPT-4 开发,GPT-4 是对早期语言模型的实质性改进。
Speak 主打的是口语学习,希望通过 AI Tutor 让用户像和真人教师对话那样一样不断进行口语练习,再基于 AI 提供的发音、语法、词汇等方面实时反馈不断完善语言学习。
Speak 首先会由专业教研人员设计框架和内容,这个过程主要以教研和用户研究为主导,团队也会借助 LLM 进行课程研发中的头脑风暴、效率提升。根据学习者的水平,Speak 将课程分为基础初级、进阶初级和实力中级三个等级。每个等级内有约 30 天课程设计。总体上,Speak 目前的可能内容较为基础,更适合入门的学习者。
Speak 的课程分为三部分:视频课、口语操练和角色扮演。
- 视频课程主要由真人录制
- 口语操练是预先设置的题目
- 角色扮演就是集成了 GPT-4 能力的 AI Tutor,也是 Speak 主打的点。
Speak 的 AI tutor 主要体现在角色扮演和话题畅聊两部分。用户首先在特定主题下与 AI 进行开放式对话。系统也会给到发音、语法、词汇等方面的反馈,例如怎么调整句子可以让表达更自然、更简洁等,和 Duolingo Max 类似。
Speak 没有免费模式,必须付费才能使用软件,在开启订阅后有 7 天免费试用期,订阅分为两档:
- • Premium 计划:$99.99/年,每月 2000 个 AI 家教积分;
- • Premium plus 计划:$ 234.99/年,每月 10000 个 AI 家教积分。
家教积分对应的是用户和 AI Tutor 的对话字数,每和 AI 对话一个词即 1 积分。在我们的实际测试中,2000 家教积分学习 5 天就会消耗完,这也意味着如果用户想天天和 AI 对话,只靠 Premium 计划远远不够,对于有强刚需的用户,更适合的选择是 Premium Plus 方案。
Speak 的定价和 Coursera、Udemy、Skillshare、Duolingo 等其他在线教育产品的费用基本一致。
高途
精准学
精准学(浙江精准学科技有限公司)是第一家提出“精准学”理念的人工智能企业,创新提出了“实时查、目标准、学得会、能坚持”完整闭环的“精准学习法”。为了“精准学习法”的应用,精准学公司全自研了采用有向图标注的静态知识图谱
、学情数据挖掘的动态认知图谱
,以及精准学智能手写输入法等创新技术。
AI辅学机 Bong Max
横空出世, 真正的「AI名师1对1 」
2018年全国首创「精准学」和精准学习法 Intelligent Learning
- 实时查 Real-time Identification: 追根溯源定位知识点
- 目标准 Precisely Targeted: 精准诊断知识漏洞
- 学得会 Effectively Learned: 定制专属学习计划
- 能坚持 Consistently Persistent: 实时关注孩子注意力
携手通义千问铸就国内最强垂直教育模型之一心流知镜
获阿里巴巴投资近2亿元, 推出原生代AI辅学机,揭开教育新篇章
房产实践
用户画像
培训初版画像尽量满足这几个条件:
- (1)便于获取、计算:有现成的数据源,计算方法相对确定
- (2)容易理解:无需过多解释
- (3)原子性:标签、属性之间粒度适中且相对独立
- (4)有潜在业务场景:对培训、任务分发、微聊等有一定价值
- (5)扩展性:兼容其他标签,方便扩展
培训领域画像示例:
- ① 学习态度:区分经纪人在培训产品上重视程度,基于过往培训频次、时长,计算数值,映射到几个区间,如:应付(参与培训1次失败就放弃了)、一般(参与几次培训,分数不理想)、认真(参与几次培训,分数逐渐提升至及格)、重视(参与较多次培训且分数较高)
- ② 学习能力:衡量经纪人培训分数增速,分为:慢、一般、快
- ③ 个性化特征:表达连贯性、普通话标准程度、逻辑性等,跟培训内容关系不大的特征
- ④ 知识掌握程度:对应一系列知识点得分,往图谱方向规划
AI 培训介绍
【2020年12月15日】
- 北京链家AI讲盘大赛收官,AI和真人双评委评审
- 12月15日消息,今天,北京链家举办了首届社区百科AI讲盘大赛的决赛,从23000多名经纪人中最终产生的9支经纪人队伍,在AI人工智能和真人双评委的评审下,完成了一场战队之间,以及和AI机器人战队的对决。
- 北京链家总经理李峰岩表示,“在产业互联网时代,如何利用科技创新赋能经纪人成长,进而提升我们对客户的服务品质,一直是链家探索的方向。希望借助此次大赛的推广实践,进一步探究房产经纪行业的未来,让经纪人的成长更加专业化、系统化,从而推动整个行业的升级迭代。”
房产NLP
【2023-1-9】贝壳找房【语言模型系列】实践篇:ALBERT 在房产领域的实践, 李东超
- 贝壳找房作为中国互联网房产领域领先的服务平台,业务场景中包含了大量的自然语言处理任务,积累了大量的房产领域文本语料,如何更好的利用这些海量的语料,完成各种业务场景的提效,是贝壳找房语言智能与搜索团队面临的挑战之一。
综合贝壳找房多个业务场景下的语料(小贝助手、智能客服、看点、房评等),共准备了约 30G 左右的房产领域语料。
利用房产领域语料进行预训练,需要将大量的房产领域语料转成 tfrecord 格式,以便于进行快速的预训练。tfrecord 的生成主要消耗大量的 CPU 资源,对 GPU 资源没有依赖。一般来讲,我们会把预训练语料进行切分,以便在有限的内存资源中完成 tfrecord 的生成。这里我将原始语料切分为 317 份,每份 50 万行数据,依次生成 tfrecord。
意图识别
意图识别,就是读懂一个 query 表达的意图,比如识别出:
- “我想要一个带阳台的大房子” 表达的意图是“找房”
意图识别就是一个多分类任务。房产领域的意图识别主要分为用户意图识别和经纪人意图识别,其中用户意图体系复杂,任务难度较大,这次实践也是挑了这块难啃的骨头。
用户意图体系定义了 256 个意图类别,由于意图种类过多,难以使用一个模型进行分类表示,所以又将 256 类意图进行向上归类,定义了 13 个技能类别(包含一个 other 类别),每个技能下对应着一部分意图。在预测过程中,query 先经过技能模型,得到技能的标签,然后根据技能标签决定调取哪个意图模型。所以,一共有 1 个技能模型和 12 个意图模型
起初的技能模型和意图模型都是用的 fasttext。fasttext 虽然是一个很优秀的模型,但也有其缺陷。fasttext 模型对 query 的语义信息识别不充分,对“词”的依赖程度过高,比如技能标签是房屋信息的 query 大多为疑问句,导致 query 中经常出现”吗“这种疑问词,使得可能将“吗?”这种 query 识别成房屋信息。而 albert 这种预训练模型能够获取 query 的语义信息,内部采用注意力机制,对 query 中的每个词分配不同权重,可以在一定程度上避免这种问题的出现。所以将技能模型替换为了 albert
对意图识别整体架构体系进行变更之前,完成了两版评测–线下模型评测及线上评测。
线下评测
- 在同等训练集、测试集的情况下,对 fasttext 和 albert 在技能层的效果进行了对比,结果如下
模型 | 评测任务 | 效果(acc) |
---|---|---|
fasttext | 意图识别技能层 | 0.75 |
albert_origin+fine-tuning | 意图识别技能层 | 0.804 |
albert_pretrain+fine-tuning | 意图识别技能层 | 0.832 |
其中
- albert_origin 是没有进行领域预训练的模型,直接使用了作者公开的预训练模型
- albert_pretrain 是利用了房产领域数据进行预训练之后的模型。
albert 的效果是在预训练模型的基础上进行微调(fine-tuning)的结果。
在线下评测中
- 技能层的模型由 fasttext 更替到 albert 后,其准确率由 0.51 上升到 0.632,提升了 12.2 个百分点,这个程度的提升还是很明显的。
- 同时 albert_origin 和 albert_pretrain 也存在着 2.8 个点的差异,说明领域预训练是很有必要且效果显著的。
线上模拟评测,采用了 GSB 的评测方法
- 即对一批线上语料,分别使用两个意图识别架构进行预测,并人工标出预上线的架构相较于线上架构的影响。
- 影响包括正向(good)、相同(same)、负向(bad),其中
- good 指的是新架构预测正确的 case 数量
- bad 是指线上架构预测正确的 case 数量
- same 指的是两个架构预测结果相同。
由此来评测出新体系上线后对于线上的作用效果,以下是评测效果。
模型 | 评测任务 | 评测数据数量(条) | good | same | bad |
---|---|---|---|---|---|
albert_pretrain+fine-tuning | 技能层 | 8000 | 1058/0.1323 | 6466/0.8083 | 476/0.0595 |
意图层 | 8000 | 1115/0.1394 | 6455/0.8069 | 430/0.0537 |
由以上评测可以看出来,在技能层,新的意图识别架构在 8000 条 case 中产生了 1058 条正向影响,476 条负向影响;在意图层,新的意图识别架构在 8000 条 case 中产生了 1115 条正向影响,430 条负向影响。整体结果说明新的意图识别架构体系对于线上的技能层以及意图层均产生了正向的效果。
- 在技能层,新的意图识别架构在 8000 条 case 中产生了 1058 条正向影响,476 条负向影响;
- 在意图层,新的意图识别架构在 8000 条 case 中产生了 1115 条正向影响,430 条负向影响。
- 整体结果说明新的意图识别架构体系对于线上的技能层以及意图层均产生了正向的效果。
句式识别
定义
- 根据业务需求,将房产领域的句式分为 5 类,如下所示
句式类别 | label | 定义 |
---|---|---|
疑问句 | interrogative | 以疑问语气进行询问的语句 |
肯定句 | affirmative | 表达肯定语气的陈述句 |
反问句 | rhetorical | 反问句就是用疑问的句式,表达肯定的观点。反问句表面看来是疑问的形式,但实际上表达的是肯定的意思,答案就在问句之中。 |
否定句 | negative | 表达否定意思的陈述句 |
其他 | unlimited | 只包含标点等符号或无实际意义的句子 |
效果
- 对句式识别进行了一个线下模型的评测,效果如下所示。
模型 | 数据集 | 效果(acc) |
---|---|---|
fasttext | 句式 | 0.946 |
albert_origin+fine-tuning | 句式 | 0.962 |
albert_pretrain+fine-tuning | 句式 | 0.967 |
模型更替后的效果与意图识别的模型更替结论一致。albert 模型在句式识别中的准确率比 fasttext 模型高 2.1 个点,且可以看出来 albert_pretrain 的效果优于 albert_origin。
AI 讲盘
社区百科AI讲盘通过AI场景化智能技术,帮助房产经纪人实景演练讲盘带看能力。同时,由北京链家学院与贝壳“小贝助手”联合打造的这款AI讲盘产品,已在2020年7月正式上线应用。
业务需求
带看时的讲盘是经纪人非常重要的专业能力之一,却长期存在着带看质量不高、时间把控不好、讲解信息不全面、线下练习占用作业时间等问题,制约了经纪人的专业性成长,以及行业服务品质的进一步升级。
数据资源
社区百科AI讲盘产品依托于链家和贝壳打造的,国内数据量最大、覆盖面最广、颗粒度最细的房屋信息数据库——楼盘字典,从而拥有了海量、真实的底层大数据。
社区百科AI讲盘产品有一个特殊的数据库—由北京链家几千名一线员工搭建的“社区档案”。
- 每一个楼盘都拥有属于自己的一套完备的、个性化的档案资料,已实现了人机对话技术与行业知识图谱的深度结合,从而让楼盘及社区信息可以全面、真实呈现。
目前“社区档案”中的每个楼盘都有近100个题干标签,共超过4大题库238个问题,包含通用题库,商品房、公房、教育资源拓展题库等,从小区周边交通规划、商业人文配套、评估价格、落户政策等基础问题,再到教育资源等延展问题,形成了对北京6900多个社区信息的全面覆盖。
- 此外,“社区档案”还会根据客户的反馈,以及实际情况的变化进行内容更新。
产品功能
社区百科AI讲盘产品为经纪人营造了多元化的培训场景,机器人小贝可以针对不同经纪人的特点“因材施教”。
- 经纪人通过学习社区资料实战演练讲盘,而小贝能够智能识别经纪人讲盘时的信息全面性、准确度、发音咬字、表达逻辑、讲盘流畅度、连贯性等核心要素,并在闯关结束后给出评分和反馈建议。
- 这一产品能够让经纪人精准知晓问题所在,从而更有针对性地进行练习提升,在高度还原真实场景的学习环境中,帮助经纪人收获快速成长。
产品效果
北京链家一位经纪人表示:
- 作为刚入行的新人,以前进行讲盘时心里总会发怵,和客户交流时担心自己的专业度不够,现在则可以利用一切碎片时间,随时随地练习讲盘,大大提升了自己的专业能力和自信心。
李峰岩表示
自内部推行以来,有超过96%的经纪人在该产品中参与了练习,产品所具备的全面丰富详尽的楼盘社区资料库,让经纪人对自己所服务的商圈及目标商圈有更好、更深、更细致的了解,进一步提升了经纪人的专业能力和服务品质。
VR 带看模拟训练
VR带看培训侧重过程模拟