常见问题
大语言模型的能与不能
回答这个问题需要知道大语言模型的底层架构和数学原理。大语言模型底层transformer 基于自注意力机制和神经网络,自注意力机制适合不定长顺序数据和长依赖关系,处理非顺序数据或一阶马尔可夫数据(如脉搏监控)很笨拙;神经网络在处理决策充分条件阈值时有很多问题,大语言模型基于神经网络,神经网络需要调优,过程复杂。
大语言模型适合提取基于自然语言的专家智能和相关数据。
transformer 的不足
模型大,参数多,易过拟合,数据要求多,速度慢,不可靠,资源耗费多,准确率低,继承了神经网络的缺陷
什么是意图?
- 理解之后才能知道意图
- 理解有三种方式,a)基于为什么,b)基于逻辑推导结果,c)多个实体之间复杂的逻辑关系
- LLMs已具备部分理解能力,泛化之后,可以实现理解
- 如何泛化?通过高级智能,抽象,逆抽象,相似,类比,等等
何谓抽象?
- 观察或实验得到数据(如医生个人看病经验)–>训练AI模型–>可解释性->(逻辑归纳)–>抽象出规则(如某类病患适用于某种治疗方案)->提出假设->实验验证(如随机对照试验)–>去除数据不确定性->形成科学理论->指导工作–>(逻辑演绎)–>预测(即逆抽象)->(逻辑溯因)->解释,理解
- 逻辑溯因->解释,理解
- 审慎性(批判性)思维–>继续观察或实验–>提出新假设–>证伪–>修正理论
- 大的复杂问题–>分而治之–>找出相似子问题和相似解决方案–>并行化
- 抽象类型包括:基于概率的抽象,最优策略(序列决策),分解复杂问题为重叠子问题(相似)和最优子结构(相似)
- 抽象的目的:决策,解释,预测,理解,泛化,举一反三
- 抽象是其他高级智能的基础,比如:相似,类比,联想,创新,想象,灵感,直觉,等等。
- 抽象是知识总结提炼精华,如规则,概念,共同属性,定理,公式,策略,总结,等等
- 抽象是虚拟数据,可以补充数据不足,是高级智能举一反三的基础
- 迁移学习的终极目标就是抽象
小数据集训练原理
- 多标签多类别模型
- 特殊预处理编码
- 抽象,逆抽象:如(医学)规则
- 效用方程:过滤或降低不符合规则信息重要度