研一每周讨论记录
2024/5/17
知航今天生病缺席
鹤文
- 每次开始之前要强调自己的动机,应该注重不同LLM的表现
- 有一篇文章是说明LLM在出现幻觉的时候,其实自己是了解的
- 从现在开始找相关工作,理出整个工作的逻辑线,比如人家刚开始在做词的替换等等简单的方式,后面在这个基础上发展,但是精细化的推理能力还不够。下周讲一下
- 下周说一下实验设计等等,要有一个基础的实验设计,然后找到一种范文,有几个RQ的那种,然后要回答那些RQ (罗志钊ANGEL,国正COLING 2024),至少整理5-10个RQ,沿着这些RQ再来考虑实验设计
- DA来解决数据量不足的的方式是合理的,后续继续调研一下怎么做
江涵
Q:长文本的普通任务和长文本的主题建模有什么区别?
A:短文本的时候有NER任务,也有RE任务,它们的实现方式也是不同的。到长文本的时候,怎么做?目前文档大模型沿用的是RAG + QA的范式。
我们应该考虑是以滑动窗口的形式组织还是选择不同的chunking策略来对LLM进行对话,还是考虑段落之间的相关性之类的,从数据的层面上考虑整个长文本的主题建模应该怎么做?
Q:长文本的主题建模是利用了RAG吗?
A:RAG本身利用的是一个QA的方式,但是对于长文本主题建模,在实际做的时候是先scan一遍文本,然后在第二次的时候找到合理的分块的方式。长文本的主题挖掘应该考虑整个文本的语义,还是一种迭代的思路,(应该一直迭代直到在dev集上的性能收敛?),用第一次scan的结果指导后续的策略
柯老师建议看佳锋学长去年的InstructORE,是一个无监督的问题,使用大小模型对抗,将大模型的伪标签训练小模型的置信度评估能力,反过来利用小模型的置信度评估能力增强大模型的伪标签生成能力。
一宁
- 理清自己工作的故事线
- 实验的部分继续做
研一每周讨论记录
https://seu-ning.top/2024/05/17/研一每周讨论记录/