DPS 周刊 92 - 重启
最近重新开始玩 Twitter。主要是发现 Twitter 的 For You 推荐质量不错,大部分的推荐内容都合胃口,而且这些推荐都比较有时效性。所以拿 Twitter 来追踪时下最热门的 AI 动态再适合不过了。
我们会把一些比较重要的 AI 内容分享到这一 TG 频道 -- DPS Build,欢迎对这块内容感兴趣的朋友关注。
另外我们也新开了一个 Twitter 账号 -- AwesomeVisaHQ,专注在技术移民的话题上,发布和回顾 Exodus by AwesomeVisa 双周刊的内容。
Recap
在艰难而又不知终点在何方的移民准备过程中,如何始终保持激情和动力,是一个长久为问题。
比如我们近来在申请某国签证时,就遭遇了各种折腾:
- 身边的朋友有的一次性就过了,有的被卡在不同的阶段,尽管每个人准备的材料都类似,背景也类似。过不过审完全看运气;
- 申请系统错综复杂,没有清晰的指南,所以每一次提交都是在试错;
- 若干文件需要不同的政府部门审核,每一个部门都十分拖沓,甚至有的环节到了不打电话没人审核的地步。
历经几个月时间,终于推进到了最后一步,其中的心酸只有自己清楚。回过头来,我们也在惊讶,在如此不确定的过程中,我们是如何保持动力,一步步向前推进的?所以在今天的文章里,我们将一一拆解这些:
- 动力与行动
- 动力与价值观
- 动力与拖延
- 动力与伙伴
- 动力与情绪
Jacob Kaplan-Moss 解释道,很多时候,苦差看起来像是魔术:
- 有些魔术看起来很光鲜,但是前期的准备要花费大量的时间和精力;
- 在软件开发中也是如此,虽然我们一直在追求自动化,但是有些时候,只有不厌其烦的手工活才能解决问题。
最近大火的 ChatGPT 是在基础的 GPT 模型上,加入了 reinforcement learning with human feedback (RLHF) 才成功的。GPT 的训练不是新鲜事,强化学习 (reinforcement learning) 也不是新鲜事,新鲜的是,要把 human feedback 加入到强化学习里。这里的 human feedback 就是需要大量人力来标注数据,来给模型生成的数据打分。所以本质上也是苦差出奇迹。
又到了 Mark Manson 的荐书时间,这回他带来了很多高质量的自我帮助书籍。
- Meditations by Marcus Aurelius
- Man’s Search for Meaning by Viktor Frankl - 坚持做就对了
- The Subtle Art of Not Giving a F*ck by Mark Manson - 关你屁事,关我屁事
- The Road Less Traveled by Scott Peck
- The Four Agreements by Don Miguel Ruiz
- Atomic Habits by James Clear - 一点点微小的习惯积攒起来就会有质的改变
- Stillness is the Key by Ryan Holiday
- Indistractable by Nir Eyal - 当初写 Hooked 也是这位,现在又教大家怎么脱瘾
- Tiny Beautiful Things by Cheryl Strayed - Cheryl Strayed 专栏文章合集,很多美好的小事
- Daring Greatly by Brene Brown
- 7 Habits of Highly Effective People by Stephen Covey
David Elikwu 回顾了自己在律所的工作经历,总结了一些人生建议:
- 你的满意度是由你自己定义的,而不是被外界定义的;
- 与人合作时,多考虑对方的处境,这样既能节省对方的时间精力,也能节省我们的时间精力;
- 如果你想加速自己的升职,就需要承担一定的风险;
- 让失败的代价变低,快速迭代;
- 我们需要一直做出权衡,重点是,我们需要尽早做出权衡,重新安排优先度,避免被迫做出权衡。
Nat Friedman 是 Github 的前 CEO,他的个人网站上展示了他信奉的道理:
- 我们应该努力提高天花板的高度,而不是提高门槛的高度;
- 更快的工作可以让我们更频繁地接触现实;
- 一周是一年的 2%;
- 我们的不少认知可能都是错的。
Reinforcement Learning from Human Feedback (RLHF) 是 ChatGPT 大获成功的一项关键技术,HuggingFace 非常详细地介绍了整个 RLHF 的流程,其中有不少非常巧妙的做法:
- RLHF 是一个非常复杂的训练过程,需要多个模型训练和大量的工程实践;
- 针对 LLM 的奖励模型,需要基于文本给出一个打分,但是直接让人去打分会非常主观。比如同一条数据,第一个和第二个标注者会给出完全不同的分数,这样会对后续的训练造成很大影响。目前比较好的实践,是让两个模型基于同样的输入产生输出,然后标注者只要在两个里面进行比较即可。最后将这些数据汇总起来得到一个总分。
- RLHF 的质量取决于两个因素,一是最初人工标注的文本质量,二是人工打分的质量。
本周的生产力日报集合就到此为止,如果你有什么建议,也欢迎留言告诉我们。如果想要收到最及时的推荐,不妨订阅我们的频道,或者付费解锁更多增值内容,我们下期见。
题图源自 Unsplash