15 Apr 2023 9 min read weekly

DPS 周刊 92 - 重启

Photo by Anthony Gomez / Unsplash

最近重新开始玩 Twitter。主要是发现 Twitter 的 For You 推荐质量不错，大部分的推荐内容都合胃口，而且这些推荐都比较有时效性。所以拿 Twitter 来追踪时下最热门的 AI 动态再适合不过了。

我们会把一些比较重要的 AI 内容分享到这一 TG 频道 -- DPS Build，欢迎对这块内容感兴趣的朋友关注。

另外我们也新开了一个 Twitter 账号 -- AwesomeVisaHQ，专注在技术移民的话题上，发布和回顾 Exodus by AwesomeVisa 双周刊的内容。

Recap

在艰难而又不知终点在何方的移民准备过程中，如何始终保持激情和动力，是一个长久为问题。

比如我们近来在申请某国签证时，就遭遇了各种折腾：

身边的朋友有的一次性就过了，有的被卡在不同的阶段，尽管每个人准备的材料都类似，背景也类似。过不过审完全看运气；
申请系统错综复杂，没有清晰的指南，所以每一次提交都是在试错；
若干文件需要不同的政府部门审核，每一个部门都十分拖沓，甚至有的环节到了不打电话没人审核的地步。

历经几个月时间，终于推进到了最后一步，其中的心酸只有自己清楚。回过头来，我们也在惊讶，在如此不确定的过程中，我们是如何保持动力，一步步向前推进的？所以在今天的文章里，我们将一一拆解这些：

动力与行动
动力与价值观
动力与拖延
动力与伙伴
动力与情绪

Jacob Kaplan-Moss 解释道，很多时候，苦差看起来像是魔术：

有些魔术看起来很光鲜，但是前期的准备要花费大量的时间和精力；
在软件开发中也是如此，虽然我们一直在追求自动化，但是有些时候，只有不厌其烦的手工活才能解决问题。

最近大火的 ChatGPT 是在基础的 GPT 模型上，加入了 reinforcement learning with human feedback (RLHF) 才成功的。GPT 的训练不是新鲜事，强化学习 (reinforcement learning) 也不是新鲜事，新鲜的是，要把 human feedback 加入到强化学习里。这里的 human feedback 就是需要大量人力来标注数据，来给模型生成的数据打分。所以本质上也是苦差出奇迹。

又到了 Mark Manson 的荐书时间，这回他带来了很多高质量的自我帮助书籍。

Meditations by Marcus Aurelius
Man’s Search for Meaning by Viktor Frankl - 坚持做就对了
The Subtle Art of Not Giving a F*ck by Mark Manson - 关你屁事，关我屁事
The Road Less Traveled by Scott Peck
The Four Agreements by Don Miguel Ruiz
Atomic Habits by James Clear - 一点点微小的习惯积攒起来就会有质的改变
Stillness is the Key by Ryan Holiday
Indistractable by Nir Eyal - 当初写 Hooked 也是这位，现在又教大家怎么脱瘾
Tiny Beautiful Things by Cheryl Strayed - Cheryl Strayed 专栏文章合集，很多美好的小事
Daring Greatly by Brene Brown
7 Habits of Highly Effective People by Stephen Covey

David Elikwu 回顾了自己在律所的工作经历，总结了一些人生建议：

你的满意度是由你自己定义的，而不是被外界定义的；
与人合作时，多考虑对方的处境，这样既能节省对方的时间精力，也能节省我们的时间精力；
如果你想加速自己的升职，就需要承担一定的风险；
让失败的代价变低，快速迭代；
我们需要一直做出权衡，重点是，我们需要尽早做出权衡，重新安排优先度，避免被迫做出权衡。

Nat Friedman 是 Github 的前 CEO，他的个人网站上展示了他信奉的道理：

我们应该努力提高天花板的高度，而不是提高门槛的高度；
更快的工作可以让我们更频繁地接触现实；
一周是一年的 2%；
我们的不少认知可能都是错的。

Reinforcement Learning from Human Feedback (RLHF) 是 ChatGPT 大获成功的一项关键技术，HuggingFace 非常详细地介绍了整个 RLHF 的流程，其中有不少非常巧妙的做法：

RLHF 是一个非常复杂的训练过程，需要多个模型训练和大量的工程实践；
针对 LLM 的奖励模型，需要基于文本给出一个打分，但是直接让人去打分会非常主观。比如同一条数据，第一个和第二个标注者会给出完全不同的分数，这样会对后续的训练造成很大影响。目前比较好的实践，是让两个模型基于同样的输入产生输出，然后标注者只要在两个里面进行比较即可。最后将这些数据汇总起来得到一个总分。
RLHF 的质量取决于两个因素，一是最初人工标注的文本质量，二是人工打分的质量。

本周的生产力日报集合就到此为止，如果你有什么建议，也欢迎留言告诉我们。如果想要收到最及时的推荐，不妨订阅我们的频道，或者付费解锁更多增值内容，我们下期见。

题图源自 Unsplash

Recap

Dr Selfie

Comments ( )

You might also like...

Comments ()