DPS 周刊 184 - 张忠谋的洞见
最近听了 Acquired 对于台积电创始人张忠谋的采访,里面提到《张忠谋自传》下册也已经出版了。于是我迅速找来上下两册通读了一番,收获颇大。
读着读着,我突然意识到 AWS 开辟的云计算其实就是台积电的商业模式:客户不用投资晶圆厂,只要设计芯片即可,设计好的芯片交给台积电设计;而 AWS 的客户不需要投资硬件,只要专心写代码就行,写好的代码部署到 AWS 的云资源上就能跑起来。而之前开一家软件公司是需要自己买服务器,这笔硬件投入非常大,这和之前的芯片公司需要大笔投资建设芯片厂一样。
因此,台积电在1987年的成立,可以说是重写了半导体的游戏规则,使得很多人都可以进入这个产业。它一口气创造了两个工业:第一个是晶圆代工业,第二个是无晶圆厂设计业。
这不就是台积电开创的晶元代工模式吗?无晶元公司都不需要自己投资建厂,只要交给台积电代工即可。有了 AWS 之类的云计算,软件公司都不要自己大笔投资建设机房,只要专心写代码做产品即可。
因此专业代工的出现,不仅大幅提升了晶圆代工的品质,也大幅增加晶圆代工的可依赖度。
专业晶圆代工大幅降低了进入半导体业的障碍。因为过去所有成功的半导体公司,都必须具备自有晶圆厂,而投资晶圆厂需要很大的资本。现在倘若有一个可依赖的、品质很高的晶圆代工厂,自己不再需要投资晶圆厂,这将大幅降低半导体业的进入障碍。
张忠谋在1986年就开始打造台积电,那时候 AWS 的母公司 Amazon 连个影子都没有。也许 Jeff Bezos 就是受到台积电的启发,才开始 AWS 的云计算。这么一想,台积电不仅革新了硬件行业,也启发了软件行业。
张忠谋出身在鄞县,现在宁波市的鄞州区。早年在上海,香港,重庆,上海,香港之间逃难,直到后来去了哈佛攻读本科才在美国稳定下来。
我在西元一九三一年出生在故乡浙江宁波,出生时父亲是宁波县政府的财政局长。
十八岁以前,我已逃了三次难,住过六个城市(宁波、南京、广州、香港、重庆、上海),换了十个学校。
我们在一九四二年底乘船到上海,停留了大约三个月的时间,在过旧历年时,回故乡宁波住了几星期。对十一岁的我,在上海的三个月是很兴奋的时光,我见到了多年不见、记忆中已模糊的亲戚,又第一次经历到当时中国最繁华的都市。
他的前半生奋斗史是在美国,从哈佛转学到 MIT,硕士毕业之后阴差阳错先去了做半导体的锡凡尼亚。主要原因有两点:一是他没考上博士,而是锡凡尼亚的起薪是当时录用他的三家公司中最高的。
三叔张思侯先生那时已在波士顿东北大学任教授,他替我选择申请入哈佛大学。为什么选哈佛大学呢?第一,哈佛是举世闻名的学府;第二,哈佛在波士顿,三叔可以就近照顾我。
一九四九年哈佛一年级新生共一千一百余名。其中外国人与少数民族如下:美籍黑人一名,外国学生共十四名,其中来自中南美洲八人,来自欧洲三人,来自非洲一人,来自亚洲二人(除我外,有一位日本人)。
麻省理工学院的学生更用功,但较拘谨,很少予人才华横溢的感觉,而且兴趣较狭窄。较诸哈佛,麻省理工实在是一个相当乏味的学校。
许多年后,我把在麻省理工博士落第视为我一生的最大幸运!假使我通过考试,我一定会继续读博士,几年以后,也一定会读成。那以后做什么呢?最可能就是去工业界做研究工作,或者留学校做教授,总之这会是一条学术、研究的路。以我对工程的平平兴趣,我相信这条路不会走得太远。我也绝对不会进入半导体界,因为那时半导体界根本不雇用机械博士。
二十年后,我已是德仪公司集团副总裁,主管全球半导体业务,有一位福特高级主管自福特退休,应聘为德仪董事。照德仪的规矩,每一个新董事都要经过一段受训期,由德仪高阶经理人陪同参观公司主要设施,并听取简报。我与这位新董事形影不离地相处了好几天。有一天晚上酒酣饭饱,我说起这段福特往事,他竟很激动地把双手放在我的肩上说:「Morris 你真幸运,如果你那时去福特,恐怕现在还烂在福特的研发部里。」
在锡凡尼亚带了几年之后,他跳槽到德州仪器,一去就大放异彩,将德州仪器的生产线优良率大幅提升,甚至超过当时的领头羊 IBM。他也一路高升,同时开始自修半导体。后来因为工作表现突出,获得德州仪器的资助去了斯坦福攻读博士。
于是,在以后的几天中,试验一个间接加温的办法:不让焊接器直接接触电极,而只让它接触铜丝,利用铜丝的高度导热能力,熔解部分的电极完成焊接。我的办法较原来的慢,但扰乱晶体管内部化学的可能性应低于原来,所以最后的良率应较高。
同时,我开始自修半导体。我的课本是肖克利(晶体管发明人之一,诺贝尔奖得主)的经典作:《半导体之电子与洞》。Electrons and holes in semiconductors, with applications to transistor electronics
我的习惯是,每天吃晚餐时和他坐在一起,那时我还不太会喝酒,于是我吃我的晚餐,他喝他的酒,但问他我读不懂的地方,他倒也很耐心地为我解释。他虽喝很多酒,但我从未见他真正醉过,而且他的确是不错的专家,我大部分的问题他都能回答。每晚我用了餐,问了问题后,就回到房间继续看书。但有时遇到新问题,仍回到餐厅找他,只要在餐厅打烊之前,他几乎必在独酌。
一九五六年十二月,我首次发表半导体论文,在一九五七年又发表了两篇论文。事后看来,这些论文都不足道,但对于提高我在公司内外的地位,却相当有帮助。
那天全天良率25%,比以前任何一天高好几倍。每个人大概都记得人生最喜悦的时刻,那天,是我二十七年的人生中,最喜悦的一天。这是1958年9月,我进德仪四个月后。
熟悉半导体的人都知道,半导体良率不是很稳定。有一天达到25%,不见得以后每天能达到25%。幸而我们的制程控制相当严谨,此后的良率虽有高有低,但一周、一月的平均总在20%以上。几个月后,我们对设计和制程再做改良,良率又提高几个百分点。一年以后,经过不断的持续改良,良率很稳定地在30%以上。
1961年春,我的生涯里忽然又有了意料之外的发展。总经理召见我,夸了我一番,说我有足够潜力角逐未来全公司研发副总之职。但是,“你没有博士学位。我们虽不在乎,但研发人员会在乎。”他继续说:“我们决定给你一个从未给过任何人的机会:让你仍支全薪去读博士,而且公司负担一切学杂费。”唯一条件:学成后为公司服务五年。
“无法拒绝的机会”原文为“An offer he can't refuse”。这句话在1960年代美国畅销小说《教父》(The Godfather)中常用,因而在美国会话中普遍化。在小说中,这句话是双关语,“机会”往往非常优渥,但如拒绝,则拒绝者可能有杀身之祸。
从9月到2月的五个月内,我每天从早上8时读书到晚上11时或12时,很少休息,也从无周末。
我的博士论文写砷化镓。砷化镓,正如锗、硅,也是半导体。我读博士那几年,正值砷化镓最为热门。不少学者认为砷化镓可能会继锗及硅之后成为最普遍的半导体。
两年半就拿到了斯坦福的博士学位,之后张忠谋回到德州仪器,一路升职做到半导体集团总经理,之后不太顺利而从德州仪器离职。
终于,1963年底,毛尔教授对我说论文做得差不多了,可开始写。我花了以后的三、四个月时间完稿,并通过最后一次口试。1964年3月,博士学位在握,我告别教授和同学,启程向达拉斯,回德仪。
整个「锗部」在我接任总经理一年后,每月营收已自四百万美元成长到五百万美元,毛利及营利率也各自从四〇%及三〇%提升到四五%及三五%。
因为我发现要知道自己的弱点(无论是产品性能、价格,或客户服务),最好的办法就是听客户批评,如果只在内部检讨,听到的总是我们如何如何好,一切营销问题都是营销部不知道如何营销,或客户不识货。
我尽量把对内的工作:研发、生产、工程、品质管理等,交给我手下的专业经理。毕竟,这些工作都是专业经理人应该有能力做,假使某一个经理不能有效地带领他的部队,那我应该撤换他,而不是待在达拉斯替他做他的工作。
总经理(对上延伸到公司总裁)的责任,应该是:把外面世界带进到他的业务单位里,动员他拥有的资源,应对他带进来的挑战!
我也借我做总经理的机会,不但熟悉了损益表,也熟悉了资产负债表,及现金流量的概念。
我在德仪从「锗部」总经理,做到「硅部」总经理、「集成电路」总经理、「全球半导体」总经理,而且半导体技术又是与日俱进;所以,掌握技术进步绝对是我总经理任务的重项。
在德仪多次升迁中,我唯一带到新职的人,只有我的秘书。
关于我,彪希的自传也提到了。我是「全世界最佳半导体经营者」。这句话假使我在任半导体总经理的后期听到,我会受鼓励。四十年后在台湾听到,太晚了。
在德州仪器的任内,他接触到了 BCG 的创始人,并让 BCG 把学习曲线理论运用到了德州仪器的发展中:
当然,要确保德仪成功应用他的理论,波士顿顾问集团需要许多实际数据资料,而且需要德仪指定一个高级经理人与波士顿顾问集团合作;在他方面,他可以派遣贝因长期驻在德仪,以便取得需要的数据,并且随时与联络人讨论研究结果。
只有这个「学习曲线」研究案,大大地增加了我对半导体业的洞察,而且为我过去想出来的策略提供了一个理论基础;更重要的,为我未来(未来还有几乎五十年之久!)要想出来的策略提供了理论基础。
终于有一天,贝因告诉我:他要离开波士顿顾问集团了,而且,我是第一个集团之外的人被告知的。我诧异,我问:「为什么你要离开?韩德生不是对你很好吗?」他回答:「我们都有成长的必要(growth imperative),不是吗?」这是我生平第一次听见「成长」和「必要」连在一起,至今还记得当时新颖的感觉。
「学习曲线」理论的两个基本理念是:(一)先发制人;(二)市场占有率非常重要。
贝因呢?他创办了很成功的贝因顾问公司(Bain & Company),后来又创办了很成功的贝因投资公司(Bain Capital)。
在本书第三章〈总经理的学习〉的「策略」节,我已叙述我与贝因合作把「学习曲线」理论应用在集成电路上。最具冲击力的应用是德仪在1972年公开宣布的双极集成电路「定期每季降价」政策。
在通用器材短暂任职总经理之后,他跑到台湾担任工研院院长一职,任内衍生出台积电。
我在德仪辞职的消息,在一、两天内就在《华尔街日报》、达拉斯两份日报,及《电子新闻》发表;此后的一、两星期,家中电话铃声响不停。
我的认知是:从众多的通用事业内,选择几个可茁壮发展的(我起初想的是半导体和宽频,因为这两个都是信息界的基本产业),再从技术层面着手,扩展研发,把这几个事业培养起来;把通用建立为一个大公司。
歇基对我的期待,在我上任后几个月的时间才渐渐透露出来。他要我做他的伙伴,买进小公司,整顿一下,再以高价卖出或上市;他的最高目标,是在他退休前,把整个通用都卖出去!
工研院成立于1973年,是当时经济部部长孙运璿先生的创造物。孙部长有工程背景,可能是最近几十年来,台湾政界中最重视科技发展的政要。1973年时,孙部长认为政府应该设立一个工业技术研究机构,但公教人员的薪资不足以吸引能干的工程研究人员,所以他花了不少时间精力,说服立法院通过「工业技术研究院设置条例」,以财团法人形式成立了「工研院」。
那么,要达到工研院使命,首先必须增强与工业界的连接。
后来在工研院改革不顺之后,跑到台积电专心创业,最后坚持了32年,带领台积电成为半导体行业的领头羊。
虽然我自己以为只是坦率,但我在听简报时「不尊重」同仁的恶名,在我上任的头几个月就成立,也是我后来改革失败原因之一。
工研院在我任院长前的十二年,只衍生了一家公司:联华电子公司,移转了三十多名员工给联电;但在我任院长的三年,我促成了五家衍生公司:
台积电——自电子所移转一百多位员工。
盟立自动化公司——自机械所移转一百多位员工,是台湾第一家「自动化」公司。
台湾光罩公司——自电子所移转三十多位员工。
长荣超合金——自材料所移转四位员工。
亿威电子——自电子所移转二十多位员工。
五年内(1983-1988年,52至57岁)我辞了三次职。先是德仪,再是通用,现在是工研院。我有严重的挫折感。十几年前四十几岁时纵横全球半导体业的气概,已消失殆尽。
两次与命运赴约都做对了。第一次去德仪赴约,德仪改变了我前半生;第二次去台湾赴约,台湾改变了我后半生。
自创立起,台积电一直有各种创新,最重要的就是其商业模式,即专业晶圆代工,只做代工,不与客户竞争。
1985年8月21日(方贤齐对我讲「要办事项」)至9月4日(我对李国鼎提「共同晶圆厂」)这十四天,可说是我一生中创新价值最高的两周。价值连城的「专业晶圆代工」(Dedicated Foundry)商业模式在此两周诞生。
当时,世界上几乎所有稍具规模的IC公司都是「垂直整合型」(Integrated Device Manufacturer, IDM),营业范围包含IC设计、晶圆制程研发、晶圆生产、IC行销。这些 IDM 如有多余产能,也为没有晶圆厂的设计公司(例如我在通用器材公司碰到的 Chips and Technologies 及 Atmel)代工。
「不与客户竞争」,以及「客户是我们的伙伴」也成为新公司的座右铭。
当时我的感觉,虽然与会者在会前不太懂IC,但我的「深入浅出」相当成功,至少从他们的发言听来,他们听懂了我的要点。后来我听说李达海部长要他的经济部下属学学我的简报技巧。李部长是前中油董事长,没有IC经验,连他都听懂了,这是我这次简报的一大成就。
当时台积电又何尝有客户?我凭借的是我新创的「专业晶圆代工」、「不与客户竞争」模式、工研院「示范线」的优异良率以及对我自己经营能力的信心。
俞院长的预言百分之百正确。后来,即使飞利浦同意投资27.6%后,政府还是花了九牛二虎之力,才凑足剩余的24.1%。
但是在半导体业内,无论从营收规模、技术强度或获利率角度看,飞利浦都非世界第一流。我把它排在二流行列中的第一排。这样排法虽非褒,但亦非贬。因为在我心目中,当时一流的第一排为英特尔独占;德仪、摩托罗拉只是一流的第二排。二流的第一排除飞利浦外,在在有人。
在第一次对俞院长简报「共同晶圆厂」时,我已暂时命名新公司为 Taiwan Semiconductor Manufacturing Company(TSMC)。我觉得这个名字表达了公司的要点:
(一)在台湾成立(Taiwan);
(二)做半导体(Semiconductor);
(三)做制造(Manufacturing)。
早在70年代,当时英特尔创办人之一摩尔已为此「不设计,只制造」事业取了一个名字:foundry。只是,摩尔的 foundry 只是一般又设计、又制造公司(IDM)的副业。把 foundry 成为专业,自我及台积电始。
其实台积电的「专业晶圆代工」自始就「高资本」,自始也不是「低技术」,因为即使我们创始时制程技术落后尖端技术两至三代,但我们的良率很高,而高良率反映了扎实的工程基础。
我重复了一遍我的两个倚靠:第一个倚靠是我们的「专业晶圆代工」商业模式。我们不与美、韩、日半导体公司竞争,它们反而是我们的客户。第二个倚靠是核心团队的高良率能力。对我的第一个倚靠,曾似乎半信半疑。对我的第二个倚靠,我的信心似乎高于核心团队对自己的信心。
几个月后,英特尔真的来与我们谈生意了。第一个生意是1.5微米的微控制器,英特尔两代(约三年)前的产品。英特尔因为要把他们的生产资源用在更先进的产品上,所以要我们代工。对我们来说,1.5微米正是我们最先进的技术,所以这是很好的机会让我们量产刚在开发的技术。
再下来的对我们更为重要。英特尔要我们建立整套世界级生产制度,包括统计制程控制(Statistical Process Control)、品质控制、设备预防维修等等。这些我们花了一、两年,但在二厂开始量产时(1990年),也完成了。
英特尔后,飞利浦、德仪、摩托罗拉陆续找我们代工。德仪和摩托罗拉找我们代工的原因和英特尔相似。
台积电也是 ASML 的第一家用户,没想到这两家公司后来都称霸了半导体行业,而其他当时的霸主都已风光不再:
第一个决定是启用SMIF(Standard Mechanical Interface,袖珍洁净箱)。IC制程必须在「无尘埃」环境内,如果整个工厂都是「洁净室」,那么排气系统相当昂贵,而且运作时非常耗电。SMIF是一家名叫Asyst硅谷公司所发明,它的妙处是它是一个「袖珍」洁净箱,又可以与生产机器连接。与标准洁净室比较,它既节省排气系统的资本支出,又节省电力,而且据Asyst当时说,「袖珍」洁净环境其实比标准洁净室更为洁净,所以应该提高良率。
第二个决定是采用艾司摩尔(ASML)的曝光机。曝光机在晶圆生产线上诸多机器中最昂贵。在建二厂时日本 Nikon 以及佳能公司几乎占有全部世界曝光机市场。
台积电成立后,佳能、Nikon、艾司摩尔高阶经理人员多次来推销各自的曝光机。经过魏谋和曾繁城详细研究,认为艾司摩尔机器有技术优点。唯一问题是:没人用过艾司摩尔机器,台积电会是第一家,的确有相当风险。
张忠谋对于创业有很多洞见:
美国科技业的蓬勃,很大一部分原因归功于这许多“野火烧不尽,春风吹又生”的小公司。它们造成了一个“百花齐放,万家争鸣”的竞争环境。
我认为政府科技经费中,除了中研院基础研究部分外,只应该做两件事:(一)技术面辅助中小型传统企业;(二)有计划、有规模的尖端突破。
美国(尤其硅谷)科技业的发达,一大原因是上下游的密切结合。
为什么美国仍是这样的磁石?现在已不能怪国内外不同待遇。主要原因是美国物质上和文化上的生活品质。
知识经济产生了“赢家圈”。政府政策的重点,应该扩大这个赢家圈,而不是把赢家圈尖锐化,政府也应为“非赢家”建立社会安全网。这正是一般欧洲先进国家的政策方向。
在台积电,我们的原则是重赏成功,不罚失败。
在我看来,政府的角色就是要健全这整个大环境,除此以外,我觉得政府对企业最好越少管越好。
如果说什么是创业的最佳条件?我认为必须先产生一个 strategic idea(策略性构想),台积电就是一个 strategic idea,而不是单纯的 technical idea(技术性构想)。你如果能够发掘一个别人没有做过的创新,就有机会成功,这就是创业最好的条件。
在企业管理上,我们提倡“开放式创新”。创新不一定只发生在公司内部,也可能来自外部,因此,我们愿意与客户、供应商、学术机构等合作,共同推动技术创新。我们相信,只有不断创新,才能保持领先。
许多公司失败的原因,不是因为技术不好,而是因为管理不好。企业成长到一定规模后,管理就变得非常重要。如果管理跟不上成长速度,公司就会陷入混乱。因此,一个成功的企业,必须有良好的管理制度,确保公司能够持续成长。
我一直认为,领导者的职责之一,就是培养下一代人才。一个企业要永续经营,不能只依赖创办人或高层领导,而是要建立一个健全的人才培养机制,让年轻一代有机会成长,接班企业的领导责任。
当时流行的一句话:「假使你在硅谷换公司,不必迁居,只要每天早上朝另一方向开车就可以了」;还有一点:硅谷流动率高,如果你觉得换错公司了,尽可以再换一个公司。
张忠谋倡导终身学习,也亲自实践,自始至终了解半导体行业最前沿的技术:
“终身学习”的长期目标,指的是每个人在自己的行业中,要不断吸收新的知识,以随时赶上该行业的发展。
社会上多数的工程人员,在累积多年工作经验后常会升任企业中的高阶主管或是选择自行创业,但是他们多半缺乏在财务、会计方面的知识与经验,需要予以补强。
前任美国英特尔公司总裁安迪·葛洛夫是我的好友,他也是“终身学习”的最佳范例之一。几年前当他得知不幸染上前列腺癌,与大多数人一样,他的第一个反应便是“为什么是我?”可是他与一般人最不同的地方,是他随即立志要在一年内学习研究前列腺癌的医疗方式。
他利用他的研究习惯,去找所有可能的医学文献,不仅如此,他还访问最好的医生,甚至进入医院和实验室做实验。他的研究深入到可以和医生讨论治疗方案的程度,最后,他自己决定采用何种治疗方法,而非完全依赖医生的建议。几年后,他战胜了癌症,并写了一本书,介绍自己研究前列腺癌的心得。这是“终身学习”最好的例子之一。
终身学习不仅是一种态度,更是一种能力。企业要成功,必须鼓励员工不断学习,不断提升自我。因为科技变化太快,过去的经验未必适用于未来,只有不断学习,才能保持竞争力。
最后,我想分享一句话:“成功不是终点,学习才是永恒的。”无论你在哪个行业,无论你处于什么阶段,都要保持学习的心态,持续进步。只有不断学习,才能不断成长;只有不断成长,才能真正实现自己的梦想。
类似的,他还倡导长期主义:
在台积电,我们提倡“长期主义”,不追求短期利益,而是关注长期价值。许多企业之所以失败,是因为他们只关注短期利润,而忽略了长期的可持续发展。只有坚持长期主义,企业才能真正建立起竞争优势,获得长期的成功。
我想对年轻一代说,不要害怕失败,失败是学习的一部分。每一个成功者,背后都有无数次的失败。关键是你如何从失败中学习,如何调整自己,如何不断进步。世界正在变化,机会无处不在,只要你有勇气去追求,你一定能够创造属于自己的未来。
最后还有一些好玩的八卦:
张忠谋和 Nvidia 的黄仁勋是忘年之交,早在 Nvidia 起步的时候,台积电就开始与之合作。张在退休之前,曾经考虑让黄仁勋接班,没想到黄完全不感兴趣,回说,我已有工作了。
张忠谋的第二任妻子 Sohpie,是富士康老板郭台铭的表姐,也因为这层关系,台积电开始了和苹果的合作;
当然 Sophie 本人也不是等闲之辈,早在1972年就是 Joe Biden 参选议员时的助选。
Recap
2025年的第一个月即将过去,你的新年愿望实现了多少?Ryan Holiday 分享了他的建议:
- 一切的起点就在于你如何度过一天中最美好的时光;
- 我想将最好的自己奉献给最重要的事情。其他一切都可以随后处理;
- 思考小事更容易,而容易的事情更能让你开始;
- 更好的方法是专注于过程:每天的工作和能推动你前进的习惯,无论结果如何;
- 如果你没有足够的精力和清晰度去执行这些习惯和实践,所有其他列出的习惯和做法都变得无关紧要;
- 当我们犯错时,无法回头修正。但我们可以向前迈进。
OpenAI 在一个月前发布了 o3 系列的模型,当时 Will Bryk 给出了一些畅想,其实现实远比这些发展得更快:
- o3级模型在优化任何你可以为其定义奖励函数的任务上表现得非常出色。数学和编程相对容易设计奖励函数;
- 对于那些完全采用大型语言模型(LLMs)的人来说,到2025年底,编程将更像是指挥一群 agents 去执行一系列小任务;
- 当工程师设计架构或编写代码时,他们拥有大量的组织背景信息。o4 无法做到这一点。但o4会帮助那些拥有背景信息的工程师提升10倍的工作效率;
- 如果以具体公司为例,确实他们可能需要更少的软件工程师,因为他们可以用更精简的团队实现相同的产出。然而,全球对软件工程师的需求可能会上升,因为世界绝对可以使用10倍更多的高质量软件;
- 使用英语使编程对非技术人员开放。但最优秀的构建者仍然是那些能够在不同抽象层级之间自如切换的人;
- 因为软件工程实际上是通过代码理解和解决组织需求,软件工程完全自动化的那一天,所有组织也将随之改变;
- 不清楚 OpenAI 在 o 级模型上有多少独特的秘诀,但他们的改进速度表明这是一种算法上的进步(更容易复制),而不是某种独特的数据组合(更难复制);
- 无论如何,不会有持续超过一年的模型护城河,因为实验室像棒球卡一样交换研究人员,更重要的是,实验室之间的研究人员彼此聚会并互相交流;
- o 级模型使推理比训练更为重要。超级优化的推理芯片比训练芯片更容易制造,因此Nvidia在这方面的护城河并不深厚;
- 除非代码速度达到极限,并且有一长串的实验需要运行,实验室再次被计算能力所瓶颈;
当你突然变得极其富有又空虚时,会怎么样?Loom 的联合创始人 Vinay Hiremath 回顾了这一历程:
- 卖掉了公司后,他发现自己处于一个完全无法理解的位置 —— 他拥有无限的自由,但他不知道该如何利用它;
- 他发现很难放弃6000万美元的薪酬。他已经赚的钱比他能用得上的还要多,但当你开始考虑这样的数字时,大脑会产生奇怪的反应;
- 当他从事一项消耗十年时间的工作时,很难放弃你已习惯的确定性和目标;
- 公司的增长轨迹超过了他曾经的任何梦想。他很开心,感到安全。明天一切都可能化为乌有,但那也没关系;
- Loom 的成长创造了一张复杂的内化不安全感的网络,他现在必须努力理清并摆脱;
- 现在他在夏威夷,并学习物理。为什么?我告诉自己的原因是为了建立他的第一性原理基础,以便我能创办一家制造现实世界事物的公司。
- 他已经很久没有与自己完全坦诚相对了,所以他对自己说的和做的一切都保持健康的谦逊。这是唯一感觉真实的方式。
如何更有效地寻找工作机会?Herbert Lui 建议可以通过自己的关系网来找到内推机会:
- 找到职位广告,然后从那里倒推(例如,在 LinkedIn 上是否有我认识的人(第一层关系)或认识某人的人(第二层关系)在该公司工作?)
- 如果认识第一层关系的人,就联系他们,询问他们是否愿意向公司推荐我;
- 如果是第二层关系,发送一封可转发的电子邮件,并询问他们是否能够转发邮件并在收到积极回应后进行介绍;
- 抽出时间与好朋友叙旧还有一个额外的好处,他们有时认识在招聘的公司工作的人;
- 你不太熟悉的人可能接触到与你完全不同的网络,从而会遇到非常不同的机会。
Dwarkesh Patel 去年底花了两周时间在中国旅行,记录了一些有趣的见闻:
- 中国基本上与美国存在相反的问题。美国补贴需求并限制供应。中国补贴供应并限制需求;
- 即使在中国农村,许多人也住在大楼里,而不是自己的独栋房子里;
- 政府建筑遵循相同的模式:巨大的建筑物被极宽的林荫大道分隔。这种布局似乎部分是为了社会控制而设计的;
- 中国确实到处都是摄像头。这听起来可能很幼稚——但我真的不明白为什么。这里没有犯罪。我知道你会说这是为了防止抗议;
- 就像学校枪击事件在媒体上频繁出现,但你实际上不太可能亲身遇到,对中国共产党的抗议也是如此。你极不可能偶然遇到它们;
- 他交谈的几乎每个人都承认经济不好,许多人都指责政府的决策;
- 他与一家非常成功的社交媒体初创公司的CEO聊过。他说,一些最受欢迎的账号在发布关于女权主义和其他看似自由的话题。他还说,只要这些内容不直接批评政权或任何特定的政治领导人,他从未不得不将它们下架;
- 明确来说,这是一个威权体制,他当然会对自己在那里所做的事情感到不舒服,但它绝对不是朝鲜;
- 他仍然困惑于中国如何同时面临人口崩溃和大量的青年失业问题;
- 他在那里听到的一个解释是,虽然有很多低级工作可供选择,但如今受过高中和大学教育的年轻人,不愿意从事他们的父母和祖父母曾做过的低技能职位;
如何用一个简单的方式提高你的效率?oreghall 分享了一个看似困难又极其简单的办法:
- 做任何事之前,先在纸上写下这一个决定;
- 这么做有两个好处:一是消除冲动行为,迫使人们在做决定前进行反思;二是帮助克服优柔寡断,以便迅速做出具体决定;
- 尽管这个方法看似严格,但实际上具有灵活性,可以随时取消决定,只需在纸上划掉;
- 写下的决定不需要非常具体,只要与最近的决定相符即可。
关于 Deepseek 的 R1 模型发布,由众多的分析文章,生活在台北的 Ben Thompson 写的这篇深入浅出,非常透彻:
- 技术上,Deepseek 最大的突破就是把训练成本降低了两个数量级,这主要是因为他们运用了 DeepSeekMoE 和 DeepSeekMLA,其实他们早在一年前就在
V2
模型中运用了,只不过这次更加精进; - MoE 指的是“专家混合”(mixture of experts,它将模型拆分为多个“专家”,仅激活必要的部分,这样可以大大降低推理成本。在
V2
中实现的DeepSeekMoE 对这一概念进行了重要创新,包括将专家细分为更精细化的专用专家以及具备更通用能力的共享专家; - DeepSeekMoE 还引入了训练过程中的负载均衡和路由新方法,他们的做法使训练同样更为高效;
- DeepSeekMLA,即多头潜在注意力机制,使得压缩键值存储成为可能,从而在推理过程中大幅降低内存使用量;
V3
的训练成本低得令人震惊。DeepSeek宣称,模型训练总共耗时2788千H800 GPU小时,按每小时2美元计算,总费用仅为557.6万美元。尽管参数以 BF16 或 FP32 精度存储,但在计算时会降至 FP8 精度;而2048台 H800 GPU 的总计算能力达3.97 exaFLOPs,即3.97万亿亿 FLOPS;- DeepSeek实际上将每台H800中132个处理单元中的20个专门编程,用于管理跨芯片通信;
- 为了突破 GPU 带宽的限制,DeepSeek 工程师不得不优化 PTX——Nvidia GPU的低级指令集,基本上相当于汇编语言。而使用带宽更多的 GPU 则根本不需要考虑这些,只要在 CUDA 上优化即可;
- 如果 DeepSeek 能使用H100,他们可能会选择更大规模的训练集群,而不必进行如此多针对带宽不足的优化;
- 对于公司而言,在自有模型上进行蒸馏较为容易,因为他们拥有全部访问权限,但你也可以通过API,或者更具创意地通过聊天客户端,以稍显笨拙的方式进行蒸馏;
- 若微软能以极低成本为客户提供推理服务,则意味着他们可在数据中心和GPU上的投入大幅减少,或者更可能,由于推理成本极低,使用率将显著提升;
直觉是否准确?David Perell 结合高尔夫的发展告诉我们,很多直觉与科学相背:
- 开球和150至225码的距离击球,是打出低杆数最关键因素;
- Bryson DeChambeau 意识到,若想登顶世界第一,他需要让开球更远——这挑战了传统观点即精准度比距离更重要;
- 他的体重增加了40磅,成为巡回赛中最远开球者。2019年,他的开球得分排名第24位,开球距离排第34位。一年后,这两项均列榜首;
- 2020年,Bryson的平均开球距离达323.8码,创 PGA 锦标赛历史纪录。在四杆洞和五杆洞的开球上,他平均比巡回赛选手长18.6码,同时保持每轮击中球道的平均次数;
- 不要只看表面;要用证据说话。这是颠扑不破的真理。Bryson 证明了:一个坚定的怀疑论者,凭借正确数据和明确计划,可以颠覆陈规并证明有更好的方法;
- 实际上,采取分析方法可以让你拥有更强的直觉;
- 直觉不像我们想象的那样一成不变。借助正确的工具,它会随着时间提升。
最近 NBA 发生一场十分诡异的交易,小牛队拿自己的头牌选手 Luka Dončić 换取了湖人队的 Anthony Davis。Jia Jiang 认为这后面的决策过程违反了两条常识:
- a. 使用原则,而不是预测;b. 不要试图成为房间里最聪明的人;
- “对我来说,未来是三到四年之后。至于十年后的未来,他们可能会埋葬我和J-Kidd(主教练),或者我们会自己把自己埋了。”
- 世界是不可预测的。这就是为什么不要试图去预测它,而是要建立原则并遵守它们;
- 很多非常聪明的人的失败,都是因为他们基于“专家预测”对未来做出判断,而这些预测往往是完全错误的;
- 这是我的原则——买入并持有那些我热爱且离不开的产品的股票;
- 用人生经验来建立持久的原则。当你找到自己的原则时,就要坚持它们。永远要用原则,而不是预测,来指导你的决定;
- 在生活中拥有原则,就像做出了几个重大决策。它能让你摆脱情绪、预测和环境对小决定的干扰。
如何引导我们的好奇心?Anne-Laure Le Cunff 给出了她的建议:
- 好奇心和冲动性有相似的神经机制,二者在大脑的奖赏系统中相互关联。虽然好奇心能够促使知识和创新,但也容易被低价值的信息所劫持;
- “好奇零食”是一种引导我们冲动的好奇心走向学习、创造和有意义的策略;
- 好奇心可能是冲动的。但最聪明的策略并不是与它对抗——而是引导它;
- 把手机主屏上的无意义应用程序替换成能激发你好奇心的应用程序。
- 书籍越容易拿起,你就越有可能阅读它们;
- 寻找那些倾向于分享有趣想法的创作者和同样充满好奇心的人。如果你掉进了一个“兔子洞”,至少它是个有趣的“洞”。
Archive
本周的生产力日报集合就到此为止,如果你有什么建议,也欢迎留言告诉我们。如果想要收到最及时的推荐,不妨订阅我们的频道,或者付费解锁更多增值内容,我们下期见。
如果你喜欢的话,不妨直接订阅这份电子报 ⬇️