2024-11-30-丁立的十一月科研随手记

包罗万象,从科研idea到心理建设,啥都有

Posted by DL on November 30, 2024

相关网站汇总


科研输出各阶段

  • 输出1.1:有潜力发表研究性论文的idea:见《科研论》的【搜】【聚】【分】章节。打开《科研论》2册及之后的系列,你会发现目录中我会标记出了【搜】【聚】【分】等关键词帮助你定位。

  • 输出1.2:以最小工作量证实上述idea可行或者不可行的研究方案:见《科研论》的【验】章节。

  • 输出1.3:在获得输出1.2的过程中,也可能会获得一些比原先idea更为让人觉得激动人心或者觉得更有意义的研究思路。类似本来想去的是印度,结果却来到了新大陆。这种我称之为“意外驱动的idea”:见《科研论》的选题章节。

  • 输出1.4:基于输出1.1中获得idea,在输出1.2中验证可行后,或者在输出1.3中获得意外驱动的idea后,整理出完善的可达到投稿程度的研究方案,并根据这样的研究方案开展研究工作,获得相应的研究结果:见《科研论》的【合.图/表/公式】章节。

  • 输出1.5:将研究结果组织成研究论文并投稿:见《科研论》的【合.文】章节。

  • 输出1.6:撰写并投稿综述型论文:见《科研论》的【合.综述】章节。

  • 输出1.7:组织论文的返修稿和答复意见(如果需要的话):见《科研论》的【合.修改稿】章节。

  • 输出1.8:撰写毕业论文:见《科研论》的毕业论文专栏。

  • 输出1.9:组织毕业答辩的资料:见《科研论》的毕业答辩专栏。

  • 输出1.10:做出毕业后的选择:诸如读博(针对硕士生)、职业规划、生活成长等方面的选择:见《科研论》的考研考博职业规划专栏。

  • 输出2.1:指导和管理团队:见《科研论》的青椒专栏。

  • 输出2.2:选择职业发展路线:见《科研论》的青椒专栏。

  • 输出2.3:撰写申请书:见《科研论》的基金申请专栏。

  • 输出3.1:与真实世界互动,解决某个群体广泛遇到的痛点问题:见《科研论》的真实世界专栏、debug专栏、解决问题综合专栏。

  • 输出3.2:与真实世界互动,提升认知:见《科研论》的真实世界专栏、第一性原理专栏。


医学研一,乳腺癌方向,放养状态,没课题,迷茫没具体研究方向,如何在这么大的范围内选题?

围绕乳腺癌+骨转移,先钓鱼法搜索,再鲸吞法,搜索分组完了之后,你就知道自己可以做什么样的实验了,然后再进入【验】步骤。

【验】步骤通过后,就进入【合】步骤,三位一体的方式进行投稿,涉及的专业名词听不懂的话,看上面这个连接。

还有就是也可以看几篇乳腺癌方面最全面的综述,看看这方面的研究主要有哪些部分,然后哪几个部分看上去是实验周期比较短的,你就开始做这个部分。

详细内容


觉得自己被PUA了,应该调整如何调整心态?

“觉得自己被PUA了,应该调整如何调整心态?”,这是我经常遇到的一类问题。

关于是否被真的被PUA,我这里很难判断,也不会去做判断,因为我觉得去费心思判断自己有没有被PUA意义不大但我有一个目前为止,我发现应对一切PUA都比较有效的方法,即:我命由天不由我。注意别看反了,不是我命由我不由天,而是我命由天不由我。

面对那些PUA你的人,你想:既然我命都不由我,那更不可能由你了,而且甚至你自己的命都不由你,那你还能PUA我么?

我个人认为“我命由我不由天”这种看法实在太过无知,太不敬畏自然了,且说明他对无知本身也一无所知,当然开玩笑或者特定语境下使用这句话不在我讨论范畴内。

对我们而言,最为起点的我们来到世界上这件事情本身也根本不由我们。当然有一些人可能会说我们能来到这个世界上,是因为自己是当年游的最快的那个。但显然不是,有“人”比你游得更快,但当面前出现分叉,出现两条路的时候他们选了一条没有结果的路。

但至于为什么会二选一,为什么你选这条而没有选另一条,完全是个随机事件,跟你聪不聪明,努不努力根本就没关系。如果有平行字宙,或者想象我们这个世界是蒙特卡洛模拟产生的,当这个模拟再来一次后,来到这个世界上的大概率不是你,而是别人。

既然连我们来到这个世界上都不完全是因为自己的努力,而是自然演化框架中的随机事件触发所致。那么,谁还能真的相信自己的努力还能如何如何吗?这毕竟不是网络爽文小说,动不动就逆天改命什么的。但千万别断章取义和咬文嚼字,我没有说不要努力,请继续看完整。

有人会觉得某人天天996甚至007的模式工作,然后改变了世界,就觉得他改变世界是因为超高强度的工作,觉得自己只要这样做,也“定能胜天”。

确实有少数“成功者”幸运地被大众看到了,但这是很明显的幸存者偏差效应。假设一件很难的事情有1%的达成率,那只要人群基数够大,1000多个996工作模式的人中,必定会有一个人取得了世俗认为的成功。那有人就归功于996,但实际上另外失败的999个人也同样非常努力的工作,只是因为这样的工作模式太过摧残身体,他们早早出局了,而失败的这些人是没机会发声的,也不会有人去分析的,导致幸存的那一位被简单地归因于是因为他996。

而真实原因是这样摧残身体的方式,大概率(比如有99%的人)身体会扛不住,但毕竟不是100%的概率,所以总有那么1%的人会扛过来,然后这样的“幸运者”,人们误以为他的成功是因为996,而没有意识到纯粹只是因为大自然的随机事件带走另外99%的人而留下了这位。

就和当时二选一时候,一半的精子去往了注定没结果的路,但这是因为他们不够聪明,不够努力么?

其实这样的归因谬误、缺少统计思维的认知误区在生活中非常常见,甚至在有一些专门研究概率的专业领域中也存在这样的认知偏误。

比如有的人会觉得某个基金经理前两年的业绩特别好,所以认为他很专业,第3年还买他管理的基金,但是我举另外一个例子,你可能就会明白这个认知偏误在哪里了。

比如你给一群鸡撒一把米,然后这些米就分别对应股票代码。然后你做个简单的图像识别,你就根据某只鸡啄的米去决定给这只鸡“买”这粒米对应的股票。只要鸡和米的数量足够多,比如有2000多只。你就会发现至少每天都有一只鸡会买到涨停板的股票,甚至有一只鸡连续三天都会买到涨停板的股票。

那么接下来到了第4天,你会认为这只连续三天买到涨停板股票的鸡很厉害,然后就根据这只鸡啄的米去决定买哪只股票吗?你显然不会,你觉得这就是个随机事件。如果把许多鸡啄米的事件看作随机事件,那么假设每天有5%的股票涨停,2000多只鸡中,就有可能有100只鸡“买”到涨停板的股票,有5只鸡连续2天都会买到涨停板的股票。

但为什么到了选择基金经理的场景,你就会忘记这点呢?比如你会根据过去几年的业绩来决定选谁。那你真的做过统计么?你有以20年为周期,统计过能长期跑赢指数的基金经理的比例真的超过随机事件的概率了么?甚至最简单的你统计过前5年业绩排名前10%的基金经理,他在下一个5年,还能继续维持前10%的比例到底有多高吗?

这种原理就和另外一个骗局很像,也许有人会收到一份邮件,这里面是涉及预测的。他会发现自己收到的这个邮件中,提到的预测连续20次都预测对了,他就会感到非常吃惊,然后第21次预测中,邮件中要求他打钱过去,他就打钱过去了,然后发现被骗了。

本书开头重点讲的选择篇也是从分子除以分母的角度切入考虑问题,但你会发现很少有人是这样考虑问题的,大部分人只看到了幸存的分子,误以为只要照着分子的方式去做,自己也能成为分子,而没有去统计分母中,到底有多少做法是和分子极其类似但最后失败的。

缺少这样的统计思维很容易导致后期踩上各种让他们感到特别“emo”的坑,然后还抱怨是环境不好,但实际上是当时做下的选择就已经意味着大概率会遭遇这样的处境了。

注意我没有说科研不要投入时间,或者是个极其轻松的事情,我说的是要正确认知自己和世界的关系,我个人不建议以摧残自己身体的不健康方式去从事任何事情,包括科研这个事情。

我们摧残大自然,最后地球还在,但人类很可能因此而无法生存。我们摧残自己的身体,身体最后也会加信惩罚我们,那个时候还怎么继续科研工作呢?而且我甚至认为在身心愉悦的情况下,人体反而能产生更强的创造性。

既然通过以上讨论,你会发现我们所取得的一切都不是只取决于我们自己,那显然更不取决于对方给我们的定义了。有的人会说你说的不对,自己或者某某人就是很努力,每天只睡4小时(PUA者通常喜欢给对方下定义、贴标签)如何没有周末,如何天天睡办公室加班。

那我只能再次说,你显然太不敬畏大自然了,你能“努力工作”20个小时,晚上只睡4小时,那是因为上天给了你一个好身体或者随机概率还没轮到你,换别人可能已经住院了。

如果我们用蒙特卡洛模拟,把他说的这种所谓“努力工作生活”模拟个1000次,可能在900次的模拟中,40岁就已经住院了,他只不过是运气好,出现在剩余的那100次模拟样本中而已,但是他如果因此就PUA别人,要让别人都像自己学习,那我不知道这样好不好。

读博和工作期间,用极其不健康的作息方式取得了一些“好”的成果,就以为是自己压榨了更多的休息睡眠时间,都投入到工作上,所以才取得了好的成绩,但如果我们把所有此类情况都作为分母统计,就会发现还有大量的人,因此导致身体不好,大脑的思考能力下降,输出反而更弱了。

而那些少数“胜出”的分子,可能是因为他们基因表达的情况,决定了他们能承受这样的强度,但不是所有的人都能承受这样不健康的工作模式,也可能是这本身就是个概率事件,总有一些幸运的少数人会胜出(被概率“选择”为分子),而另外大部分人被概率“选择”作为分母。

所以如果让所有人都经历一次牺牲作息的超高强度工作模式,那可能也就5%的人能跑出来,90%多的人最后就受不了了,既然身心都受不了,都不健康了,生活还能因此好么?

另外,什么是好,什么是坏呢?你观察一下身边这样和你说的人,他们的生活就算好么?他们的成就又如何呢?比如提升人类认知的文字中,有多少东西是他们贡献的呢?比如真实世界中,天上飞的,地上跑的,我们手里用的,又有多少东西是源自于他们的贡献呢?

所以再次重复,如果能有我命由天不由我这种认知,那你想,谁还能PUA你呢?连我自己都说了不算,何况说我不行的你?

我小时候就是这样度过的,因为也有老师会说我笨,脑子不聪明之类的(当然后来也有老师说我聪明),但我觉得这又so what呢?他们能说这样的话也不是他们决定的,而是大自然给他们的基因和这些基因所带来的基因表达让他们说这样的话。我为什么要和大自然较劲呢?我也不可能较劲地过大自然。

而我将来会是怎么样的人,也和他们说的话没什么关系,这些说我笨的老师也没法考进我能考进的学校,认知上也无法到达到我现在的认知。当然我能体验这些,有了先前的铺垫,你会明白,也是受大自然的随机事件所决定的。

所以我对于上不上进,努力不努力的看法也并不是单一维度的、“二极管”式的。有的人习惯老婆孩子热炕头,到点准时下班,周末就想去哪玩,这为啥不可以呢?当然,谁也别PUA谁,这些人也不要PUA有的很喜欢工作的人,嘲笑那些人没生活,比如我就是很沉浸于工作,有时候出去玩,反而会特别困,提不起精神。

所以这里也再次反映,每个人是什么样的特质或者说体质,都不是自己决定的,但是不做自己,去做别人,会很痛苦。所以B PUA A的逻辑是站不住脚的,B又没有A的基因,凭啥要求A如何如何呢?

你让喜欢写作的人去做他不喜欢的、但别人觉得前景很好的牙医,那世上可能只会多一个平庸的牙医,但少了一位杰出的作家。

如果有人读博士就是为了能接受系统的科研训练,随后准时毕业进入工业界工作,我觉得也没什么问题。如果要说有什么问题的话,那最好是在读博前,学生和导师双方就沟通好这点,如果双方不接受,那就提前得知,这样双方都可以选择一个更合适的人。

所以在有的场景中,可能某位老师,因为出于自己对科研的热爱,或者对学生的严格要求亦或是自己正处于关键的职业上升通道中,他会说,“你对自己的要求太低了,你要发表怎样怎样的论文才能毕业”。但在工业界中,也许有前辈会觉得,“你这样早早明确自己的目标,准时毕业出来解决企业中的实际问题,也挺不错的”。

所以有些事情,特别是观点类的事情,是没有标准答案的,嘴巴长在别人身上,“上下两瓣嘴,左右都是理”。就跟写作文一样的,哪怕是同一种观点,我们可以写出单边支持这个观点的论文,也可以写出单边反对这个观点的论文,还能写出正反两方都支持的论文。

少数人可能会曲解认为,那既然我命都不由我,那是不是干脆躺平就行了,还努力干嘛?

但这完全是两码事情,就好比我们去影院看电影,任何电影的剧情都是已经设置好的了,那你会觉得那我干脆别看电影了么?你还是会非常享受看电影的过程的。科研的最大乐趣之一也是如此,如果你从事的是真正的科研工作,你永远不知道前方等待你的剧情、等待你的脚本是什么。

打游戏也是一样的,所有的代码都是已经由程序写好的,但你是不是也打的很high?甚至很多人还沉迷其中。

我的意思是让打的很high的人去打好了,别去PUA他们,但打的很high的这批人也同样别去PUA和评价那些看到游戏就犯闲的人,说:”你要努力,你要上进,你要像我这样,我都可以,你凭啥不行?”那看到游戏就犯闲的人可能做个别的什么事情就比游戏宅男厉害很多呢?何况一些人说的努力只是“努力”消耗自己的精力,而完全没有获得认知的提升。

另一方面,对另一部分人而言,一直躺着,不难受吗要真能躺的了一辈子,这也是要有本事的(还是需要大自然给你相对应的基因代码才行)。

所以我觉得意识到我命由天不由我的那一刻,属于你的人生剧本才正式打开,你不需要再去用自己短暂的一生去过别人定义的人生、别人编导的脚本,而是见证你自己独一无二的人生。

眼下的事情真的只有这一条路径么?有什么一定不能放弃的事情么?

一旦有我必须走成这条路、非如何如何不可的想法,那就极其容易被人PUA,别人就可以拿你看中的这个东西来PUA你。就算博士毕业了,以后在职场中,还是会遇到这样的问题。

硕士或者博士也不是人生终点。博士毕业后是要干嘛呢?有人答复求职,那求职又是为了什么呢?

如果是为了学术理想,那其实也不只是博士一条路,有些没博士学位的,开心做一辈子科研,甚至最后拿到诺奖的人也有。当然,做科研别一定要求自己拿到诺奖,否则又容易陷入幸存者偏差的执念中,其实只要有个目标持续让你追求,你就会有幸福感了。幸福感是出现在你追求目标的过程中,而不是出现在你获得了目标后。如果你觉得自己做的东西就是让你感到很有意义的,你可以给你自己颁发属于你的“诺奖”。

那如果是为了生计或赚钱,那选择更多样了,甚至我们会看到有哈佛的学生,还“嫌弃”继续呆学校耽误自己做事业,休学甚至退学创业的。再次提醒,别陷入幸存者偏差和认知偏误效应,他们显然不是因为退学才创业成功的。举这个例子只是告诉你有多种解决生计和赚钱的方式。

如果眼前这条路会持续以摧残自己身体为代价,为什么不可以放弃呢?我相信至少你的亲人都会坚定支持你的。我没有额外提及心理,因为我始终认为心理就是隶属于身体,心理不健康也就是身体不健康。

如果对方知道你是可以放弃这个选项的,他反而就没去PUA你了,你甚至可以拿下这个选项,并不需要放弃了。这就也这个东西,没有其他选项的话,那他有可能漫天要价,让你承像买卖一样的,如果对方知道你势在必得,必须要买首你还有其他选项,如果超出你承受能力,你就会放弃这个选受不起或者付出很大的代价才能获得。但如果对方知项,那他就会考虑出一个合理的价格了。

条条大路通罗马,干万别卡死自己必须走水路,还必须只能1年内要达到之类的。

详细内容


科研关键词确定

多组学+乳腺癌+骨转移+疼痛敏感性差异

当然,假设你做的是AI+电催化材料,也并不意味着你之后搜索的时候只能完全局限在电催化材料。其实也可以适当搜一些AI在其它材料如光催化材料甚至电池材料领域中的研究,因为说不定他山之石可以攻玉,一些在光催化或者热催化中的研究成果也可以借鉴到电催化材料中,因为领域中有一些要解决的问题是共性的,比如说提升材料的本征导电率、或者增强某一个中间态物质在这个材料表面的吸附等等的。

最后你会发现自己非常难打开思路,因为你相反,如果你搜索的时候只局限在和你的研究高度相关的那些关键词中,”会发现每一个你能想到的idea都已经被人报道了。

所以这里有两个概念要区分开,尽可能充分获得那些你导师希望你研究的课题相关的关键词,和使用什么样的关键词以及关键词组合去搜索以帮助你打开思路,这两个作之间有关联但并不是完全等价的,具体可以参考《科研论》的搜商章节


针对特别在意别人的评价,觉得自尊心很容易受伤–在远方设置焦点

······

当然有人会说我一直被批评,这样我不知道应该怎么发论文。这就引出了另外一个很典型的认知误区,一些研究生还会停留在初中高中时代的思维方式,觉得一定要亦步亦趋的听从他人的指导才能发表论文。别人没教他,他就不知道怎么做了。这样一来,他确实会非常在意他人的评价,因为他们会失去对研究工作的自我判断能力,只能完全依赖他人的评价去评估自己研究工作是否顺利。

······

总之,选题、实验、发论文才我们需要投放大脑“带宽”资源的主要动作,至于他人的评价,你收到的负面反馈,和以上3个动作并无关系,所以当你每次又陷入反刍别人评价的时候,就立即问自己以上3个关于选题、实验和发论文的问题。

当你聚焦到这些具体动作时,你也就没精力去反复反刍那些负反馈、反刍别人对你说的不愉快的话,反刍自己的想法,反刍你对别人说了什么话上。而且随着你一个个动作达成,最终收获了成绩,只要不是太过份的人,此时应该也不会一直给你负反馈的。

这也是我经常提到的围魏救赵的解决问题的思路。有时候要解决一个问题,我们不能直接去解决这个问题,因为有的问题也解决不了,比如他人评价和负反馈就属此类型,毕竟嘴巴是长在别人身上,我们也无法干预。所以这时候就需要提出另一个新的问题,当大脑在思考新的问题的时候,自然就没有精力再去思考那些无法解决的问题了。而且这个新问题需要具备这样的特点,当它被解决后,其他问题也就不再需要去解决了。先前举例的3个动作就有这个特点,研究生期间一旦顺利发表论文和毕业,评价和负反馈都不再是需要关注的问题了。

把问题交给时间,等时间来解决。给问题一些时间,让自然发挥自然之力来解决它能解决的80%的问题,不要那么着急地把自己的一些问题用各种手段干掉。再往下说一点,也就是说你要战胜自己【想迅速消掉一些症状】、【想迅速摆脱任何问题】的这个心魔。

这种焦虑——【我想摆脱我的问题】——本身就会滋生更多的问题。你在心魔来袭时采取的任何一个行动,都会立即影响到其他所有的事物;你缩小其中一个事件的不确定性,就会立刻放大另一个事件的不确定性。表面上你是在解决问题,其实是在制造更大的问题。

不管是在生活当中,还是在工作当中,我们总会遇到各种各样随时出现的关卡,这个时候最不该做的,就是本能地把自己的注意力和精力全部集中在眼前的这个问题上,你越是这样做,这个关卡就越是不能过去,你所有的努力都只会是“可怜无补费功夫”。

······

所以你会发现,如果你要在意别人的评价,每天都会过得很崩溃。所以我当时就让自己想一些尽可能远期的事情,比如只考虑几年后的高考,然后将动作都放在提高高考成绩上。如果思考不动了,我就会思考一些更远期的事情,比如高考后,毕业后,又想干嘛呢?大多数人不就是为了找一份好的工作嘛,那找一份好的工作又为了什么呢?很多人也就是为了多赚一些钱,那既然最终关注赚钱的话,赚钱的方式有很多。不只是有个好的学历和找一份好的工作,比如投资就是另一种方式。

所以当我以终为始,以远期的目标为导向后,视野就完全不同了,就像在深处泥潭的位置,放了个无人机上去,清楚俯瞰了整个局面。比如这些说我笨的人,他们至少都考不上几年后我能考取的学校。所以英语老师说我做卷子的时候,脑子一团浆糊,这重要么?毕竟以后批我卷子的人,是高考卷老师,又不是他。

当然有人会说这样的目标很狭隘,但是要注意我给出的一切答复都是有具体语境的,面对那些不得不(即have to)的事情,我才会用这种目标(0bjective)导向,高度关注关键结果(Key Results)的OKR模式。通过将注意力放在具体的动作上,尽可能让大脑的“带宽”别消耗在内耗上。

一旦你把动作做到位,事情做成了,别人对你的评价还重要么?

“莫欺少年穷”,那些不针对事情,随意错误评价他人的人,他们怎么知道这个年轻人在未来不会比他做的更有成就呢?所以这样一想,是不是任何人对你的评价根本就不重要,重要的是当时当刻,你手上的动作到底是什么,你要把每个动作做好,他们对你的评价你只是选择性地听,只听取那些对你把动作做好有帮助的信息。

想象你已经在爬一个悬崖峭壁了,下面很多人说,“唉,你快下来啊,你要摔死的,这个地方你爬不上去的,你能力不行的”,但你要关注的是他们在说什么么?重要的是你眼下的每一步到底怎么走,你要避免让自己踩到不牢固的石块上,你要通过节奏的调整,让你的手臂始终保持握力,抓住下一个最合适的部位,并让脚固定到下一个适合的攀登位,你每时每刻灌注注意力的是这一系列动作。

当你大脑的“带宽”都放在这些动作之后,你会进入全神贯注的心流状态,他人的评价也就不会入你耳了,何况当你登顶成功后,当你从山顶看那些评价你的人,你还能听得到他们的评价么?

所以关于“如何不在意评价”这个事情,如果你这么问,其实就已经输了,就好比你问我,自己如何别去想粉红色的大象,那么你脑子中必然跑出来一只粉红色的大象了。

问如何不在意他人评价这个问题也是,一旦问了,那就说明他人的评价已经在深刻影响你了,要想让这个问题别影响你,你就需要给你的大脑提出其他问题,比如我知道自己要做什么实验了么?这个实验可能会以哪些方式失败,针对这些可能失败的原因,我的对策是什么?我还要完成哪些实验工作,从而可以进入论文写作阶段?

等你沉浸进去后,你就会慢慢忘记别人评价你这个事情,而且你持续取得进展后,别人的负面评价说不定也会随之减少了,就算他们还在评价,至少你已经拿到了你要的结果,就快要脱离这样的环境了。


低耗能步骤的设计

但这其中存在一个难点或者说新人容易忽略的点,即我们长期处于负反馈中,有可能导致我们能量不足,而如果此时你设计的动作所需能量太高,就会让你的身体排斥行动,导致始终停留在反刍负反馈的境遇中,而这样的反复反刍又进一步削减了自己行动的能量,产生恶性循环,最后只能做些耗能非常低的事情了,比如游戏、刷短视频、内耗、沉迷吐槽(我不是说完全不能吐槽,而是说彻底沉迷导致无法行动)等。

就好比你处在能量不足的情况下,一次要跨三个台阶你的身体会觉得太难,反而就会躺着不动了。所以你设计的动个台阶,你会觉得不太难,跨完一个台阶再跨一个,那不知不觉作要尽可能的让动作阈值尽可能得低。比如只是跨的,原先没法跨过的三个台阶也就跨过了。

所以《科研论》的五步法也是按这个模式设计的,其的每一个步骤都是设置为最低的能量值就可以启动了。当然从个步骤的阈值(操作难度),导致步骤的个数会有些多,5个步另一方面看,它也有“缺点”,它的缺点就是为了降低每骤中还会包括一些小步骤。

但通过多个步骤的拆分,就相当于把本来一次性很难跨过的台阶,拆开成20个小台阶,每一个小台阶的耗能都尽可能降到最低,这样即使你处于情绪低潮的过程中也能够使用。当一个个小台阶跨过之后,你不知不觉就会发现原先的目标已经达成了。

所以当你处于负反馈包围,能量比较低的时候,设计动作的时候也要注意动作的分解,先让自己跨出一小步。比如写作的时候,你别笼统地说我要尽快写完这篇论文,那你的身体可能会抵触,去做哪些低耗能的事情了,比如内耗,上网闲逛,有的人是则是吃东西之类的(所以为什么有的人压力越大,反而越想吃东西)。

你可以说我今天只用【合.文6】步骤写完引言中的前5句话就行了,你这样规划完之后,也许会发现上午就写完了,那接下来下午你就可以再写几句话。

如果有的学生他说我英语写作基础太差了,写几句话也不行,那我就跟这样的学生会说,那你就别写,你只要用搜钓鱼法】或者【分.搜分】步骤找到10篇可以做文字素材库的论文就可以了。

总之我们一定有办法通过任务的分解,把这个任务拆解成一个个低耗能的动作,通过多个低耗能动作的叠加,让你完成一件原先你的身体抵触的高耗能任务。

这就有些像水流朝着自由能降低的方向行径,你要通过设计,使你的动作始终处于自由能最低的方向,从而可以让水流经过你设计的路径而不是其他地方。

所以针对那种会干扰我们达成目标的负反馈,我们如果只是坐着不动,就想忘记别人的话,那是很难做到的,而且越去强迫自己忘记,就反而越强化。想想如果我让你别去想粉红色的大象,你越控制自己别去想,那头粉红色的大象在你脑海中的形象只会更加生动。

所以我们只能通过低阈值的行动,去做些什么事情(包括运动),去占满自己大脑的“带宽”,让他没有带宽去处理(也就是想)负反馈的事情,而不是强迫自己说你要提高自己的效能,你别去想整个事情,越是这样,反而你越是容易陷入在负面情绪中。

当我们用行动塞满了自己的1天、1周、1个月后,那负反馈的话自然也就淡忘了。当然也不要太咬文嚼字“塞满”这个表述,总有干不动事情的时候,这个时候如果负反馈再次来到我们脑海中也正常,也不要刻意去和他对抗,更多的内容可以参考我在其他案例中的回答,关于窗台上的黑鸟。

幸福也是如此,一直想到底如何才能幸福的人反而有可能不幸福,因为幸福的人已经沉浸在去往工作路上的憧憬中、工作过程的心流中、回到家后和家人围坐在一起吃饭的温馨中、充实地过完一天上床的满足感中,他们已经不会再有闲暇去思考是否幸福,如何才能幸福了。反而在思考如何才能幸福的过程中,哪些原本属于幸福的时光被流逝了。

包括我先前说的,比如我被老师说笨,也很负能量的,对不?但我当时想的就是我回去后要做什么题目,这些时间如何安排。那最后我考分很好,我也就离开这样的会产生负反馈的环境了,过去被别人说笨的那些不愉快经历,现在则是想来觉得有趣的、可以用来答复问题的谈资了,不是么?

如果这样还不够,那就想想爱因斯坦小时候是不是也被人说笨(负反馈)?马斯克小时候也被霸凌?他们需要去思考如何应对这些负反馈么?我觉得并不需要,他们只要做好自己就好了。

所以我个人感觉,我们更多的还是要考虑毕业后的规划,毕竟我们归根结底是要跟自己相处一辈子,而不是别人。因此别人的建议,合理的地方采纳,觉得和自己不兼容的地方,我觉得也不一定要完全照搬吸收。

当然,这里面会有一些例外,就是有的时候,别人的建议是站在你的角度提出的,只是你还没到那个阶段,所以不理解,认为那属于负面评价和反馈,但提建议的人已经度过了这个阶段,他能清楚看到你眼前的几条路是什么样的,所以他给了你一些建议。具体如何判断,等你将科研论的整个模块化工具看完后,你就会有感觉了。

详细内容


行动为先

所以你要相信自己的大脑,相信自己的身体,你想一想你是什么学会说话的,我想没什么两三岁孩子是先去”啃”了语法书,才学会说话的,而是先去做模仿别人做了“发声”这个动作,然后再从外部的反馈中(人家听没听懂我要说的内容?),逐步才学会说话的。

公式代码算法仿真建模等等看不懂也是类似的道理,你先去想办法“做”(我一直重复的复现就是做,而且就是模仿前人已有结果),哪怕你刚开始完全不懂,做出来的结果也很变形或者压根没有结果,那也没关系。就是通过这样一个不断试错的过程,大脑自然而然会开始理解应该怎么做才能做好。即使是写语法书的这批作者,他们也不是先发现语法规则才知道怎么说话的,而是先去大量说话,然后又听了别人大量说话,最后从大量的语言表述中发现这个表述存在某种语法结构,然后才总结出书的。

所以其实我们为什么会普遍觉得公式和代码很难,就是因为我们学习这些东西的过程中完全脱离了真实环境,我们没有去用它,没有用的东西其实是很难理解、很难学会的。

只要你动起手来,无论这个结果是好是坏,或者让你还是感到迷茫,你都会有收获,但如果你迟迟不动手,只是单纯的让大脑漫无目的的去硬啃这些看不懂的代码公式等,可能就什么收获都没有,何况你硬啃的这些东西其实也有定概率是错的。

我现在教你的方法就是你可以先囫囵吞枣,不求甚解,尽快先用起来,在用的过程中自然就会搞明白它的功能是什么(类似读书百遍,其义自现)。

而且更重要的是,最好能试图想想,为什么有人会想出来这样的公式,他是怎么想到的,从来没人教过他,他是怎么想出来这个公式的?而为什么其他人就只能去试图理解甚至去背默他的公式,我觉得这才是更精髓的。不只是说你能不能看懂公式,能不能推导。

详细内容


bulkRNA 做拟时序分析

在 bulk 转录组中,拟时序的对象不再是细胞,而是基因(严格意义上来说,不清楚这种分析是否也能被称为拟时序分析,在本文中暂且将其称为拟时序分析)。在 bulk 转录组中,一般只有少数样本,最多可能 20-30 个样本点,其分辨率远远达不到单细胞转录组中的几千甚至上万个细胞的分辨率(在单细胞转录组中,1 个细胞即可被认为是一个样本点)。因此用 bulk 转录组进行拟时序分析时,首先需要将少数几个样本点变成 500 或者更多个样本点,这样才能更好地根据基因表达的峰值的时间点来对基因表达的先后顺序进行排序,进而得到“拟时序”的基因。

分析思路:

  • Step1:对样本点进行 PCA 分析,并通过 PC1 和 PC2 计算样本点之间的欧式距离获得时间线,最终将时间线缩放到 0-10 之间。
  • Step2:利用 modelr 中的 loess 函数,根据新时间线,产生时间点的表达值。
  • Step3:利用 atan2 函数对基因表达进行排序,定义基因表达的先后顺序。
详见:老俊俊的生信笔记-试试 bulkRNA 做拟时序分析?、[Biomamba 生信基地-应审稿人要求 pseudo bulk差异分析](https://mp.weixin.qq.com/s/uFQQY00qFDUTYbnPKA0pcg)

TCGA+GTEX 数据联合分析

TCGA 数据库里的很多癌症对应的正常组织的样本数量相对于癌症样本非常少,这对于后续的下游分析比如差异分析可能会带来一定的偏差。GTEX 数据库则收集来自健康捐献者的多个正常组织,通过对成千上万名捐献者的 RNA 测序 (RNA-seq) 、基因型测序 (Genotyping) 和 表型数据 ,建立了一个跨多个组织的基因表达数据库。 我们可以去里面下载对应组织的数据来作为正常样本,解决 TCGA 癌症正常样本数量过少的问题。

剩余内容详见:老俊俊的生信笔记-TCGA+GTEX 数据联合分析


RNAseqQC

分享个新鲜出炉的 R 包,RNAseqQC 可以给你的 counts 数据做个全面的质量评估,非常简单,基本上一行代码就可出图。

剩余内容详见:老俊俊的生信笔记-RNAseqQC 给你的数据来个全面的 QC 检查


多组学数据整合

生信分析领域的研究方向很多,尤其近年来随着多组学数据的积累和AI技术的发展,生信论文的选题也趋于多样化。

多组学数据整合、单细胞测序分析、疾病生物标志物的预测和验证、药物靶点及个性化治疗、基因网络与通路分析、人工智能和机器学习在生物信息学中的应用、进化与群体遗传学分析、肿瘤微环境和免疫分析、表观遗传学和非编码RNA研究都是热门方向。主打的就是结合实验数据与计算分析。许多研究会利用公开数据库如TCGA、GEO等,配合自有数据和机器学习模型,好处就是既能发表在生信方向的期刊,也能应用于更广泛的生物医学领域。

多组学数据类型

在生物信息学中,常用的组学数据包括但不限于:

  • 基因组学数据(Genomics):包括全基因组测序、全外显子测序、单细胞DNA测序等,主要用于分析遗传突变、基因结构变异等。
  • 转录组学数据(Transcriptomics):利用RNA测序(RNA-seq)来分析基因表达水平,用于探讨基因表达的调控和变化,尤其是在不同生理病理状态下的差异。
  • 表观基因组学数据(Epigenomics):包括DNA甲基化、组蛋白修饰、染色质开放性数据(如ATAC-seq)等,研究基因表达的表观调控机制。
  • 蛋白质组学数据(Proteomics):通过质谱(MS)等技术检测蛋白质的表达、修饰状态,用于研究细胞功能和信号传导途径。
  • 代谢组学数据(Metabolomics):检测生物样本中小分子代谢物,帮助了解细胞的代谢状态和代谢网络。
  • 微生物组学数据(Microbiomics):通过宏基因组学或宏转录组学分析微生物群落,研究微生物与宿主之间的关系。

多组学数据整合的目的

多组学数据整合的目标是提供一个更加全面的分子图谱,以揭示生物现象或疾病机制的本质。例如,在肿瘤研究中,通过基因组数据可以发现突变位点,转录组数据揭示了基因的表达模式,表观基因组数据展示了基因表达调控的变化,而蛋白质组和代谢组则进一步提供了功能层面的洞察。

常用的多组学整合策略

  • 横向整合(横向数据分析):在不同的组学数据集中寻找共享特征或通路。比如,将基因表达数据与蛋白质组数据整合,分析特定基因在转录水平和蛋白质水平的一致性,找出关键的功能蛋白。

  • 纵向整合(时序性或多时间点数据整合):将多组学数据按时间或治疗进程整合,用于动态追踪生物过程的变化。例如,在细胞分化过程中,对多组学数据进行时间序列分析,理解基因调控的时间序列模式。

  • 跨个体整合(不同个体或人群的数据整合):对多个个体的数据进行整合,研究群体间的异质性。比如,研究不同人群中癌症相关基因表达的差异性,探索不同人群对治疗的反应。

剩余内容详见:老俊俊的生信笔记-生信发不出去?试试多组学+干湿结合(含案例框架)


两疾病差异分析的思路:DEG+WGCNA+机器学习+额外数据集验证+实验验证

1.首先使用差异表达基因分析寻找两疾病(PD和pSS)各自的差异基因,并且在两疾病的差异表达基因之间取交集。

2.使用加权基因共表达网络(WGCNA)寻找与各自疾病高度相关的模块和基因,并且在两疾病之间取交集基因。

3.对差异表达分析的交集结果和WGCNA的交集结果再取交集,获得了与两疾病高度相关且差异表达的共同基因。

4.随后,对共同基因进行了GO和KEGG富集分析。

5.使用三种机器学习算法(LASSO、支持向量机递归特征消除(SVM-RFE)和随机森林(RF))进一步筛选,获得了两疾病的潜在的生物标志(CSF2RB, CXCR4, LYN),为验证其诊断价值,分别在发现集和验证集上用ROC曲线分析了它们的诊断效力。

6.最后通过CIBERSORT进行免疫细胞浸润分析;NetworkAnalyst分析转录因子(TFs)-基因和miRNAs-基因调控网络;DSigDB预测相关的药物靶点,鉴定了PD和pSS之间的共同分子机制、转录因子(TFs), miRNAs 以及候选药物。

剩余内容详见:Biomamba 生信基地-1: 1复现纯生信文章图表


单细胞转录组学和转录组学联合分析

1.单细胞测序数据中的细胞亚群鉴定。

首先,作者根据RNA的nCount、nFeature和线粒体基因百分比过滤掉不合格的细胞,同时保留了至少4个细胞中表达的基因,得到36,866个细胞和19,531个基因(Fig.2a),其中2000个基因发生了显著性变化(Fig.2b),经“harmony”包分析后发现样本分散均匀,没有明显的批次效应(Fig.2c)。UMAP降维处理展示了13个不同的细胞簇(Fig.2d,e),经Cell Marker数据库和Cell Taxonomy数据库识别各个细胞簇的标志基因,鉴定出了CD14+单核细胞, CD4+T细胞和NK细胞等9类细胞(Fig.2f)。

2.单细胞测序数据中细胞通讯分析。

在上述发现的基础上,作者进一步进行细胞间交流分析,经“CellChat”包展示细胞间通讯,结果显示脓毒症中血小板与各种细胞之间的相互作用数量和强度都显著增加(Fig.3a,b),同时配体受体分析显示血小板与各种细胞之间配体-受体通讯也明显增强(Fig.3c)。经“monocle”包进行拟时分析,发现细胞遵循三条不同的轨迹分化成三个不同的状态(Fig.3d,e),且大部分免疫细胞集中于状态1,状态2中各种免疫细胞的数量减少,血小板的数量显著增加(Fig.3f)。以上结果表明血小板的变化在脓毒症的发生发展中发挥了重要的作用,并且可能会影响患者的预后。

3.Bulk RNA-seq数据中差异基因的富集分析。

差异分析显示RNA-seq数据中共包括1297个上调表达基因和2131个下调表达基因(Fig.4a),GO富集分析显示DEGs主要富集于rRNA处理、单核细胞分化、RNA结合和免疫受体活性等通路(Fig.4b)。KEGG富集分析显示这些DEGs主要与几种传染病和生物过程有关(Fig.4c),GSEA分析显示适应性免疫反应、免疫反应调节细胞表面受体信号传导等免疫相关通路下调(Fig.4d,e,f),通过GSEA进行的KEGG分析显示,DEGs主要富集于代谢途径和NETs形成过程中(Fig.4g),以上结果表明相比于对照组,脓毒症患者表现出异常的免疫反应。

4.RNA-seq数据中WGCNA分析。

在上述发现的基础上,为识别脓毒症中发生发展中的关键基因,作者进行了WGCNA(加权基因共表达网络分析),当无尺度拓扑拟合指数达到0.8时,软阈值β幂为8(Fig.5a,b),当把MEDissThres参数调整至0.25时,动态剪切树算法能够分析到18个模块(Fig.5c),其中红色模块基因具有最强的正相关性,而棕色模块基因具有最强的负相关性(Fig.5d-e),因此作者后续选择了这两个模块中的基因进行进一步研究(Fig.5d-e)。

5.预测模型的构建和验证。

结合RNA-seq分析中获得的DEGs和WGCNA分析中的关键基因,共213个基因(Fig.6b),在此基础上,经单变量Cox回归分析,作者在90种算法中确定了57个候选基因(Fig.6a)。通过“coxboost+lasso”模型进行后续分析,经过多变量Cox回归分析,作者鉴定出十个关键预后基因,分别为PPDPF、RPL11、FOS、SAT1、CTSW、MAP3K7、GIMAP4、CD36、CD93和TRAIL(Fig.6c-d)。

6.高风险和低风险人群中免疫细胞浸润的差异分析。

经ssGSEA算法检测两组免疫细胞的浸润差异,结果显示高风险组中多种免疫细胞的得分低于低风险组,表明高风险组存在免疫抑制现象(Fig.8a),其中10个基因与免疫细胞具有显著的相关性(Fig.8b)。经“limma”包分析差异基因,作者得到了91个表达上调的基因和127个表达下调的基因,并通过Metascape数据库对差异基因进行功能富集和模块分析,发现DEGs主要富集于免疫系统激活和调节通路(Fig.8c-f)。使用MCODE研究蛋白质相互作用,作者共鉴定出了6个模块和各个模块中的核心基因(Fig.8g)。

剩余内容详见:Biomamba 生信基地-scRNA-seq揭示脓毒症预后水平预测的关键靶点


ATAC-seq 数据分析实操教程

内容详见:老俊俊的生信笔记-ATAC-seq 数据分析实操教程


给聚类图旁边加个细胞数量条形图

内容详见:老俊俊的生信笔记-给聚类图旁边加个细胞数量条形图


给单细胞降维图例上添加亚群编号

内容详见:老俊俊的生信笔记-给单细胞降维图例上添加亚群编号


ClusterGVis:为bulk和scRNA-Seq聚类,富集分析,最后绘图

ClusterGVis 输入你的表达矩阵,便可以为你聚类,富集分析,最后绘图。对于 bulk-RNA 的表达矩阵比较友好,但是对于单细胞数据来说,还得自己费点功夫去整理表达矩阵以及相关数据。对于大多数单细胞的分析人员就已经望而却步了。不如用 seurat 自带的 doHeatmap 画算了。为了解决这个问题,于是增加了一些修改,使其更方便的对接单细胞的数据。此外还增加了可以改变 cluster 顺序的功能。

内容详见:老俊俊的生信笔记-ClusterGVis 对接单细胞啦老俊俊的生信笔记-ClusterGVis 使用自己的基因集富集分析


SNAF 新型计算工具鉴定广谱癌症新抗原

在癌症研究中,特别是肿瘤免疫疗法领域,寻找到合适的肿瘤特异性靶点是一项至关重要的任务。合适的肿瘤靶点需要在癌症细胞中高表达,但又不能在任何正常组织中存在,以避免可能导致病人死亡的极端副作用。传统的癌症靶点通常集中在跨膜蛋白上,例如 CD19、CD22 等谱系特异性的 CAR-T 疗法已经通过 FDA 批准,为血液癌患者带来了希望。

  • 肿瘤新抗原 (neoantigen) 是一类非常短的多肽序列,由肿瘤细胞的 HLA 分子呈递到细胞膜上,进而被自身 T 细胞所识别并杀伤。鉴定出特异性的肿瘤新抗原推动了许多新兴的个性化治疗,包括癌症疫苗、TCR-T 和自身 T 细胞转移疗法,并在临床上取得了一定的成功。
  • 然而,目前对肿瘤新抗原的研究主要集中在由于肿瘤细胞突变导致的新抗原上。然而,有些肿瘤类型并不具备高的突变率 (比如 brain cancer),导致现有的肿瘤免疫疗法在这些癌症中效果有限。此外,大多数突变引起的新抗原都不具备广谱性,每个患者的突变都是独特的,增加了药物开发的成本,因为需要个性化定制。
  • 为了扩展治疗效果广泛的新抗原,辛辛那提儿童医院的 Nathan Salomonis 研究组与弗吉尼亚大学的研究人员联合发表了一篇题为 Splicing neoantigen discovery with SNAF reveals shared targets for cancer immunotherapy 的文章,该文章于 2024 年 1 月 17 日 在 Science Translational Medicine 上发表。研究提出并验证了一种产生新抗原的新途径,即通过一种广谱的转录后调控机制,可变剪切(alternative splicing),来产生新抗原。
  • 在该研究中,作者团队首先开发了一套全新的计算工具,名为 Splicing Neo Antigen Finder (SNAF)。基于该团队开发的新型肿瘤特异性预测模型(BayesTS)和免疫原性预测(deepimmuno),SNAF 能够高通量地鉴别由于肿瘤特异性可变剪切所导致的新抗原,以及产生胞外新表位 (ExNeoEpitope) 的膜蛋白。
  • 团队将第一种新抗原称为 T 细胞抗原,因为其主要效应细胞为 T 细胞的 TCR 受体,而新的胞外膜表位则被称为 B 细胞抗原,因为其主要效应细胞为 BCR 受体,例如 CAR-T 和单克隆抗体。研究团队将其开发的工具应用于黑色素瘤患者中,成功预测出一部分高度可信的 T 细胞抗原,并通过蛋白质组学和生化实验手段证明了它们的存在和有效性。

内容详见:老俊俊的生信笔记-SNAF 新型计算工具鉴定广谱癌症新抗原


scplotter:单细胞可视化神包

内容详见:老俊俊的生信笔记-scplotter:单细胞可视化神包


ClusterGvis 综合使用手册

内容详见:老俊俊的生信笔记-ClusterGvis 综合使用手册老俊俊的生信笔记-ClusterGvis 进行 TCseq 聚类分析


Science 核糖体翻译共组装结果复现

内容详见:Science 核糖体翻译共组装结果复现


科研死循环

现在有的院校十分开明直接: 你只要拿到青年基金就是副高,拿到面上基金,直升博导。 好吧,要拿到面上项目就需要有别人能够看得上的文章。 好的文章需要经费和人员配备。 大部分人的经费最终主要来自于国家自然科学基金。 而大部分人就是没有基金,硬着头皮在申请。 而申请基金又需要文章。

因此在这个循环中,必需引入一个外力才能破圈,让科研滚动向前。

  • 第一种方案,拿老板的资源积累文章。就是在你科研早期,沉下心来,好好积累。从小项目做起来,小文章发起来。无论你是在好的组还是差的组,你必须要付出更多的努力。

  • 第二种方案,拿自己的资源积累文章。就是咱们已经知道自己“只能写不能中”,不如给自己一点时间,自己拿资源出来,做点项目。自筹经费,韬光养晦,忍辱负重,卧薪尝胆,前人做过的事情,肯定有他的道理。

先高强度模仿,后面再在课题组帮助+个人努力的情况下,形成了一系列逻辑连贯的课题。


Depmap表型数据库用于课题设计以及机制探索

Depmap数据库中,对CCLE里面的细胞系,进行了2w个基因的敲减或敲除,从而让我们从全局观察到基因的功能,对于课题设计和机制探索十分有帮助。