A preprint on my review article was just posted on chemRxiv! This is my magnum opus and it's two things at once: first, a comprehensive review of the synthesis planning literature. We argue that the field has been latently undergoing a phase transition from era of navigability to an era of validity. We describe the practices of the former and propose a framework for evolution of the field. The field has been fortunate to have contributions from the wide ML community, but there's been a salient misconception that chemical templates, as is, guarantee chemical validity, which they do only to an extent. We formalize that extent into a hierarchy of chemical validity: Syntactic Validity (Tier-0), Topological Validity (Tier-1, what templates guarantee), Selectivity (Tier-2) and Executability (Tier-3). The second part of the review answers the question - but why should I care about synthesis planning? We argue it's an underexplored path to a true foundation model. We argue chemistry is in its pre-GPT era as the models lack emergence of zero-shot generalization. The key to knowing chemistry is understanding functional groups. We think that multistep synthesis planning provides a unique epistemic environment for a model to learn those FGs: a full plan contains not only information about which groups react and how, but also implicitly which groups can coexist, which are conflicting with each other (and so necessitate protective groups). And crucially, the same quantum mechanical reasons that determine the reactivity of functional groups determine their properties. So we hypothesize molecular property prediction might be an emergent characteristic of a scaled synthesis planner. As such, our argument is a falsifiable scientific conjecture that turns Artificial Chemical Intelligence from a brand term into a concrete research roadmap. Because this is quite a behemoth of a review, while I recommend reading it in full, we also provide an interactive portal: https://ischemist.com/syntax-of-matter You can look at key ideas, play with the calculator explaining the difficulty of the problem, browse existing approaches, explore the validity framework. You can also take a reading path for a general quick overview or one tailored to a chemist or an ML practitioner. On the page with full text you'll also find NotebookLM generated deep dive podcasts on the topic. I've listened through all of them and they give a good overview of the work. Synthesis Planning has been recently identified as one of the Grand Challenges in small molecules drug discovery, and we hope our review helps more people understand the current landscape and what problems need to be solved (we also have a dedicated open problems page on the interactive portal!)
я знаю я тот еще графоман, но вот две статьи https://x.com/WillManidis/status/2023866928608002183 https://www.citriniresearch.com/p/2028gic в обоих есть интересные мысли (первую обязательно рекомендую), но написано как такая тягомотина, что просто больно читать, это такое влияние ллмок или люди естественным образом так пишут? (и поэтому ллмки тоже любят в такую тягомотину)
new blog TL;DR Hell is described as eternal boiling because to stabilize cooperation in an infinitely repeated game (life), you need a "grim trigger" strategy with a punishment severe enough to outweigh any possible gain from defection, regardless of the player's discount factor. This post re-derives the Supernatural Punishment Hypothesis from basic game theory concepts. https://ischemist.com/writings/long-form/game-theory-of-hell
там еще 3 вариации, просто стиль https://www.youtube.com/watch?v=De-_wQpKw0s https://www.youtube.com/watch?v=FBSam25u8O4 https://www.youtube.com/watch?v=kQRu7DdTTVA
Сразу два поста в этот раз: Первый — полноценный туториал о том, что нужно делать, чтобы ваш код могли запускать другие люди без особых проблем. Обязательное чтиво для всех, кто занимается вычислительными науками. Написано максимально доступно. https://ischemist.com/writings/tutorials/comprehensive-guide-to-uv
Второй — маленькая заметка для тех, кому не нужно объяснять что такое venv, и которая показывает на простом примере почему uv стремительно завоеывает сердца разрабов на питоне. Рассказываю как можно делать доныне абсолютно немыслимые вещи. https://ischemist.com/writings/note/escaping-dependency-hell-with-uv
поскольку Cursor начал потихоньку выходить за рамки технопузыря, моя контрарная душа не могла устоять и не написать пост о том, что курсор уже мертв, и виноват тут вайб кодинг. а если серьезно, пост описывает мой опыт использования ллмок для кодирования, а поэтому я его нарекаю первым и лучшим гайдом по ллмкам в 2026 году https://ischemist.com/writings/long-form/how-vibe-coding-killed-cursor
the legendary lock in of sep - dec 2025 подходит к концу, поэтому в моем туду сделал wrapped. Немного даже удивлен, что самые продуктивные блоки у меня именно в первой половине дня, интуитивно всегда казалось, что во второй. Хотя я и замечал, что если не начну работать в первой половине дня, весь день скорее всего пойдет по известному месту. Но закончить можно на гораздо более оптимистичной ноте. Благодаря отслеживанию времени, мной эмпирически установлено, что первые 80% любого проекта достигаются буквально за 100 часов. Какой бы сложной/нетривиальной не была задумка, я могу дойти до стадии MVP (это относится и к исследованиям) всего за 100 часов. А дальше (как и во всем, это кстати секрет жизни) вопрос чисто итераций. P.S. grow.ischemist.com теперь полностью бесплатный (если вам нужен был повод начать новый год с более осозннаным подходом к своему личному времени, вот он).
Работа стала поводом пографоманить, https://syntharena.ischemist.com/thesis - тут мой midread (лмао) о том почему ретросинтез может быть первым шагом к условным химическим foundation models. если вы химик и ищете проблему для изучения, обязательно к прочтению https://ischemist.com/writings/long-form/will-ai-transform-science - тут мой лонгрид о том, что скорость научных открытий сейчас определяется не сколько генерацией новых идей, сколько полнейшим отсутствием инфраструктуры. статья в целом бангер, простите за скромность (нет), чистейший дистиллят моего стиля письма высшей пробы, рекомендую всем
Сам препринт: https://arxiv.org/abs/2512.07079 С ним либо я наживу себе врагов и навсегда закрою двери в академию, либо стану легендой. Если хотите помочь с этим, ставьте звездочки на репы в гитхабе, задавим видимостью принятия https://github.com/ischemist/project-procrustes https://github.com/ischemist/syntharena
На прошлой неделе запостил свежий препринт, в котором делаю то, что обычно делать не принято -- занимаюсь эпистемологической чисткой сферы автоматизированного ретросинтеза. Статья довольно парадоксальная. Любой, абсолютно любой, непричастный, после короткого описания сути задается вопросом "в смысле никто не смотрит на валидность трансформаций? в смысле только смотрят на то, чтоб терминальные молекулы были в стоке?" -- практика настолько абсурдная, что сложно поверить, что она может стать нормой, а именно нормой она и стала, ибо опубликовать что-то без "solvability" невозможно. В общем, без спойлеров, вот довольно доступное описание работы: https://ischemist.com/writings/research/project-procrustes
post 2 in my series of informal, 'poster session' style blog posts is live. this one breaks down ChemSpaceAL, our work on an AI steering system for molecular design. the headline result is that it works: we show how it can guide a generative model to invent potent, protein-specific molecules, even rediscovering existing fda-approved drug from a blank slate. the core mechanism is a simple but powerful technique for upsampling the sparse signal from expensive simulations, making the entire active learning loop dramatically more efficient. following the format of the last post, the second half is a "beyond the paper" section on the meta-lessons. this time, i cover: - a hard-won lesson on why building research tools like production-grade software isn't optional (and a mea culpa on the jupyter notebook that powered this entire project). - the concept of "research taste": the critical and hard-to-teach skill of navigating a complex design space without getting lost in premature optimization. hope these insights are useful. check it out here: https://ischemist.com/writings/research/active-learning-over-chemical-space
i've wanted to write informal, 'poster session' style blog posts to accompany my research for a while. with a recent website redesign, i'm finally starting. first up is a note on a paper from my time at MIT, which details a composite method for getting coupled-cluster accuracy at mp2 cost for core-electron binding energies. while the quantum chemistry is specific, i also included a section on the meta-lessons learned during the project—things that have proven universally applicable to my work since. it covers my philosophy on building automated, reproducible analysis pipelines and a great rule of thumb for designing figures that are actually clear. hope you enjoy the read! https://ischemist.com/writings/research/core-binding-energy-predictions