Part III: 합성생물학과 생산·임상의 디지털화

Chapter 8: AI 제형 설계 — 시너지 포뮬레이션과 안정성 예측

집필일: 2026-05-12 최종수정일: 2026-05-12

왜 이 챕터인가

Chapter 7까지의 이야기는 성분에 관한 것이었다 — 단일 분자, 펩타이드, 포스트바이오틱스, 엔지니어링된 균주. 완성된 화장품은 결코 단일 성분이 아니다. 계면활성제, 폴리머, 지질, 활성 성분, 보존제, 향료, pH 조절제가 20~60개 성분 단위의 에멀젼 안에서 시너지·물리적 안정성·sensory texture·경피 침투성·규제 수용성을 동시에 결정짓는 방식으로 상호작용한다. Brief A는 이 질문의 가장 첨예한 버전을 던졌다 — "생성형 AI와 ML이 수만 개의 미생물 조합에서 최적의 시너지 포뮬러를 예측한다는데, 진짜인가?" 정직한 답은 이렇다 — 조합론적 불가능성은 진짜이고, 툴킷은 대부분 제약·화학에서 이식된 것이며, 피어 리뷰된 화장품 사례 연구는 아직 한 손으로 셀 수 있을 만큼 적다. 이 챕터는 그 간극을 짚는다.

유용한 대비: Chapter 5는 AlphaFold급 단백질 구조 예측을 다뤘다 — 후보 단위가 단일 시퀀스인 하나의 분자, 하나의 접힌 구조 문제. 제형 예측은 같은 과학적 스펙트럼의 반대쪽이다 — 여러 분자, 하나의 상호작용 시스템이고, 결과(readout)는 단일 물리량으로 환원되지 않고 emergent하게 (안정성, sensory feel) 떠오른다. 수학은 더 어려워지고, 데이터는 더 얇아지며, 규제 수용성은 더 흐릿하다. 그래서 이 챕터가 바로 AI-화장품 낙관론이 현실과 충돌하는 지점이다.

이 챕터의 정량적 핵심 3가지 1. 조합론적 벽: 60-성분 화장품 쇼트리스트에 ~10개 농도 레벨이면 후보 포뮬러는 $10^{60}$ 규모 — 물리적으로 enumerate 불가능하므로, 처음부터 enumerate는 전략이 아니었다. 2. 업계가 주장하는 operational KPI: Unilever는 2,500명 simulated subjects의 AI virtual cohort로 소비자 인사이트 60% 단축, 제형 사이클 5~6 → 1~2, 효능 클레임 생성 75% 단축을 발표했다 ^[14]. POND'S는 매장 내 60분 마이크로바이옴 진단을 출시했다. 어느 것도 외부 감사를 받지 않았다 (Gap 15). 3. 피어 리뷰된 화장품 AI-제형 선례: Unilever × IBM의 ^[1] 논문이 화장품-마이크로바이옴 제형 질문에 방법론적으로 투명한 AI를 적용한 기초적 사례로 남아 있으며, 2026년 5월 기준으로 비교 가능한 수준의 후속 공개 사례는 매우 적다.

8.1 제형 설계 문제 — 왜 enumerate는 전략이 아니었는가

완성된 스킨케어 에멀젼은 대략 네 블록으로 구성된다 — (i) 베이스 (정제수·오일·유화제·증점제 — 일반적으로 10~20개 성분), (ii) 활성 성분 (펩타이드·비타민·포스트바이오틱스·항산화제 — 3~10개), (iii) 보존 시스템 (보존제·킬레이트제·pH 조절제 — 4~8개), (iv) sensory/마케팅 (향료·색소·진주광택제 — 3~10개). SKU 하나당 20~60개 성분은 업계 표준의 현실이다 ^[4].

소박한 enumerate는 즉시 무너진다. 60개 후보 성분에 각각 ~10개의 그럴듯한 농도 레벨을 가정하면, 그것만으로 후보 포뮬러는 $10^{60}$개 — 공정 변수 (균질화 전단력, 상 순서, 충진 온도)나 패키징 (UV 노출, 캡의 산소 투과도)을 고려하기 전의 수다. 화장품 R&D는 결코 enumerate한 적이 없다 — 포뮬레이터의 직관으로 알려진 작은 영역만 항해해 왔다. AI의 약속은 그 항해 가능 영역을 예산을 깨지 않으면서 넓히는 것이지, enumerate하는 것이 아니다.

세 가지 제약이 항해를 어렵게 만든다. 첫째, 비선형 상호작용: 계면활성제 A에서 안정한 펩타이드 활성 성분이 계면활성제 B에서는 미셀 분배·계면에서의 산화 촉매 같은 기전을 거쳐 10배 빠르게 분해될 수 있다 — 활성 성분과 계면활성제를 따로 보면 예측 불가능한 결과다. 둘째, emergent endpoint: 24개월에 걸친 물리적 안정성은 개별 성분 안정성의 합이 아니고, sensory "끈적임 없는 감촉"은 성분별 친유도 점수의 합이 아니다. 대부분의 화장품 endpoint는 시스템에서 emergent하게 떠오른다. 셋째, 검증 비용이 크다: 실시간 안정성 시험은 여러 온도 (4°C·25°C·40°C·50°C)에서 3~6개월이 걸리고, 가속 시험은 불완전한 proxy일 뿐이다. 모델 오류 하나가 사이클 하나의 비용이다.

AI가 여기서 중요한 이유는 검증 단계를 없애기 때문이 아니다. 포뮬레이터가 40°C/4주 가속 안정성과 30인 sensory panel을 통과하는 첫 설계에 도달하기 전에 더 적은 사이클을 태우게 해 주기 때문이다.

Figure 8.1 — 조합론적 설계 표면, 좁은 '직관-항해 가능' 영역과 넓은 'AI-항해 가능' 영역, 아래에 예산 제약된 검증 채널. illustration by author (Gemini assisted)

8.2 제형용 생성 모델 — VAE, diffusion, 그리고 mixture의 latent space

생성형 제형 설계의 학계 주류 프레임은 화학에서 직접 가져온다. Variational autoencoder (VAE)는 SMILES 문자열이나 분자 그래프를 학습하여 화학 우주(chemical universe)를 연속 latent space에 매핑하고, 알려진 분자들 사이의 부드러운 보간으로 그럴듯한 이웃 분자를 생성한다. Diffusion model은 이를 일반화한다 — random latent vector를 조건 신호(목표 속성·스캐폴드·성분 클래스) 하에서 반복적으로 denoise하여 후보를 생성한다. 두 클래스 모두 피어 리뷰된 신약 후보를 만들어냈다 — ^[17]의 GENTRL DDR1 억제제는 강화학습 기반 생성 모델이었고, 그 후속 end-to-end 파이프라인이 결국 6년 뒤에 임상 결과를 도출했다 ^[6] (Chapter 4).

화장품으로의 적응은 덜 성숙해 있다. 생성 단위가 단일 SMILES가 아니라 — 농도가 붙은 mixture이고, 보통 합이 100이 되는 백분율 벡터로 표현된다. Mixture-space 생성 모델은 화학공학 문헌에 존재하지만, (성분 리스트, 농도 벡터, 측정된 속성) 형태의 구조화된 학습 데이터를 요구한다. 그런데 그 데이터야말로 화장품 기업이 가장 단단히 지키는 데이터다. 공개 제형 벤치마크가 드문 이유도 같다. Chapter 4의 metabolite-public / strain-private 비대칭과 같은 구조인데, formula × property는 R&D IP인 동시에 마케팅 클레임 IP라서 더 심하다.

유용한 counter-pattern: 풀 포뮬러를 생성하는 대신, 제약 하에서 대체 후보를 생성한다. 기존 포뮬러가 있고 "향료 X를 sensory 프로파일을 유지하면서 알레르겐 더 낮은 대체재로 바꿔라"라는 과제를 주면, 검색 공간이 $10^{60}$에서 수십 개로 붕괴한다 — 그 스케일에서는 VAE/diffusion 식 latent 보간이 잘 작동한다. 사내 화장품 AI-제형 도구가 실제로 쓰이는 방식이 이쪽에 더 가깝고, Potion AI 같은 indie-brand SaaS가 스스로를 포지셔닝하는 방식이기도 하다 ^[12].

Chapter 5로의 다리: 제형 latent-space 최적화는 구조적으로 단백질 latent-space 설계 (Chapter 5)와 닮아 있다. 차이는 단백질 latent space는 구조 예측으로 anchor되어 있다 (AlphaFold가 ground-truth folding 점수를 준다)는 점이고, 제형 latent space에는 그에 상응하는 anchor가 없다는 점이다. 안정성과 sensory readout은 물리적 실험을 요구한다. 화장품 제형 AI가 신약 발견 AI보다 대략 5년 뒤처져 있는 가장 깊은 이유가 이것이다.

8.3 Bayesian optimization — 실제로 작동하는 주류 방법

생성 모델이 인기 있는 프레임이라면, Bayesian optimization (BO)은 대부분의 화장품 AI-제형 프로젝트가 실제로 굴리는 프레임이다. 적합성이 구조적이다. BO는 (i) 실험이 비싸다는 가정 — 화장품 배치는 몇 주, 안정성 패널은 몇 달이 걸린다; (ii) response surface가 Gaussian process나 tree ensemble로 모델링할 만큼 충분히 smooth하다는 가정; (iii) 다음 실험은 acquisition function 하에서 expected information gain이나 expected improvement를 최대화하도록 선택해야 한다는 가정에 기반한다. 세 가정 모두 화장품 R&D 경제학에 — 싸고 빠른 in silico 스크리닝보다 — 훨씬 잘 들어맞는다.

작동 루프는 이렇게 흐른다 — 입력 공간 위에 initial design of experiments (DOE) 구축 → 반응 측정 → surrogate model fit → acquisition function으로 다음 batch 제안 → 반복. 라운드당 8~16개 포뮬러로 5라운드 정도면 다중 속성 최적점을 삼각측량하는 데 충분한 경우가 많다 — Unilever가 발표한 5~6 제형 사이클이 AI 워크플로우 하에서 1~2로 줄어든다는 그 베이스라인 ^[14]이 바로 이 구간이다.

화장품 특유의 미묘함은 multi-objective BO다. 실제 목표가 단일 스칼라인 경우는 드물다 — "4주 안정성을 최대화하면서 동시에 알레르겐 함량을 최소화하면서 동시에 목표 점도 범위에 맞추면서 동시에 원가를 $X/kg 이하로 유지"가 진짜 목표다. Pareto-front Bayesian optimization은 이를 직접 다루지만, 실무자가 어떤 목표를 어떤 목표와 trade off하는지 정직해야만 작동한다. 화장품 R&D는 역사적으로 이 trade를 경험 있는 포뮬레이터의 직관으로 해결해 왔는데, acquisition function 안에서 그 trade를 명시적으로 만든다는 것은 기술 이전(移植)이라기보다 문화적 전환이다.

^[10]의 마이크로바이옴 ML 가이드라인이 강조한 재현성 단서가 여기서도 그대로 살아남는다 — BO 루프의 신뢰성은 실험 noise 모델의 정직함에 좌우된다. 같은 포뮬러를 두 번 측정해서 안정성 점수가 20% 분산을 보인다면, 그 response surface를 부드러운 Gaussian process로 모델링하면 자신감 있어 보이는 헛소리가 나온다 (Gap 11). 정직한 BO는 정직한 noise 추정을 요구하고, 정직한 noise 추정은 중복 실험을 요구하며, 그 중복 실험은 — 정확히 포뮬레이터가 AI로 절반을 줄이고 싶었던 그 순간 — 예산을 두 배로 만든다.

Figure 8.2 — 화장품 포뮬러용 Bayesian optimization 워크플로우: initial DOE → surrogate fit → acquisition → wet-lab → 루프; multi-objective Pareto front 시각화. illustration by author (Gemini assisted)

8.4 Carrieri 2021 — 발표된 방법론적 등뼈

제형 사고에 적용 가능한 가장 많이 인용된 피어 리뷰 화장품-마이크로바이옴 AI 논문은 IBM × Unilever 공동 연구인 ^[1]이다. 표면적인 주제는 예측이지만 — 마이크로바이옴 조성이 hydration·age·menopause·smoking을 예측하는가? — 그 방법론적 등뼈는 AI 기반 제형 파이프라인이 필요로 하는 것 그대로다 — (i) 단일 기업이 지탱 가능한 규모의 prospective cohort 샘플링, (ii) gradient-boosted tree 모델 — 대부분의 화장품 연구가 위치한 50~500 샘플 스케일에서 강건하다, (iii) 각 예측을 성분 단위에서 설명 가능하게 만드는 SHAP (Shapley value) attribution.

논문은 캐나다 건강 여성 62명의 다리 피부 (leg-skin)를 16S V1–V2로 여러 시점에 시퀀싱하고 UK cohort에서 검증해, menopause-status AUC ~0.85, hydration AUC ~0.7~0.8, smoking AUC ~0.75을 보고했다. 세 taxa(Cutibacterium, Streptococcus, Anaerococcus)가 반복적으로 예측을 주도했고, SHAP attribution은 개별 분류 단위까지 추적 가능했다. 제형 측면에서 중요한 방법론적 선택은 이것이다 — gradient-boosted tree + SHAP, deep network 아님 — 왜냐하면 n ≈ 50 스케일에서는 deep network가 과적합하고, SHAP attribute된 gradient-booster는 R&D 팀이 제형 회의에서 토론할 수 있는 feature-importance map을 주기 때문이다.

같은 파이프라인 형태가 제형으로 그대로 옮겨간다 — 사내 포뮬러 수백 개에 대해 안정성/sensory/투과성의 gradient-boosted regressor를 학습시키고, 성분 단위 SHAP contribution을 노출시키고, 포뮬레이터가 핸들을 잡게 한다. 이 패턴이 지배적인 이유는 이론적 우월성이 아니다 — 화장품 R&D의 규제·마케팅 클레임 레이어가 해석 가능한 feature attribution을 요구하기 때문이다. "잔주름 30% 감소"라는 클레임을 "deep model이 그렇게 예측한다"로 뒷받침하면 법무 리뷰를 통과하기 어렵지만, "성분 X·Y가 SHAP 점수 0.4·0.3으로 예측 효과를 주도하고 문헌 기전 Z로 추적된다"로 뒷받침하면 통과 가능성이 더 높다 ^[4].

논문 자신이 노출한 두 한계는 제형 전이(transfer)에도 그대로 관련된다 — (i) 코호트가 여성-only, 다리-only였고 — 얼굴 부위와 남성 피부로의 일반화는 미검증이며, 다리에서 작동하는 스킨 제형이 얼굴에서는 자릿수가 다르게 실패하는 경우가 많다; (ii) SHAP attribution은 상관관계이지 개입(intervention) 결과가 아니다 — 어떤 성분이 예측된 속성 변화와 연관된다는 것을 알려줄 뿐, 어떤 성분이 그 변화를 유발한다고 알려주지 않는다. 개입 실험은 여전히 wet-lab 작업을 요구한다 (Chapter 9).

8.5 L'Oréal × IBM과 더 넓은 화장품-제형 플랫폼 풍경

L'Oréal의 제형 AI 전략은 Unilever보다 피어 리뷰는 덜하고 전략적 비중이 더 크다. 2024 VivaTech 발표는 Beauty Tech를 계층화된 스택으로 그렸다 — 소비자 대상 개인화용 AI Skin Genius 진단, 시각화용 Modiface AR, 그리고 Lactobio 인수로 가속된 마이크로바이옴 연구 라인 ^[8]. R&I 에디토리얼 "The Future of Cosmetics Is Playing Out In The Microbiome" ^[9]은 AI 기반 마이크로바이옴 제형을 다음 전략 프런티어로 명시적으로 지목하지만 방법론은 공개하지 않는다. L'Oréal R&I와 공저로 발표된 Haykal 2025의 PRISMA 스타일 AI cosmetogenomics 체계 리뷰는 2025년 기준 AI 설계 화장품 활성 성분의 피어 리뷰 임상 결과가 발표된 적 없음을 확인한다 ^[5]. 이것이 이 책의 Gap 1이고, Chapter 8이 그 갭을 그대로 상속받는다 — AI 제형 활동은 격렬하지만 외부에서 보이는 감사 가능한 흔적은 얇다.

L'Oréal의 파트너십 패턴은 Unilever-Carrieri식 공저 피어 리뷰 시리즈에 헌신하지 않으면서 IBM급 연구 역량에 기댄다. 2024년 Lactobio 인수는 약 10,000개 분리·캐릭터라이즈된 균주와 그 효능 데이터를 L'Oréal R&I로 가져왔고, Modjoul/Modiface 디바이스 텔레메트리와 결합되어 하류의 제형 AI가 학습되는 데이터 substrate가 되었다 — 다만 아키텍처는 사내 IP다 ^[8]. 경쟁 논리는 Chapter 4의 데이터를 사라(buy-the-data) 관찰과 같다 — 모델 아키텍처는 학계 AI에 의해 commoditize되지만, strain × phenotype × formula × clinical-mapping 데이터는 그렇지 않으며, L'Oréal의 베팅은 가장 무겁게 데이터 쪽에 실려 있다.

전체 풍경은 깔끔하게 갈린다. 내부 스택 majors: Unilever (XAI 파이프라인 + virtual cohort + POND's 진단), L'Oréal (Lactobio 데이터 + Modjoul 디바이스 + AI Skin Genius), Shiseido + Accenture의 Voyager 플랫폼(공언된 50만 사내 R&D 데이터 포인트로 학습) ^[13], COSMAX의 2세대 Microbiome AI 플랫폼 ^[2]. 롱테일용 SaaS: Potion AI의 제형 co-pilot은 사내 데이터 사이언스 팀이 없는 인디 브랜드·CDMO를 겨냥한다 ^[12]. 이 분할은 제약에서 Big Pharma의 사내 AI 스택과 Cradle 같은 플랫폼 제공자 간의 분할(Chapter 4)을 그대로 반영한다. 화장품 버전은 더 어리고 외부 감사도 덜 받았다.

SaaS 레이어의 구체적 한계: LLM-스타일 제형 co-pilot (Potion GPT 및 등가물)은 환각(hallucination) 리스크를 상속받는다. GPT는 지역 규제 한계를 위반하거나 sensitization 임계를 초과하거나 보존 시스템을 무너뜨리는 성분 조합을 자신감 있게 추천할 수 있고, 그 추천을 잘 포맷된 문장으로 제시할 수 있다. 따라서 화장품 R&D의 LLM co-pilot 도입은 chemistry-constrained decoding, 검증된 안전 데이터베이스에 대한 retrieval, human-in-the-loop 리뷰로 gating된다 — 인디 브랜드 시장이 부분적으로만 흡수한 조건들이다.

8.6 Unilever의 30K 마이크로바이옴 플랫폼과 AI virtual cohort

Unilever의 피부 마이크로바이옴 플랫폼은 공개된 operational 지표 기준으로 화장품 산업에서 가장 야심찬 AI-제형 엔진이다. Unilever가 공개한 숫자들 — 모든 주요 신체 부위를 아우르고 ~50억 데이터 포인트가 누적된 30,000-샘플 피부 마이크로바이옴 데이터셋, 출원된 100건 이상의 마이크로바이옴 관련 특허, 물리적 R&D 벤치에 도달하기 전 포뮬러를 사전 스크리닝하는 2,500명 simulated subjects의 AI virtual cohort, 그리고 소비자 인사이트 60% 단축, 제형 사이클 5~6 → 1~2, 클레임 생성 75% 단축이라는 operational KPI ^[14]. 2026 forward outlook은 이 스택을 다시 한 번 명시하고 확장한다 ^[16].

두 가지가 주목할 만하다. 숫자들이 서로 일관된다 — 30K 실제 코호트가 virtual cohort 학습을 그럴듯하게 하고, virtual cohort가 벤치 측 반복 횟수를 절반으로 줄이는 것이 그럴듯하며, 사이클을 절반으로 줄이면 클레임 개발이 ~3~4배 가속되는 것이 그럴듯하다. 내부 논리가 일관된다. 어느 것도 외부 검증되지 않았다. virtual-cohort 방법론에 대한 제3자 벤치마크, 피어 리뷰 감사, 규제 검토가 문헌에 등장한 적이 없다 (Gap 15). ^[4]의 화장품 AI 리뷰는 거시 문제로 "AI 유래 효능 클레임에 대한 harmonize된 규제 프레임워크 부재"를 명시적으로 지적하고, Unilever의 공개 지표는 그 진공 안에서 살고 있다.

virtual cohort의 방법론적 핵심은 명명해 둘 가치가 있다 — 화장품 R&D에서 디지털 트윈 주장의 가장 깨끗한 예이기 때문이다 (Chapter 6에서 디지털 트윈을 더 폭넓게 다룬다). virtual cohort는 마이크로바이옴 × 피부-속성 분포가 실제 코호트와 통계적으로 일치하는 합성 subject들의 generative 또는 simulation-driven 모집단이다. 후보 포뮬러를 2,500명 simulated subjects 모두에 "적용"하면 반응 분포가 예측되고, 예측된 반응 분포가 임계를 통과한 포뮬러만 물리 시험에 도달한다. 논리는 제약의 in silico 임상시험 (Chapter 9)과 동일하다. 풀리지 않은 문제는 calibration이다 — virtual cohort의 예측 분산이 화장품 endpoint에 대해 실제 코호트 분산과 일치하는가, 그리고 어느 인종·피부 타입 범위에서 일치하는가?

코호트 커버리지 비판은 Chapter 4와 ^[5]로부터 상속된다 — "geographic diversity 제한, darker phototype 과소대표". 30K 코호트가 Fitzpatrick 타입·연령·성별·신체 부위로 쪼개지고 나면, 어떤 단일 부분집단도 안정적인 virtual-cohort calibration에 부족한 크기일 수 있다. Unilever의 사내 calibration이 이를 다루는지는 공개되지 않았다.

겸손한 해석: Unilever의 KPI는 Unilever의 출시 프로세스 내부에서는 실제일 가능성이 높다 — 5~6 → 1~2 사이클 감소는 공정공학 측정이지 과학적 주장이 아니다. 공격적인 해석 — virtual cohort가 효능·안전성 클레임에서 인간 시험을 대체할 수 있다 — 는 규제 당국이 아직 평가하지 않은 방법론적 공격성이다. Chapter 12에서 이를 유사 플랫폼을 검토하는 한국 기업의 의사결정 변수로 다시 다룬다.

Figure 8.3 — Unilever virtual cohort 워크플로우: 30K 실제 마이크로바이옴 → simulated 2,500-subject 코호트 → AI 사전 스크리닝 → 벤치 검증. KPI 오버레이 (60% / 5-6→1-2 / 75%). illustration by author (Gemini assisted)

8.7 POND'S 매장 진단 — 제형 AI가 리테일에 도달하다

POND'S Skin Institute의 60분 매장 내 마이크로바이옴 분석은 같은 Unilever 스택의 소비자 대상 끝이다 ^[11]. 쇼퍼가 피부 샘플을 제공하면 매장 내 디바이스가 약 1시간 안에 마이크로바이옴 시그니처를 시퀀싱하고, AI 추천 시스템이 그 시그니처를 POND'S 제형 라이브러리에서 추출한 개인화 레지멘에 매핑한다. mass-market 마이크로바이옴-to-포뮬러 리테일 흐름의 최초 사례다. COSMAX × HelloBiome은 한국에서 같은 루프를 추구한다 — 900명 소비자 코호트가 두 개의 상업화된 포스트바이오틱 활성 성분 (Amioter·Fillerstin)을 3단계 레지멘에 공급한다 ^[3].

소비자 대상 흐름은 AI-제형·AI-클레임·AI-진단 스택이 단일 리테일 상호작용으로 모두 붕괴하는 지점이며, 이전 섹션의 audit gap이 가장 강하게 물리는 지점이다. 추천 엔진은 마이크로바이옴 시그니처에서 레지멘으로 가는 블랙박스 매핑이고, 외부 검증된 calibration이 없다. ^[5]는 이 레이어 전체를 "감사받지 않은 소비자 대상 AI"로 지적한다 — Unilever만의 문제가 아니다 (L'Oréal AI Skin Genius도 유사한 아키텍처로 28개국에 출시됐다). 다만 POND'S가 마이크로바이옴 특정 시퀀싱을 리테일 상호작용의 일부로 처음 만든 것은 특별하다.

구조적 비판은 virtual-cohort 비판과 같다 — operational engineering은 인상적이고, 외부 검증된 과학은 얇다. AI 유래 효능 클레임에 대한 FTC·EU CTR 감시가 Chapter 12에서 그리는 궤도에 따라 — 2027년 전후에 — 강화되면, 리테일 등급 마이크로바이옴 진단이 가장 노출된 표면이 될 것이다. 사내 리테일 AI가 가장 잘 instrumented된 화장품 기업들 (Unilever·L'Oréal·COSMAX)이 방어에 가장 유리하지만, 방어 자체가 공개 문헌에는 아직 없는 calibration 레이어를 요구할 것이다.

Figure 8.4 — POND'S 매장 리테일 흐름: 쇼퍼 → 마이크로바이옴 샘플링 → 60분 디바이스 → AI 시그니처 해석 → 개인화 레지멘. illustration by author (Gemini assisted)

8.8 Multi-objective 예측 — 시너지·안정성·texture·투과성·sensory

화장품 AI-제형의 프런티어는 단일 포뮬러 표현으로부터 여러 endpoint를 동시에 예측하는 것이다. 각 endpoint는 개별적으로는 tractable하다 — 그 결합 예측이 제형 사이클을 압축한다.

시너지(Synergy)는 기전적으로 정의하기는 가장 쉽고 (두 활성 성분이 가산성 이상의 효능을 내는가?) 측정하기는 가장 어려운 endpoint다 (in vitro 시너지가 완성품의 투과성·안정성에서 살아남지 못하는 경우가 많다). 제약 표준 proxy는 dose-response surface 위의 Loewe additivity나 Bliss independence이고, 이를 화장품으로 이식하려면 활성 성분 패널 전체에 일관된 in vitro assay 시스템이 필요하다 — 항균 endpoint에서 가장 쉽고 (Chapter 4), 항노화 합성 endpoint에서는 더 어렵다.

안정성(Stability)은 기업 내부에서 가장 데이터가 풍부한 endpoint다 — 규제 dossier를 위해 어차피 측정해야 하기 때문이다. 25°C 실시간 시험과 40~50°C 가속 시험은 물리·화학 측정(점도·색·pH·HPLC를 통한 활성 성분 농도)의 time-series를 만든다. 이 데이터에 대한 시계열 회귀는 표준 ML 응용이고, 안정성 예측은 AI가 가장 일관되게 가치를 내는 영역이다. ^[4]는 화장품 산업이 통상 R&D에서 ML 보조 shelf-life 예측을 자주 사용한다고 언급하지만 — 피어 리뷰 벤치마크는 드물다.

Texture와 sensory는 좋은 in silico 등가물이 없는 화장품 특유 endpoint다. Sensory 데이터는 trained human panel이 표준화된 척도로 속성(끈적임·pickup·spreadability·after-feel)을 평가하는 데서 나온다. Ground-truth의 주관성은 실재하지만, trained된 10~20명 panel 내 패널리스트 간 일관성은 supervised learning을 지지할 만큼 높다. 모델 입력은 제형 벡터, 출력은 sensory 프로파일이고, 병목은 공개 sensory 데이터셋이 실질적으로 존재하지 않는다는 점이다. Majors (Unilever·L'Oréal·Shiseido·아모레퍼시픽)의 사내 sensory 데이터셋은 수십 년에 걸쳐 구축됐고, 화장품 산업이 보유한 가장 가치 있는 AI 학습 코퍼스에 속한다.

투과성(Permeability), stratum corneum을 통한 투과는 기전적으로 분자량·친유도(logP)·제형 vehicle의 함수다. 약리학에서의 수학 모델(Potts-Guy 방정식, ADME-Tox suite)이 2000년대에 화장품으로 이식됐고, 현대 ML은 비선형 vehicle-effect 항을 추가하여 사내 투과성 데이터셋에 학습한다. 마이크로바이옴 활성 포뮬러에서는 투과성이 non-trivial하다 — 포스트바이오틱 활성 성분은 종종 고전적 small-molecule 화장품보다 큰 분자이고, 엔지니어링된 화장품 펩타이드 (Chapter 7)는 투과성의 회색지대에 위치한다.

규제 수용성은 화장품 AI-제형이 가장 어색하게 다루는 endpoint다 — 규제 당국이 AI 유래 예측을 어떻게 평가할지 아직 결정하지 않았기 때문이다. 현재 작동 모델 — AI는 사내 R&D를 가속하고, FDA·EU CTR·식약처에 제출되는 dossier는 전통적 측정(HPLC·안정성 assay·sensitization 시험)을 사용하며, AI는 결코 규제 파일에 직접 들어가지 않는다. 이는 규제 당국이 AI provenance를 요구할 때까지 지속 가능하다 — ^[4]가 2027년경으로 예상하는 바로 그 시점.

가장 깨끗한 multi-objective AI-제형 배포는 이 endpoint들 전체에 대한 Pareto-front Bayesian optimization이다. 안정성 × sensory × 투과성 × cost 공간의 Pareto front는 포뮬레이터에게 단일 추천이 아닌 "최선의 trade-off" 집합을 주고, 경험 있는 포뮬레이터가 그 front를 따라 선택한다. majors 사내 실무에 가장 가까운 아키텍처다. Chapter 9의 효능 검증으로 자연스럽게 이어진다 — Pareto front 위의 포뮬러가 ex vivo 피부와 임상 readout에 도달하면, 예측이 실제 인간 피부에 대해 시험된다.

Figure 8.5 — 안정성 × sensory × 투과성 × cost 공간의 Pareto front; 포뮬레이터가 front를 따라 선택, AI가 후보를 제안. illustration by author (Gemini assisted)

8.9 한계 — 왜 화장품 제형 AI가 신약 발견 AI보다 뒤처지는가

세 가지 구조적 한계를 직접 명명할 가치가 있다.

제약 대비 데이터 희소성. 제약의 ML은 백만 화합물 스케일의 공개 assay 데이터베이스(ChEMBL·PubChem)와 한 세기 스케일의 임상시험 아카이브의 혜택을 받는다. 화장품 제형은 둘 다 등가물이 없다. 가장 큰 화장품 제형 학습 코퍼스는 기업 내부에 산다 (Shiseido의 공언된 50만 데이터 포인트 ^[13], Unilever의 30K 마이크로바이옴 샘플 ^[14]) — 외부에서 접근 불가다. ^[7]의 마이크로바이옴 AI 서베이와 ^[10]의 ML-for-microbiome 가이드라인 둘 다 이를 핵심 재현성 병목으로 지적하며 — Chapter 12가 이 발견을 제안된 open-benchmark 청사진으로 발전시킨다.

Sensory ground-truth의 주관성. 약효는 이산적인 생물학적 readout(target engagement, biomarker shift, symptom score)으로 환원된다. 화장품 sensory 효능은 본질적으로 인간적이고, 본질적으로 문화적으로 calibrated되어 있으며, 본질적으로 비싼 trained-panel 평가로 환원된다. in silico ground truth가 없다. AI 모델은 사내 sensory panel calibration 안에서 보간할 수 있지만, 그것을 대체할 수는 없다.

AI 유래 클레임에 대한 규제 수용성. 화장품 클레임은 마케팅과 규제 사이에 위치한다. FTC·EU CTR·식약처 각각이 효능 클레임에 대한 substantiation 기준을 가지지만, 어느 곳도 AI 유래 예측이 그 substantiation 체인에 어떻게 들어가는지 명문화하지 않았다. ^[4]는 현재 갭으로 "화장품 AI 학습 데이터의 불투명성, AI 유래 효능 클레임에 대한 harmonize된 규제 프레임워크 부재"를 명시한다. 업계의 작동 타협은 AI가 설계 단계를 가속하되 dossier에는 들어가지 않는다는 것이다 — 이것이 2027~2030 규제 윈도우에서 살아남을지가 Chapter 12가 다시 다루는 열린 질문이다.

네 번째 한계는 구조적이라기보다 문화적이다 — 화장품 R&D 문화는 신약 발견 문화가 medicinal chemist를 신뢰하는 것보다 포뮬레이터를 더 신뢰한다. 20~30년 카테고리 경험의 시니어 포뮬레이터 직관은 작은 AI 시스템과 진정으로 경쟁력 있고, 그 직관을 대체하는 것은 가능하지도 바람직하지도 않다. 현실적 배포 패턴은 AI-augmented 포뮬레이터지 AI-replaced 포뮬레이터가 아니다 — 가장 깨끗하게 진척하는 화장품 기업들(Unilever의 KPI 공개, COSMAX의 플랫폼 발표)이 이를 명시한다.

8.10 Open Questions

공개 제형 벤치마크 — 화장품 제형 AI의 공개 벤치마크는 어떤 모습이어야 하는가? 제약 등가물 (MoleculeNet·OGB)은 농도 벡터와 sensory endpoint를 가진 mixture에는 존재하지 않는다. MIBiG의 천연물 (Chapter 4) 모델을 본뜬 화장품 산업 적응형 벤치마크는 학계 진전을 풀 수 있지만, 업계가 아직 합의하지 않은 precompetitive 데이터 공유를 요구한다.
Sensory 데이터 라벨링 프로토콜 — sensory ground truth를 cross-firm 풀링에 충분한 평가자 간 일치도로 포착할 방법이 있는가? 현재의 trained-panel 프로토콜은 사내 일관성은 있지만 외부 상호운용은 어렵다 — 표준화는 식품의 ISO 방법론과 유사한 precompetitive 기여가 될 것이다.
AI 클레임 규제 경로 — FTC·EU CTR이 AI 예측에서 부분적으로 유래한 효능 클레임을 어떻게 평가해야 하는가? 기존 substantiation 프레임워크는 전통적 측정을 가정하며, AI 예측은 오늘 규제 회색지대를 점유하고 2027년경 시험될 가능성이 높다. ^[4]가 이를 예고했지만 어느 관할도 아직 판결을 내리지 않았다.
Virtual cohort calibration — 2,500-subject AI virtual cohort가 화장품 endpoint에 대해 인종·피부 타입·신체 부위 전반에서 실제 코호트 분산과 일치하는 반응 분산 분포를 만들어내는가? ^[14]의 주장은 방법론적으로 공격적이며, 외부 calibration 연구는 존재하지 않는다.
Multi-objective trade-off 투명성 — Pareto-front 포뮬레이터가 한 해를 다른 해보다 선택할 때, 그 trade-off가 클레임 언어의 일부로 소비자에게 전달될 수 있는가? 현재 클레임 문화는 단일 속성("잔주름 30% 감소")이고, multi-objective 문화("안정성과 투과성을 최적화하면서 sensory를 보존")는 아직 마케팅 템플릿이 없다.

참고문헌

Carrieri, A. P., Haiminen, N., Maudsley-Barton, S. et al. (2021). Explainable AI reveals changes in skin microbiome composition linked to phenotypic differences. Scientific Reports 11:4565.
COSMAX USA (2024). COSMAX unveils 2nd-Generation Skin Microbiome platform + Microbiome AI. Global Cosmetic Industry, 2024. [COSMAX, 2024]
COSMAX × HelloBiome (2025). Korean Beauty Manufacturer COSMAX × HelloBiome microbiome-powered personalized care. WWD / Personal Care Insights, 2025. [COSMAX × HelloBiome, 2025]
Di Guardo, A., Trovato, F., Cantisani, C. et al. (2025). Artificial Intelligence in Cosmetic Formulation: Predictive Modeling for Safety, Tolerability, and Regulatory Perspectives. Cosmetics 12(4):157.
Haykal, D., Flament, F., Amar, D. et al. (2025). Cosmetogenomics unveiled: a systematic review of AI, genomics, and the future of personalized skincare. Frontiers in Artificial Intelligence 8:1660356.
Insilico Medicine clinical authors — Ren, F., Zhavoronkov, A. et al. (2025). A generative AI-discovered TNIK inhibitor for idiopathic pulmonary fibrosis: a randomized phase 2a trial. Nature Medicine, 2025. [Insilico, 2025]
Wang, X.-W., Wang, T., Liu, Y.-Y. (2024). Artificial Intelligence for Microbiology and Microbiome Research. arXiv preprint 2411.01098. [Wang et al., 2024]
L'Oréal R&I (2024). L'Oréal Beauty Tech leadership at VivaTech 2024 — AI Skin Genius, Modiface, microbiome direction. L'Oréal press, May 2024. [L'Oréal, 2024]
L'Oréal R&I (2024). The Future of Cosmetics Is Playing Out In The Microbiome. L'Oréal R&I editorial, 2024. [L'Oréal R&I, 2024]
Papoutsoglou, G., Tarazona, S., Lopes, M. B. et al. (2023). Machine learning approaches in microbiome research: challenges and best practices. Frontiers in Microbiology 14:1261889.
POND'S (Unilever) (2024). POND's Skin Institute microbiome analyzer — 60-minute in-store consumer device. Unilever press, May 2024. [POND'S, 2024]
Potion AI (2025). Potion AI platform updates — formulation AI for indie brands. Potion AI product updates, 2025. [Potion AI, 2025]
Shiseido + Accenture (2024). Shiseido develops AI systems for ingredient biodegradability and Voyager formulation platform. Global Cosmetics News, Feb 2024. [Shiseido + Accenture, 2024]
Unilever Beauty & Wellbeing R&D (2025). How Unilever's pioneering skin microbiome research is shaping product innovation. Unilever news, 2025. [Unilever, 2025]
Unilever Beauty & Wellbeing (2025). SXSW 2025 AI/ML/data behind Unilever's latest launches. Unilever news, Mar 2025. [Unilever, 2025-SXSW]
Unilever (2026). How AI is transforming innovation in Unilever Beauty & Wellbeing. Unilever news, 2026. [Unilever, 2026]
Zhavoronkov, A., Ivanenkov, Y. A., Aliper, A. et al. (2019). Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nature Biotechnology 37, 1038–1040.