구글, 합성데이터 생성 프레임워크 'Simula' 공개...기계설계 원리 기반 AI 데이터셋 생성 방법론 제시

2026년 4월 17일

2분

[한국정보기술신문] 구글 리서치가 AI 모델 훈련용 합성데이터 생성 혁신 프레임워크 'Simula'를 공개했다. 기계설계 원리를 바탕으로 한 이 기술은 기존 수작업 데이터 생성의 한계를 극복할 대안으로 주목받고 있다.

기존 데이터 생성의 3대 한계 극복

팀 데이비슨 구글 학생연구원과 함자 하르쿠스 시니어 스태프 연구과학자가 주도한 연구팀은 기존 데이터셋 생성의 핵심 문제점을 분석했다. 전문화된 데이터셋의 수작업 생성이 금전적으로 비효율적이며 시간 소모가 크고 오류 발생률이 높다는 점을 지적했다.

또한 정적인 실제 데이터의 운영 경직성과 안전성 관련 사후 대응의 위험성도 핵심 해결 과제로 제시했다. Simula는 이러한 문제들을 체계적으로 해결하는 새로운 접근법을 제안한다.

Simula 프레임워크는 합성데이터 생성을 4단계로 체계화했다. 첫 번째는 계층적 분류법을 통한 전역 다양성 확보다. 개념 영역을 매핑해 포괄적인 데이터 범위를 보장한다.

두 번째는 국소 다양성 구현이다. 동일 시나리오에서 다양한 표현을 생성해 모델 학습의 견고성을 높인다. 세 번째는 복잡도 조정 기능으로, 난이도를 독립적으로 제어할 수 있다.

네 번째는 이중 검증 루프를 통한 품질 검증이다. 생성된 데이터의 정확성과 일관성을 보장하는 핵심 단계다.

기존 메트릭의 한계를 인식한 연구팀은 새로운 평가 지표를 개발했다. 분류학적 커버리지와 캘리브레이션된 복잡도 점수라는 추론 기반 지표를 도입해 데이터 품질을 정량적으로 측정한다.

이 평가 방식은 단순한 수치적 정확도를 넘어 데이터의 실용성과 다양성을 종합적으로 평가한다. 연구팀은 이를 통해 보다 과학적이고 신뢰할 수 있는 데이터 생성이 가능하다고 설명했다.

사이버보안, 법률 추론, 수학, 다국어 지식 등 5개 분야에서 실시한 실험 결과 Simula의 우수성이 입증됐다. 완전한 Simula 시스템이 모든 도메인에서 단순 기준선을 능가했다.

특히 맥락의 중요성이 확인됐다. 수학 추론에서는 높은 복잡도가 10% 정확도 향상을 가져왔으나, 법률 추론에서는 오히려 성능 저하가 나타났다. 이는 각 분야별 최적화 전략이 필요함을 시사한다.

연구팀은 데이터 품질이 수량보다 중요하다는 결론도 도출했다. 적은 양이라도 높은 품질의 합성데이터가 더 효과적이라는 점을 확인했다.

Simula는 이미 구글 내부에서 실전 활용되고 있다. ShieldGemma, FunctionGemma, MedGemma 등 특화 모델 개발에 핵심 기술로 사용된다.

Android 통화 사기 탐지와 Gmail 스팸 필터링에도 적용돼 실용성을 검증받았다. 특히 기업 보안 분야에서 현실적인 공격 시나리오 생성에 활용돼 보안 시스템 강화에 기여하고 있다.

연구팀은 합성데이터가 차세대 AI 발전의 핵심 역할을 할 것이라고 전망했다. 다만 엄밀한 방식으로만 그 가능성이 실현될 수 있다고 강조했다.

Simula 프레임워크는 데이터 생성을 과학적으로 제어 가능한 과정으로 변화시키는 청사진을 제시한다. 이는 AI 모델의 성능과 안전성을 동시에 확보할 수 있는 새로운 길을 열었다는 평가다.

한국정보기술신문 인공지능분과 박정후 기자 news@kitpa.org