Resultados
AISAR 2025
Publicaciones
-
Inference-Time Toxicity Mitigation in Protein Language Models via Logit-Diff Amplification
Manuel Fernández Burda, Santiago Aranguri, Ivan Arcuschin, Enzo Ferrante. Generative and Experimental Perspectives for Biomolecular Design Workshop at ICLR 2026.
-
Benchmarking AI Control Protocols for Safety in Medical Question-Answering Tasks
Guido Freire, Agustín Martínez-Suñé, Viviana Cotik. Principled Design for Trustworthy AI Workshop at ICLR 2026.
-
White-Box Monitoring for Personality Mirroring in Conversational AI
Eitan Sprejer, Agustin E. Martinez-Sune, Bruno Bianchi. Catch, Adapt, and Operate: Monitoring ML Models Under Drift Workshop at ICLR 2026.
-
What Large Language Models Know About Plant Molecular Biology
Manuel Fernández Burda et al. LatinX in AI (LXAI) Research Workshop at NeurIPS 2025. Reconoce el apoyo de AISAR; también enviado a Nature Plants.
-
Is Gemini 3 Scheming in the Wild?
Alejandro Wainstock, Agustín Martínez-Suñé, Ivan Arcuschin, Victor Braberman. LessWrong.
Logros de los becarios
Logros de los mentores
- Cuatro de los seis mentores no habrían trabajado en AI Safety en 2025 sin AISAR, y los seis planean continuar.
- Se obtuvieron dos becas doctorales de CONICET para estudiantes externos en temas de AI Safety: una sobre cuantificación de confianza para modelos de IA más seguros, y otra sobre fundamentos formales para software confiable basado en LLMs.