El proyecto se propone llevar adelante tareas de investigación y desarrollo orientadas a identificar, describir, sistematizar y evaluar herramientas, rutinas y métodos para la clasificación automática de textos científicos en escenarios en los que no es posible utilizar modelos entrenados. Se trata de contextos de comunicación especializada en los que, si bien se dispone de definiciones formales del dominio, no es posible disponer de modelos entrenados apropiados ni de una cantidad suficiente de datos anotados para entrenar modelos nuevos.
Se busca que las propuestas desarrolladas privilegien la escalabilidad y la posibilidad de ser implementadas en entornos sin muchos recursos técnicos antes que el rendimiento. Asimismo, se proyecta disponibilizar las herramientas desarrolladas o las contribuciones realizadas en repositorios de acceso público. Para el caso de las contribuciones originales, se proyecta la implementación mediante módulos antes que el desarrollo de una arquitectura tipo pipeline o cadena de procesos, ya que entendemos que, si bien eso puede atentar contra la optimización, favorece el uso más personalizado de las herramientas desarrolladas. Se espera que los resultados obtenidos a partir del proyecto contribuyan a generar recursos que favorezcan el estudio y la gestión del conocimiento del sistema científico.