NLP applicato a La Cucina Italiana

Un progetto per Condé Nast

IL CONTESTO

Condé Nast si è rivolta al Gruppo RES perché era alla ricerca di un partner che l’aiutasse a valorizzare il patrimonio informativo di migliaia di ricette culinarie del suo brand La Cucina Italiana.

Queste ricette, già conosciute e apprezzate nel settore, potevano essere arricchite con molte altre informazioni quali valori nutrizionali, footprint degli alimenti, ecc., per offrire un valore aggiunto a clienti, partner e utenti finali della loro piattaforma digitale.

È nato così Smart Recipe Extractor.

LA SFIDA

La Cucina Italiana, e altri brand del settore food di Condé Nast, sono caratterizzati da un’abbondante mole di ricette e dati testuali, che rappresentano un asset duraturo e di grande valore, in quanto associati a necessità primarie e aspetti culturali, quali la nutrizione e le tradizioni culinarie.

Questi dati sono in buona parte digitalizzati, in quanto già creati con l’ausilio di supporti informatici o digitalizzati da archivi storici cartacei.

I testi delle ricette sono espressi in linguaggio naturale, quali l’italiano, l’inglese statunitense o della Gran Bretagna, il francese, il tedesco, lo spagnolo e altri idiomi.

A una porzione di questi testi erano già stati associati alcuni metadati strutturati, necessari a fini editoriali, ma l’asset poteva essere maggiormente

valorizzato associando altri metadati, estraibili dai testi stessi o da ulteriori fonti informative.

Per questa attività di valorizzazione dei dati, Condé Nast cercava un partner che potesse mettere a terra un progetto end-to-end seguendo una metodologia agile: Gruppo RES ha messo a disposizione un suo team multidisciplinare di esperti nell’elaborazione del linguaggio naturale (NLP – Natural Language Processing).

Il team RES, composto da data scientist, data wrangler e business analyst, è in grado di seguire l’intero processo, dalla creazione del corpus di addestramento custom (nelle principali lingue europee – italiano in primis) all’implementazione degli algoritmi pertinenti sfruttando gli ultimi ritrovati tecnologici (deep learning).

LA SOLUZIONE

In una fase preliminare si è sviluppato un Proof of Concept in cui si è evidenziata la possibilità di ricondurre automaticamente, e con sufficiente accuratezza, il testo di una ricetta in lingua italiana all’elenco degli ingredienti menzionati in essa. Nella medesima fase preliminare si è mostrata la possibilità di ricondurre algoritmicamente questi ingredienti a categorie tassonomiche predeterminate.

Grazie anche ai risultati del PoC, Condé Nast ci ha dato fiducia e insieme abbiamo creato un sistema end-to-end capace di classificare, interpretare ed estrarre le informazioni provenienti dal patrimonio di ricette de La Cucina Italiana. L’abbiamo chiamato Smart Recipe Extractor.

Caratteristiche:

  • Creazione di corpora multilingua manualmente annotati
  • Progettazione di un’architettura di microservizi stateless/funzionali
  • Implementazione di un sistema di classificazione basato su NER (CRF Classifier)
  • Utilizzo di approcci state-of-the-art in ambito NLP (per esempio BERT & ELMo in fase di pre-training)
  • Deploy delle componenti di deep learning con Amazon EKS (Elastic Kubernetes Service)

LA TESTIMONIANZA

“Il mondo dell’eccellenza italiana in ambito food e la sempre più agguerrita concorrenza, ci hanno portato a pensare a come affrontare in modo moderno e  dare valore alle nostre ricette, attraverso l’analisi dei dati e al Machine Learning.

Avevamo bisogno di un partner tecnologico all’avanguardia, smart e che sapesse indirizzarci nelle scelte giuste, in RES abbiamo trovato ciò che cercavamo.”

Marco Viganò – Digital Chief Technology Officer Edizioni Condé Nast

 

Hai un progetto che vorresti sviluppare con noi?