Esercitazione su NLTK Lemmatizzazione e POS (part of speech) tagging (morfologia)

Paolo Monella, Laboratorio di Informatica specialistica per Scienze dell'Antichità

Nota: Questa pagina web è raggiungibile anche inserendo nel browser l'indirizzo breve tinyurl.com/mirtomonella

Istruzioni

  1. Vai sulla console interattiva Python online di Repl;
  2. Nella finestra bianca al centro (con scritto sopra main.py), copia/incolla il contenuto dello script (programmino) che vuoi fare girare. I due script su cui possiamo lavorare sono riportati qui sotto (consiglio di lavorare sullo script n. 2, anche se è un po' più complesso).
  3. Nella versione "50%" di ogni script, ho lasciato degli spazi vuoti (con degli underscore ____): scarica il file sul tuo computer, sostituisci gli underscore con quel che è necessario per far funzionare lo script, e poi copia/incolla il suo contenuto nella finestra bianca di Repl.

Gli script

Script completo al 50% Script completo al 100%
Script n. 1 esercitazioneNLTK1-050.py esercitazioneNLTK1-100.py
Script n. 2 esercitazioneNLTK2-050.py esercitazioneNLTK2-100.py

Sito del prof. Mirto

Il prof. Ignazio Mirto, professore di Linguistica generale nel nostro Ateneo, ha creato il portale NLPYtaly con un lemmatizzatore/POS tagger per l'italiano, basato su TreeTagger. Il sito richiede nome utente e password per l'accesso. A lezione possiamo usare questa lista di frasi da far analizzare al software.

Credits

Licenza Creative Commons
Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.