• Procesamiento del Lenguaje Natural

    Materia corta del Programa de Profesores Visitantes

    Fechas tentativas: del 1 al 28 de febrero de 2018.

    Profesor: Dr. Franco Luque (FAMAF-Universidad Nacional de Córdoba).

    Objetivos: El Procesamiento de Lenguaje Natural (PLN) estudia el uso de algoritmos y estructuras de datos para el procesamiento automático del lenguaje humano. Es una rama de las Ciencias de la Computación, la Inteligencia Artificial y la Lingüística Computacional, que sirve tanto para el desarrollo de aplicaciones prácticas que utilicen tecnología basada en lenguaje humano, como para el estudio de los problemas fundamentales de la lingüística teórica y las ciencias cognitivas. En este curso daremos una introducción a las principales tareas que componen el PLN, y los diferentes enfoques computacionales para encararlas. Haremos énfasis especialmente en el trabajo basado en corpus y en el uso de algoritmos de aprendizaje automático (Machine Learning). El objetivo del curso es dar a los y las estudiantes un conocimiento general del campo de PLN, y sea capaz de comprender problemas computacionales de PLN, analizarlos, proponer soluciones, implementarlas y evaluarlas.

    Puntajes: dos (2) puntos para la Licenciatura y un (1) punto para el Doctorado en Cs. de la Computación.

    Materias correlativas: Algoritmos y Estructuras de Datos 3; Probabilidades y Estadística.

    Horario y lugar: a confirmar.

    Página de la materia: https://cs.famaf.unc.edu.ar/wiki/materias/pln/uba2018

    Programa:

    • Procesamiento básico de texto: Expresiones regulares, tokenización, segmentación, normalización, lematización y stemming.
    • Modelado de lenguaje: N-gramas, suavizado add-one y por interpolación, back-off. Evaluación con perplexity. Aplicaciones: Generación de lenguaje y atribución de autoría.
    • Etiquetado de secuencias: Etiquetado morfosintáctico (PoS tagging) y Reconocimiento de Entidades Nombradas (NER). Modelos Ocultos de Markov (HMMs). Modelos de Máxima Entropía (MEMMs). Algoritmo de Viterbi y beam search. Ingeniería de features, evaluación y análisis de error.
    • Análisis de sentimiento (sentiment analysis): Detección de polaridad. Corpus y métricas de evaluación. Pipeline básico: preprocesamiento, features y clasificadores. Recursos: Lexicones de sentimiento, representaciones de palabras (word embeddings).
    • Otros temas: Análisis sintáctico (parsing), extracción de información (information extraction), traducción automática (machine translation), etc.