Natural Language Proecssing - Eine Einführung (Stefan Bosse) [2.2021]

NLP

NLP
Überblick und Publikation
JavaScript Toolkit compromise
Daten
Textanalyse (1)
Wortstatistiken
Erstellen eines Wörterbuchs
Auswahl der häufigsten Wörter
Merkmalskodierung
Eingabevariablen
Test
Ausgabevariablen
Test
Der Klassifizier
Datenvorverarbeitung
Modell ANN
Training ANN
Test ANN
Klassifikation ANN

Überblick und Publikation

[1] A. Hotho, A. Nurnberger¨, and G. Paaß, “A Brief Survey of Text Mining,” 2005. PDF

  1. Was ist Text Mining?
  2. Was ist NLP? Was kann es?
  3. Was ist der Unterschied zwischen Informationsgewinnung (Information Retrival, Extraction) und nLP
  4. Wie kanh Text kodiert werden (z.B. für nachfolgendes ML)
  5. Welche ML Verfahren werden für das Text Mining eingesetzt?

JavaScript Toolkit compromise

Eine einfache Textanalyse

 ▸ 
 ✗ 
 ≡ 

Daten

DATA: Variable State.dataNews Type: { IDLink : number, Title : string, Headline : string, Source : string, Topic : string, PublishDate : string, SentimentTitle : number, SentimentHeadline : number, Facebook : number, GooglePlus : number, LinkedIn : number } [5000]

# README

#################################################################
#								#
# Multi-Source Social Feedback of Online News Feeds		#
# Nuno Moniz and Luís Torgo					#
# 								#
# The data set is made available under a CC-BY license		#
#								#
#################################################################

##################
# REFERENCE
# 
# Nuno Moniz and Luís Torgo (2018), “Multi-Source Social Feedback of Online News Feeds”,
# CoRR, abs/1801.07055
#
# @Article{Moniz2018,
#   title = {Multi-Source Social Feedback of Online News Feeds},
#   author = {Nuno Moniz and Lu\’is Torgo},
#   year = {2018},
#   ee = {https://arxiv.org/abs/1801.07055},
#   volume = {abs/1801.07055},
#   journal = {CoRR},
# }
# 
##################

##################
#
# VARIABLES OF NEWS DATA
#
# IDLink (numeric): Unique identifier of news items
# Title (string): Title of the news item according to the official media sources
# Headline (string): Headline of the news item according to the official media sources
# Source (string): Original news outlet that published the news item
# Topic (string): Query topic used to obtain the items in the official media sources
# PublishDate (timestamp): Date and time of the news items' publication
# SentimentTitle (numeric): Sentiment score of the text in the news items' title
# SentimentHeadline (numeric): Sentiment score of the text in the news items' headline
# Facebook (numeric): Final value of the news items' popularity according to the social media source Facebook
# GooglePlus (numeric): Final value of the news items' popularity according to the social media source Google+
# LinkedIn (numeric): Final value of the news items' popularity according to the social media source LinkedIn
#
##################

##################
#
# VARIABLES OF SOCIAL FEEDBACK DATA
#
# IDLink (numeric): Unique identifier of news items
# TS1 (numeric): Level of popularity in time slice 1 (0-20 minutes upon publication)
# TS2 (numeric): Level of popularity in time slice 2 (20-40 minutes upon publication)
# TS... (numeric): Level of popularity in time slice ...
# TS144 (numeric): Final level of popularity after 2 days upon publication
#
##################


Einige Beispiele und Topic Analyse

 ▸ 
 ✗ 
 ≡ 

Textanalyse (1)

Wortstatistiken

Erstellen eines Wörterbuchs

Erstellen einer Wortzählung

 ▸ 
 ✗ 
 ≡ 

Auswahl der häufigsten Wörter

Top-50 Schlüsselwörter (Nouns)

 ▸ 
 ✗ 
 ≡ 

Merkmalskodierung

Aufgabe.

Eingabevariablen

word2vec Kodierer

 ▸ 
 ✗ 
 ≡ 

Test

Test des word2vec Kodierers

 ▸ 
 ✗ 
 ≡ 

Ausgabevariablen

Topic Kodierer

 ▸ 
 ✗ 
 ≡ 

Test

Test des topic2vec Kodierers

 ▸ 
 ✗ 
 ≡ 

Der Klassifizier

Datenvorverarbeitung

ANN Daten

 ▸ 
 ✗ 
 ≡ 

Modell ANN

ANN Modell erstellen

 ▸ 
 ✗ 
 ≡ 

Das Modell ist nicht direkt speicherbar!! Eine explizite Serialisierung und Deserialisierung wäre erforderlich. nache einem erneuten Laden der notebook JSON Datei ist das Modell in this.modelA ungültig!

Serialisierung des Modells (nur zum Speichern ausführen)

 ▸ 
 ✗ 
 ≡ 

Training ANN

ANN Modell iterativ trainieren

 ▸ 
 ✗ 
 ≡ 

Test ANN

ANN Modell testen

 ▸ 
 ✗ 
 ≡ 

Klassifikation ANN

Topic Klassifiaktion neuer Texte

 ▸ 
 ✗ 
 ≡ 

Aufgabe.
  1. Geeignetes Wörterbuch (Schlüsselworte) zusammenstellen (zunächst mit 50 Einträgen, kann aber auch erhöht werden → Nachfolgender Code muss ggfs. angepasst werden) SO DASS alle Dateninstanzen einen Merkmalsvektor ≠ (Bullvektor) haben!

  2. Das Netzwerk erzeugen und trainieren.

  3. Testen und Analyse (Trainingsdaten, Testdaten)

  4. Anpassung (1) und/oder Netzwerkparameter ändern (innere Schicht)

Alles nachfolgend hier dokumentieren.




Hilfe



Einreichung (Assignment #08-48408 )



Prüfen



Bewerten (Lehrer)




Created by the NoteBook Compiler Ver. 1.8.13 (c) Dr. Stefan Bosse (Mon Feb 08 2021 21:33:11 GMT+0100 (CET))