Einsendeaufgaben EA-Besprechung WS 2016/17 EA1 42200 (01.12.2016)

Aufgabe 1 a)
a) Welche der folgenden Aussagen trifft nicht auf lineare Regression zu? (5 P)
A Das Regressionsmodell ist linear.
B Die Abhängigkeit des Regressanden vom Regressor ist, per Annahme, linear.
C Die zu bestimmenden Parameter sind linear.
D Die Abweichung zwischen vorhergesagten (geschätzten) Werten und beobachteten
(realen) Werten ist linear.

Mein Lösungsvorschlag: D

Aufgabe 1 b)
b) Welches ist kein Schritt in evolutionären Strategien, wie z. B. dem genetischen Algorithmus?
(5 P)
A Splicing (Spleißen)
B Selection (Selektion)
C Recombination (Rekombination)
D Mutation (Mutation)

Mein Lösungsvorschlag: A

Aufgabe 1 c)
c) Welche der folgenden Aussagen trifft auf künstliche neuronale Netze (KNN) zu? (5 P)
A Ein einzelnes Neuron (Perceptron) kann nicht für DM-Aufgaben genutzt werden.
B Alle Neuronen in einem KNN werden gleich gewichtet.
C KNN sind, in der klassischen Form, dem überwachten Lernen zuzuordnen.
D KNN werden üblicherweise mit dem Feed-Forward Algorithmus trainiert.

Mein Lösungsvorschlag: C

Aufgabe 1 d)
Welche der folgenden Aussagen trifft auf Entscheidungsbaumverfahren, wie z. B. CART,
zu? (5 P)
A Durch die hohe Komplexität der Visualisierung können auch kleine Entscheidungsbäume
nur schwer nachvollzogen werden.
B Entscheidungsbaumverfahren können kontinuierliche Attribute verarbeiten, nehmen
dabei aber eine Vereinfachung der Realität (sog. Diskretisierung) vor.
C Ein Nachteil von Entscheidungsbaumverfahren ist ihre Sensitivität gegenüber Ausreißern.
D Ein Vorteil von Entscheidungsbaumverfahren ist es, dass auf eine Aufteilung der Daten
in Trainings- und Testdaten verzichtet werden kann.

Mein Lösungsvorschlag. B
 
Hi,

ich hab bei der Aufgabe 1 genau das gleiche :)

a) D (S. 91)

b) A (S. 73)

c) C (S. 114)

d) B (S. 69)

Hast du schon die Aufgabe 3 bearbeitet? Da hänge ich gerade bei der b) fest und weiß nicht genau was die wollen... Die fehlenden Werte konnte ich eintragen, aber ich weiß nicht wie das Clustering anhand der Ähnlichkeitsmatrix aussehen soll.

VG
Sascha
 
Hast du schon die Aufgabe 3 bearbeitet? Da hänge ich gerade bei der b) fest und weiß nicht genau was die wollen... Die fehlenden Werte konnte ich eintragen, aber ich weiß nicht wie das Clustering anhand der Ähnlichkeitsmatrix aussehen soll.

VG
Sascha

Hi Sascha,

hab die Aufgabe heute zum ersten Mal genauer angeschaut.
Soweit ich das interpretiere, gibt es vom Aufbau her keinen Unterschied zwischen Ähnlichkeits- und Distanzmatrix.
Da die ähnlichsten Produkte zusammengefasst werden sollen und das Single_Linkage Verfahren angewendet werden soll, gehe ich davon aus, dass man wie im Skript beschrieben die weiteren Schritte durchführt.
Meinen Lösungsvorschlag gibt's dann demnächst...

VG
Martin
 
Mein Lösungsvorschlag zu Aufgabe 4:

a) Ein Verhältnis von zwei Zielen, das dadurch charakterisiert ist, dass die Erreichung des einen Ziels die Erreichung des anderen Ziels nicht beeinflusst, wird als Komplementarität bezeichnet.
--> falsch
b) Eine Unregelmäßigkeit, z. B. die Eintragung eines Dezimalbruchs in ein Feld das %-Werte erwartet, stellt einen syntaktischen Fehler dar.
--> richtig
c) Lineare Regression ist ein geeignetes Verfahren, um die Dimensionalität der Attributmenge zu reduzieren, d. h. Attribute auszuwählen.
--> falsch
d) k-Means ist ein Verfahren zur hierarchischen Clusteranalyse.
--> richtig
e) Bei der hierarchischen Clusteranalyse kann das Linkage-Verfahren unabhängig von der Distanzfunktion gewählt werden.
--> richtig
f) Bei der hierarchischen Clusteranalyse kann die Distanzfunktion unabhängig von den Daten gewählt werden.
--> falsch
g) Validität, Nützlichkeit und Neuigkeitsgehalt sind wesentliche Aspekte bei der Beurteilung von Data-Mining Ergebnissen.
--> richtig
h) „Occam’s Razor“ besagt, dass von zwei Modellen mit gleicher Erklärungskraft, das weniger komplexe Modell zu bevorzugen ist.
--> richtig
i) Eine richtig-negative Klassifizierung ist ein Fehler.
--> falsch
j) Eine falsch-positive Klassifizierung ist ein Fehler.
--> richtig
 
Lösungsvorschlag Aufgabe 2
a)
(Aus Skript):
Seien Ia, Ib Q Itemsets mit Ia Ib = /0. Eine Instanz xi erfüllt die Regel Ia Ib
wenn gilt: Ia Ib Q+(xi).
Diejenigen Instanzen, welche eine Regel erfüllen, „unterstützen“ diese Regel.
Die Menge dieser Instanzen heißt daher Supportmenge. Wieder bietet sich eine Hilfsfunktion an, um von Itemsets zurück zu Instanzen zu kommen:
XSup : P(Q)→X
I 7→ {xi XTr|I Q+(xi)}
Der Support einer Regel ist nun definiert als der Anteil der Supportmenge dieser Regel an der Trainingsmenge, d. h.
support(Ia Ib) = |XSup(Ia Ib)| / |XTr|

Offensichtlich gibt es sehr viele mögliche Regeln, sog. Regelkandidaten, und nicht alle sind gleich sinnvoll. Ein Parameter des Apriori-Algorithmus ist daher der Mindestsupport, der angibt, ab welchem Supportwert Regelkandidaten überhaupt berücksichtigt werden sollen (Bollinger, 1996).

Am Beispiel ({Hemd}->{Gürtel}) für (Ia Ib) |XSup({Hemd}∪{Gürtel})| / |XTr|
|XSup({Hemd}∪{Gürtel})| = 2, weil Hemd und Gürtel in den Transaktionen t2 und t4 vorkommen. |XTr| = 5, weil 5 Transaktionen im Beispiel.
Support ist in dem Beispiel also 2/5

Konfidenz

(Aus Skript)
Nur weil zwei Itemsets Ia, Ib häufig gemeinsam auftreten, wie es durch den Support gemessen wird, bedeutet dies noch nicht, dass Ib immer dann auftritt, wenn auch Ia auftritt, wie es die Regel Ia Ib besagen würde. Die gemeinsamen Auftreten müssen also ins Verhältnis zu allen Auftreten von Ia gesetzt werden. Dies misst die Konfidenz der Regel:
con f idence(Ia Ib) = |XSup(Ia Ib)| / |XSup(Ia)|
|XSup(Ia)| am Beispiel Hemd ist 3, weil Hemd in den Transaktionen t1, t2 und t4 vorkommt. |XSup(Ia Ib)| ist 2, weil Hemd und Socken in t1 und t4 gemeinsam vorkommen.
confidence = 2/3 = 0,6666666666666667= 66,66666666666667%

b) Siehe Excel-Datei im Anhang

C) Ein Wert von 1,67 bzw. 67 % bei Lift bedeutet, dass zwei Produkte miteinander 67 % häufiger auftreten als wenn sie voneinander unabhängig wären. Ein niedriger Wert von z.B. 1,00 bzw. 0 % bedeutet, dass die Produkte zu 0 % miteinander häufiger auftreten, als wenn sie voneinander unabhängig werden. Niedriger Werte bei Lift können dazu verwendet werden, um Produkte zu erkennen, die wahrscheinlich füreinander Substitute sind.

These „Durch Clusterung des Produktprogramms kann die Varianz bei gleicher Marktausschöpfung verkleinert werden“
Weiterführend: „Die Identifikation von Produkten mit gleicher oder sehr ähnlicher Bedürfnisbefriedigung im eigenen Produktportfolio kann auf Basis einer vorherigen Analyse der Ähnlichkeit der Produkte erfolgen. Darauf aufbauen wird es dann möglich, überlappende Leistungsangebote zu eliminieren oder neu zu positionieren und so die Produktvarianz im Unternehmen bei gleicher Marktabdeckung zu erreichen.“

Aus Skript: „Ein wichtiges Prinzip beim Clustering ist es, die Varianz innerhalb der Cluster möglichst gering zu halten.“
„Ziel der Clusteranalyse ist es, Instanzen gemäß objektiv nachvollziehbarer Kriterien zu gruppieren, ohne dass eine solche Gruppierung im Vorhinein bekannt wäre.“

In Bezug auf Produktkannibalisierung: ähnliche Produkte mit gleicher oder ähnlicher Bedürfnisbefriedigung werden in Cluster zusammengefasst, so dass diese nicht gleichzeitig angeboten und sich „kannibalisieren“ können.
 

Anhänge

  • Apriori Aufabe 2b.xlsx
    12,1 KB · Aufrufe: 157
Hier meine Antwort zu Aufgabe 3 a)


Das Ziel der Clusteranalyse ist eine Einteilung einer heterogenen Grundgesamtheit in mehrere verschiedene und in sich homogene Gruppen, die auch als Cluster bezeichnet werden können. Diese Cluster sind vorab nicht definiert und ergeben sich erst im Laufe der Analyse und resultieren in einem Modell, dass sich sowohl aus den Clustern auch als aus der Zuordnung von Daten zu den Clustern.


Distanzfunktionen können bei der Erreichung des Ziels der Clusteranalyse helfen, da diese zur Bestimmung der Ähnlichkeiten bzw. Unähnlichkeit zwischen Instanzen verwendet werden.


Formel Euklidische Distanz:

..........


Die Euklidische Distanz setzt quantitative Attribute voraus.


Im Gegensatz hierzu ist bei der Klassifizierung einer Zuordnungsvorschrift zu finden, die Instanzen bzw. Daten aufgrund ihrer Werte in bereits vorab definierte Klassen einteilt. Bei der Klassifizierung Semantik und Anzahl der Cluster bzw. Klassen sowie die tatsächliche Zuordnung für einige Instanzen bekannt. Die Zuordnungsvorschrift ist dagegen unbekannt. Bei der Clusteranalyse ist hingegen die Semantik und Anzahl der Cluster unbekannt.


hat schon jemand b) bearbeitet?? komme da leider nicht so recht weiter...
 
hat schon jemand b) bearbeitet?? komme da leider nicht so recht weiter...
Ja, bis auf die Ähnlichkeitsmatrix, da weiß ich auch nicht so recht weiter.
Mein Lösungsvorschlag:
Werte für BO: man vergleicht in Tabelle 2 die Übereinstimmung jeder Zeile mit Zeile BO. Der Wert wird durch 10 (Anzahl aller Attribute geteilt), bspw. stimmen bei Reihe BE in Tabelle 2 4 Werte mit Reihe BO überein. In Tabelle 4 wird dann in Zeile Bo und Spalte Be 0,4 eingetragen.
Die Werte in Reihe BO sind von links nach rechts: 0.4, 0.4, 0.5, 0.5, 0.6, 0.6, 0.7, 0.4, 0.5, 0.4, 1
Am ähnlichsten sind Ra und Sa. Der Wert 0,9 in der Reihe Sa und Spalte ist am nähesten an 1 dran.
Also werden Ra und Sa zusammengefasst, unter anderem wird Ra/Be mit Sa/Be verglichen --> min (0,5/0,6)= 0,5. Werte für Ra/De mit Sa/De --> min(0,6/0,7)=0,6. Das wird bis Ra/Bo mit Sa/Bo verglichen.
Von Ra/Be - Sa/Be bis Ra/Bo - Ra/Bo habe ich folgende Werte errechnet:
0,5
0,3
0,6
0,2
0,3
0,5
0,7
0,5
0,4
Das wären die Werte für den neuen Cluster Ra/Sa nach dem single-linkage Prinzip.
Allerdings weiß ich nicht genau, wie diese in die Ähnlichkeitsmatrix eingetragen werden sollen. Hier wäre ich auch für einen Tipp dankbar.
 
Mein Vorschlag für die neue Ähnlichkeitsmatrix - ohne Garantie, dass das richtig ist. Die Werte oberhalb der 1 sind optional.
3b Cluster Ähnlichkeitsmatrix.PNG
 
Hat wer einen Vorschlag für Aufgabe 3 c) ? Wie berechnet ihr die Manhattan Distanz? Mein Ansatz ist, zwischen Ho und Fl bzw. SB und We die Distanz bei den Eigenschaften herauszurechnen, z.B. bei Kaloriengehalt bei Ho und Fl: |2-3|. Das wäre bei Margarine Kaloriengehalt 1, Preis 1, Vitamingehalt 2 und bei Butter 1, 3, 1. Damit würden beide Ergebnisse nicht zu denen in der Angabe von 3 c) passen...
 
Hey,
anbei mal meine Lösungen zu 3 b) und c).
Bei der 3 b) habe ich folgenden Ansatz : Im Vergleich zur Ähnlichkeit zeigt die Distanz die "Unähnlichkeit" bzw. Entfernung zweier Produkte an.
Bei Sa und Ra beträgt die Ähnlichkeit 0,9; dementsprechend ist die Distanz 0,1. Darauf aufbauend habe ich die Distanzmatrix erstellt, diese nach single-linkage Verfahren geclustert und anschließend die entstandene Matrix wieder zurück in die Ähnlichkeitsmatrix transformiert (siehe angehängte Dokumente).

upload_2016-11-21_16-26-55.png

upload_2016-11-21_16-27-54.png

Und hier noch meine Lösungen zu 3 c):

upload_2016-11-21_16-28-45.png
 
Hab gerade noch nen Fehler bemekt, natürlich muss bei der sich ergebenden Ähnlichkeitmatrix statt den 0en wieder 1en stehen ;)
 
Die 3c) habe ich auch so gelöst :)
Allerdings habe ich statt 5 4 bei (Ho, X), aber es kommt ja dennoch das gleiche bei raus am Ende!
 
Hi Sassa, könntest du mir kurz erklären, wie du die einzelnen fehlenden Werte für BO errechnet hast? Ich stehe irgendwie auf dem Schlauch...Ich wäre dir sehr dankbar!
 
Hi Sassa, könntest du mir kurz erklären, wie du die einzelnen fehlenden Werte für BO errechnet hast? Ich stehe irgendwie auf dem Schlauch...Ich wäre dir sehr dankbar!
Du musst die Werte von Tabelle zwei verwenden. Jede Zeile vergleichst du mit den Werten von Zeile BO. Zeile Be hat mit Zeile Bo 4 übereinstimmende Werte, es gibt insgesamt 10 Attributet, also 4/10 = 0,4. Das musst du für jede Zeile so machen.
 
Klasse vielen Dank für deine schnelle Antwort. Aber hat nicht Be nur 2 Übereinstimmungen mit Bo? Also einmal überregionale Werbung und bechere Becherverpackung? Muss ich nicht die 1en betrachten?
 
@MR3 ich habe bei Aufgabe 2b
q4->q1 raus.
Wieso hast du bei q4->q5,q5->q4 100%? Und wieso bei Schritt 2 40% für q4,q5? Da ist doch nur eine Übereinstimmung, sodass dort nur 20% als Ergebnis sich ergibt oder vertue ich mich da?
 
@MR3 ich habe bei Aufgabe 2b
q4->q1 raus.
Wieso hast du bei q4->q5,q5->q4 100%? Und wieso bei Schritt 2 40% für q4,q5? Da ist doch nur eine Übereinstimmung, sodass dort nur 20% als Ergebnis sich ergibt oder vertue ich mich da?
Du hast recht! Ich hab versehentlich die Werte bei q4 nicht komplett richtig nach Excel übernommen, der Fehler hat sich dann durchgezogen.
 
Zurück
Oben