Einsendeaufgaben EA-Besprechung | 32711 | SS 2019 | EA1 42200 | 06.06.2019

Dieses Thema im Forum "32711 Business Intelligence" wurde erstellt von Antonio, 7 April 2019.

  1. Antonio

    Antonio Fernuni-Hilfe

    Ort:
    München
    Hochschulabschluss:
    Bachelor of Science
  2. Hallo, ich wollte meine Ergebnisse zu der Aufgabe 3b der EA 1 diskutieren, die am 06.06.19 abzugeben ist, freue mich auf euer Feedback.

    Mein Itemset L1 besteht lediglich aus dem Item q1 (Kekse).
    Mein Itemset L2 ist leer, da keine Item-Kombination die Mindestkonfidenz von 60% erreicht.

    Nun habe ich Probleme konkrete Handlungsempfehlungen für 3c zu formulieren, da mein Ergebnis wenig aussagt. Es gibt eigtl. nur einen schwachen Zusammenhang (jedoch unter 60%) zwischen Keksen und Schokolade sowie Keksen und Gummibärchen.

    Was meint ihr? Rechenfehler oder sind eure Ergebnisse gleich und die Handlungsempfehlung basiert daher auf schwachen Zusammenhängen?

    VG Frederik
     
  3. Heiko

    Heiko

    Studiengang:
    M.Sc. Wirtschaftsinformatik
    ECTS Credit Points:
    30 von 120
    In der Aufgabenstellung gibt es folgende Hinweise: Items von L1 erfüllen den Mindestsupport, Items von L2 erfüllen die Mindestskonfidenz.
    Wenn du das berücksichtigst, dann besteht das Itemset L1 aus mehreren Items. Ähnlich wahrscheinlich auch für das Itemset L2.
     
  4. Study2016

    Study2016

    Hochschulabschluss:
    Bachelor of Arts
    Studiengang:
    M.Sc. Wirtschaftswissenschaft
    ECTS Credit Points:
    10 von 120
    Der Lehrstuhl hat den Mindestsupport bei 3.b. auf 40 % korrigiert
     
  5. Danke für den Hinweis, nun macht das Ergebnis auch mehr Sinn!
     
  6. JohannaH

    JohannaH

    Studiengang:
    M.Sc. Wirtschaftswissenschaft
    Ich habe noch eine Frage zu Aufgabe 3b)

    L1= (Schokolade, Kekse, Gummibärchen)

    was ich bei der Fragestellung nicht verstehe: Es wird ja nach den Itemsets L1 und L2 gesucht. Welche sind denn gemeint?
    Nach dem ersten Schritt habe ich 3 mögliche Kombinationen. Diese erfüllen einen Mindestsupport - ist das dann Itemset L1?
    Als nächstes würde man ja die Regeln aufstellen, da ergeben sich bei mir 4 mögliche Regeln. Diese kann ich auf Konfidenz überprüfen.
    Als Ergebnis habe ich dann Schokolade --> Kekse und Gummibärchen --> Kekse
    Ist das dann mein L2? Für mich sind das Regeln, aber keine Itemsets.
    Ich hoffe, ihr könnt mir helfen!
     
  7. Hey Johanna,

    meine Ergebnisse sind identisch.

    Mein Itemset L1 habe ich als die Items q1 (Kekse), q2 (Schoko), q4 (Gummibärchen) definiert.
    Mein Itemset L2 sind dann die Regeln q2-->q1 und q4-->q1. Ich hab aber keine Ahnung ob es das korrekte Wording ist, also das "wenn-dann" - Regeln ein Itemset bilden können.
     
  8. JohannaH

    JohannaH

    Studiengang:
    M.Sc. Wirtschaftswissenschaft
    Vielen Dank für deine Antwort!
    Die Aufgabenstellung ist wirklich undeutig, ich hoffe das passt soweit :)

    Bei Aufgabe 2 habe ich einmal in "Bereits vorhandene Versicherung" aufgespalten, danach die Hausrat nochmals in "Geschlecht".
    Habt ihr das auch so?
     
  9. Genau das hab ich auch so gemacht. Erst nach den vorhandenen Versicherungen aufspalten, dann die Hausrat nach Geschlecht. Das Alter spielt dann schon keine Rolle mehr.
     
    JohannaH gefällt das.
  10. bengi

    bengi

    Hochschulabschluss:
    Bachelor of Arts
    Studiengang:
    M.Sc. Wirtschaftswissenschaft
    Hi Zusammen,

    was habt ihr bei den Aufgaben 1 und 4 für Lösungen?
    Hier meine:

    Aufgabe 1:
    1. B
    2. C
    3. D
    4. C (?)

    Aufgabe 4:
    1. Falsch
    2. Wahr
    3. Falsch
    4. Falsch (?)
    5. Falsch
    6. Wahr
    7. Falsch (?)
    8. Wahr (?)
    9. Wahr
    10. Wahr


    Viele Grüße! :-)
     
  11. Hi Bengi,

    bei Aufgabe 1 bin ich bei 1.1 bis 1.3 dabei. Bei 1.4 bin ich sehr unsicher. Wenn das SVM Ding die klassische Variante darstellt geh ich mit.
    Aufgabe 4 hab ich mir noch nicht angeschaut.

     
  12. JohannaH

    JohannaH

    Studiengang:
    M.Sc. Wirtschaftswissenschaft
    Bei Aufgabe 1 hab ich alles wie du :)
    Aufgabe 4 ebenfalls die gleichen Ergebnisse.
     
  13. Habt ihr noch ne drei-Item Kombi gemacht?
     
  14. Hallo Leute,
    Aufgabe 1 und 4 habe ich genauso wie oben geschrieben.

    Aufgabe 2
    a)
    1) Aufspaltung der Attribute
    2) Bestimmung des ersten Attributes
    3) Durchführung der Aufspaltung
    4) Überprüfung des Abbruchkriteriums

    b)
    1) Kundennummer nicht nummerisch / sechs-Stellig
    2) Haftpflichtversicherung (Ja anstatt ja)
    3) Kontonummer mit Sonderzeichen
    4) Gehalt Sonderzeichen und nicht nummerisch
    5) ?

    c) Datenbasis => bereits vorhandene Versicherung => Alter => Geschlecht
    Alter spielt zwar keine Rolle mehr, aber neue Impurity lag darunter.

    Aufgabe 3
    a) S.107
    b)
    L1= Schokolade, Kekse, Gummibärchen
    L2= Schokolade -> Kekse und Gummibärchen -> Kekse
    Drei-Item Kombination habe ich nicht durchgeführt, da nur nach L1 und L2 gefragt wurde.

    c) Handlungsvorschläge ??
     
    Zuletzt bearbeitet: 10 Mai 2019
    Blubb gefällt das.
  15. FernJakob

    FernJakob

    Hochschulabschluss:
    Bachelor of Arts
    Studiengang:
    M.Sc. Wirtschaftsinformatik
    Was haltet ihr von 3c:

    Da Schokolade oft mit Keksen zusammengekauft wird, kann man sie im Regal nebeneinander platzieren.
    Eine weitere Möglichkeit wäre einen Schokoladenkeks zum Kauf anzubieten.

    Da Kekse of mit Gummibärchen zusammengekauft werden würde es sich empfehlen sie im Regal nebeneinander zu platzieren.

    Was anderes fällt mir gerade auch nicht ein.

    Gruß Jakob
     
  16. Hallo zusammen,

    ich hätte bei Aufgabe2c unterstellt, dass ich nach dem Attribut mit der kleinsten Impurity als erstes aufspalte. Bin mir aber bei der Deutung der Formel unsicher.

    Mein erster Versuch wäre, auch wenn ich noch keine finale Idee habe, wie ich es aufzeichnen werden, dass ich die Datenbasis erst nach den bereits vorhandenen Versicherungen (HPV, HRV und LV) aufspalte, und dann die HRV nach dem Geschlecht und fertig.

    Bei der Berechnung tue ich mich allerdings auch noch schwer.

    Folgendes hätte ich im Angebot

    Erste Prüfung der Attribute:

    "Geschlecht": Gesamtimpurity von 1/2

    "Alter": Gesamtimpurity von 1/2

    "Vorhandene Versicherung": Gesamtimpurity von 1/6

    Von daher hätte ich mich für "Vorhandene Versicherung" entschieden.



    Hätte das noch jemand so? Oder ne Idee, wo ich falsch "abgebogen" sein könnte?

    LG Sofi
     
  17. Digitalisierer

    Digitalisierer

    Ort:
    Oestrich-Winkel
    Studiengang:
    M.Sc. Wirtschaftsinformatik
    Das sind doch die Aufgaben aus der Klausur oder? Die wurden bei der Nachbesprechung sehr schön diskutiert
     
  18. gibt's die irgendwo zum ansehen? im Moodle hab ich nur den Link gefunden, der zeigt aber auf eine leere Seite.
    Danke!
     
  19. Digitalisierer

    Digitalisierer

    Ort:
    Oestrich-Winkel
    Studiengang:
    M.Sc. Wirtschaftsinformatik
    Glaube die Präsentation hat der Lehrstuhl aus diesem Grund nicht bereit gestellt :(
     
  20. Ich hänge grade an der Aufgabe 2c fest. Ich verstehe den Grund, dass man nach dem Kriterium der bereits vorhandenen Versicherungen die erste Aufspaltung durchführt, aber ich habe irgendwo noch einen Fehler in der Berechnung.
    Ich würde rechnen:
    1/3 x 4/4 (da ja alle 4 Personen die eine Haftpflichtversicherung haben an einer Rechtsschutzversicherung interessiert sind)
    1/3 x 0/4 (da keiner der Personen die eine Lebensversicherung haben an einer RSV interessiert sind)
    1/3 x 2/4 (da 2 der 4 Personen mit einer Hausratvers. an einer RSV interessiert sind)

    Im Ergebnis komme ich aber dann wiederum auf 1/2, wodurch kein eindeutiges Kriterium entsteht.

    Ich glaube mir ist grade ein Licht aufgegangen. Wir sollen ja in diesem Schritt die Verunreinigung der Daten berechnen. Die Leute mit einer Haftpflicht sind also entsprechend ebenfalls nicht verunreinigt, da homogen und werden entsprechend ebenfalls mit x 0/4 berechnet richtig?
     
  21. Und im zweiten Schritt ist die HPV und die LV ein Endknoten, da die Verunreinigung jeweils = 0 ist (alle sind entweder interessiert oder nicht an einer Rechtsschutzversicherung).
    Der Knoten HRV ist jedoch kein Endknoten. Bei der Berechnung des neuen Durchschnittsalters ergeben sich 45,25 Jahre, also ca. 45 Jahre.
    Entsprechend ergibt sich:
    {Alter}Impurity = 1/2 x 1/2 + 1/2 x 1/2 = 1/2 (da jeweils die ü und u 45 jährigen einmal interessiert sind und einmal nicht)
    {Geschlecht}Impurity = 1/2 x 0 + 1/2 x 0 = 0 (da die weiblichen jeweils interessiert sind und die männlichen nicht ist dies die geringste Verunreinigung mit der impurity = 0)

    Entsprechend würde ich aufteilen in vorhandene Versicherungen und dann auf der Kante HRV noch einmal nach Geschlecht. Als Endknoten würden sich also ergeben LV, HPV und unter HRV je männlich und weiblich...

    Oder habe ich grade einen Denkfehler?
     
  22. FrankRudolf

    FrankRudolf

    Ort:
    Brühl
    Studiengang:
    B.Sc. Wirtschaftsinformatik
    ECTS Credit Points:
    130 von 180
    Ich habe die gleiche Lösung wie @Fossil1992, jedoch mit anderen Begründungen.

    Im ersten Schritt werden die Daten in der Tabelle analysiert, um das erste Attribut zu Identifizieren, dass aufgespaltet werden soll. Dabei fällt das Attribut Geschlecht in das Auge. Es gibt 6 männliche und 6 weibliche Personen und somit eine Gewichtung von jeweils 1/2. Innerhalb dieser Partition fällt auf, dass 4 weibliche Personen ein Interesse an der Rechtschutzversicherung haben und bei den Männern nur 2. Somit ist da der Gewichtungsfaktor 2/3 bei den weiblichen und 1/3 bei den männlichen Personen. Somit ist die gewichtete Gesamt-Impurity 1/2*1/3+1/2*2/3=1/2. Das ist aber schon die Impurty der Datenbasis gewesen. Genau so verhält es sich mit dem Attribut Alter. Der Durchschnitt liegt hier bei 40 und die hälfte ist älter und die andere Hälfte jünger als 40. Auch hier lässt sich kein Zusammenhang mit Alter und Produktinteresse herleiten. Die gewichtete Gesamt-Impurity wäre in diesem Fall 1/2*1/2+1/2*2/2=1/2. Somit kommt bei der Attributauswahl nur das Attribut „Bereits vorhandene Versicherung“ in Frage. Der Wertebereich des Attributs hat drei Elemente: Haftpflichtversicherung (HPV), Lebensversicherung (LV) und Hausratversicherung (HRV). Diese sind unter den Personen gleichmäßig verteilt. Damit ist die Gewichtung von jeder dieser Versicherungen 1/3. Hier fällt jedoch auf, dass alle, die eine HPV haben auch ein Interesse an der Rechtschutzversicherung (RSV) haben. Die Impurity dieser Partition ist somit 0. Ähnlich verhält es sich mit den Personen, die eine LV haben. Mit dem Unterschied, dass diese kein Interesse an einer RSV haben. Auch hier ist die Impurity gleich 0. Somit ist die Gesamt-Impurity in diesem Fall 1/3*0+1/3*0+1/3*1/2=1/6. Dies bedeutet den Größten Gewinn.
    t1 wird also in drei Folgeknoten aufgeteilt.

    Jetzt erfolgt die Überprüfung des Abbruchkriteriums. Für die Knoten t2 und t3 ist, wie oben beschrieben, die Impturity = 0 und somit das Abbruchkriterium erfüllt. Somit gehört der Knoten T2 zur Partition der Interessierten Bja und der Knoten t3 zur Partition der Nicht-Interessierten Bnein.

    Jetzt erfolgt die erneute Anwendung der ersten beiden Schritte, auf die Knoten deren Impturity ungleich 0 ist. In diesem Fall der Knoten t4. Das Durchschnittsalter der übrigen Personen liegt bei 45,25 Jahren. Hier ist wieder eine gleiche Verteilung der Personen vorhanden. Somit ist die Gewichtung erneut 1/2 für das Attribut Alter. Das Produktinteresse der Älteren und Jüngeren verteilt sich ebenfalls auf 1/2. Somit ergibt sich für das Attribut eine Gesamt-Imptuity von 1/2* 1/2+ 1/2* 1/2=1/2. Das Attribut der bereits vorhandenen Versicherungen muss nicht mit betrachtet werden, da es aus der Trainingsmenge herausgefallen ist. Somit bleibt nur noch das Attribut der Geschlechter. Die Gewichtung hier für beträgt für die männlichen und weiblichen 1/2. Es fällt jedoch auf, dass die Weiblichen sich für die RSV interessieren und die männlichen Personen nicht. Somit ergbit dies eine Gesamt-Imptuity von 1/2*0+ 1/2*0=0. Somit sind die entstehenden Knoten t5 und t6 Endknoten.

    Auf Pruning soll in dieser Aufgabe vollständig verzichtet werden.

    Ich bin auf euer Feedback gespannt.
     

Diese Seite empfehlen

  1. Diese Seite verwendet Cookies, um Inhalte zu personalisieren, diese deinem Erleben anzupassen und dich nach der Registrierung angemeldet zu halten.
    Wenn du dich weiterhin auf dieser Seite aufhältst, akzeptierst du unseren Einsatz von Cookies.
    Information ausblenden