{"id":170,"date":"2022-10-13T20:24:39","date_gmt":"2022-10-13T20:24:39","guid":{"rendered":"https:\/\/blog.zhdk.ch\/dssblog\/?p=170"},"modified":"2022-10-13T20:24:39","modified_gmt":"2022-10-13T20:24:39","slug":"text-to-machine","status":"publish","type":"post","link":"https:\/\/blog.zhdk.ch\/digital-skills\/2022\/10\/13\/text-to-machine\/","title":{"rendered":"Text-to-machine: Wie KI mit Sprache umgeht"},"content":{"rendered":"\n<p style=\"font-size:0.75rem\"><em>Von Grit Wolany. Bild: <a rel=\"noreferrer noopener\" href=\"https:\/\/unsplash.com\/photos\/6Y4EzfSP5Tc\" target=\"_blank\">Deep Mind via Unsplash<\/a><\/em><\/p>\n\n\n\n<p>Das Gebiet der Nat\u00fcrlichen Sprachverarbeitung (NLP) umfasst die Nat\u00fcrliche Spracherkennung (NLU) sowie die Nat\u00fcrliche Sprachgenerierung (NLG).<\/p>\n\n\n\n<p>Kurz gesagt: 1. \u00abVerstehen\u00bb, was gesprochen oder geschrieben wird und 2. \u00abAntworten\u00bb, also Text oder Sprache erzeugen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full wp-duotone-default-filter\"><img loading=\"lazy\" decoding=\"async\" width=\"2000\" height=\"2000\" src=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1.png\" alt=\"\" class=\"wp-image-530\" srcset=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1.png 2000w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1-300x300.png 300w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1-1024x1024.png 1024w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1-150x150.png 150w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1-768x768.png 768w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Overview_1-1536x1536.png 1536w\" sizes=\"auto, (max-width: 2000px) 100vw, 2000px\" \/><figcaption><em>Darstellung: Grit Wolany<\/em><\/figcaption><\/figure>\n\n\n\n<div style=\"height:60px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<div class=\"wp-block-group is-layout-flow wp-block-group-is-layout-flow\">\n<h2 class=\"has-x-large-font-size wp-block-heading\">GPT-3<\/h2>\n\n\n\n<p>Die Text-KI GPT-3 (Generative Pre-trained Transformer 3) ist ein auf Deep Learning basierendes Sprachmodel der Research Organisation <a rel=\"noreferrer noopener\" href=\"https:\/\/openai.com\" target=\"_blank\">Open AI<\/a> aus dem Jahr 2020, welches vorab mit grossen Textmengen trainiert wurde.<\/p>\n\n\n\n<figure class=\"wp-block-image wp-duotone-default-filter\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"917\" src=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets-1024x917.png\" alt=\"\" class=\"wp-image-916\" srcset=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets-1024x917.png 1024w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets-300x269.png 300w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets-768x688.png 768w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets-1536x1376.png 1536w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/GPT-3_Trainingsdatensets.png 1596w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption>Die Trainingsdatensets des GPT-3 Sprachmodells. Insgesamt wurde die KI mit 175 Milliarden Parametern trainiert. (Darstellung: Grit Wolany)<\/figcaption><\/figure>\n\n\n\n<div style=\"height:30px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p>Diese Trainingsdaten waren meist in Englisch, deshalb sind die KI-Ausgabeergebnisse in Englisch am besten.<\/p>\n\n\n\n<p>GPT-3 steckt mittlerweile in vielen Anwendungen. Einige <strong><a href=\"https:\/\/blog.zhdk.ch\/dssblog\/2022\/10\/13\/text-ki-tools\/\" data-type=\"post\" data-id=\"166\">texterzeugende KI-Tools stellen wir euch in diesem Blog-Beitrag<\/a><\/strong> vor. <\/p>\n<\/div>\n\n\n\n<div style=\"height:60px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<h2 class=\"has-x-large-font-size wp-block-heading\">Wie Maschinen lesen<\/h2>\n\n\n\n<p>Beim Natural Language Processing (NLP) werden Texte in einzelne Token unterteilt, die je nach ihren statisch-linguistischen Verh\u00e4ltnism\u00e4ssigkeiten in numerische Werte \u00fcbersetzt und so algorithmisch weiterverarbeitet werden k\u00f6nnen.<\/p>\n\n\n\n<figure class=\"wp-block-image alignwide size-full wp-duotone-default-filter\"><img loading=\"lazy\" decoding=\"async\" width=\"2000\" height=\"1413\" src=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1.png\" alt=\"\" class=\"wp-image-534\" srcset=\"https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1.png 2000w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1-300x212.png 300w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1-1024x723.png 1024w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1-768x543.png 768w, https:\/\/blog.zhdk.ch\/digital-skills\/files\/2022\/10\/1_NLP_Tokenization_1-1536x1085.png 1536w\" sizes=\"auto, (max-width: 2000px) 100vw, 2000px\" \/><figcaption><em>Beispielhafte Tokenisierung eines Satzes. Die einzelnen Token erhalten dann bestimmte nummerische Werte zugewiesen.<\/em> (Darstellung: Grit Wolany)<\/figcaption><\/figure>\n\n\n\n<div style=\"height:60px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p>Wer noch genauer wissen will, wie das Ganze funktioniert, der schaut das verlinkte Video. Hier erkl\u00e4rt Laurence Moroney vom Google AI Team das Thema sehr verst\u00e4ndlich und anschaulich.&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-embed alignwide is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\"><div class=\"wp-block-embed__wrapper\">\n<iframe loading=\"lazy\" title=\"Machine Learning Foundations: Ep #8 - Tokenization for Natural Language Processing\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/f5YJA5mQD5c?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<\/div><\/figure>\n\n\n\n<div style=\"height:60px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p>Diese Tokenisierung sorgt also daf\u00fcr, dass aus Worten Nummern werden, mit denen Maschinen arbeiten k\u00f6nnen. Und dies ist die Basis f\u00fcr eine Vielzahl von Machine Learning Anwendungen.<\/p>\n\n\n\n<div style=\"height:100px\" aria-hidden=\"true\" class=\"wp-block-spacer\"><\/div>\n\n\n\n<p class=\"has-small-font-size\"><em>Grit Wolany absolvierte an der ZHdK das Masterstudium Design, Trends &amp; Identity und forschte zum Thema K\u00fcnstliche Intelligenz in der Kreativwirtschaft.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie kann K\u00fcnstliche Intelligenz Sprache &#8222;verstehen&#8220; und verarbeiten? Und was ist eigentlich GPT-3?<\/p>\n","protected":false},"author":6368,"featured_media":538,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8],"tags":[110,136,144,186,202,214],"class_list":["post-170","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-digital-know-how","tag-gpt-3","tag-ki","tag-kuenstliche-intelligenz","tag-prompts","tag-sprachmodelle","tag-text-to-image"],"_links":{"self":[{"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/posts\/170","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/users\/6368"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/comments?post=170"}],"version-history":[{"count":0,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/posts\/170\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/media\/538"}],"wp:attachment":[{"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/media?parent=170"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/categories?post=170"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.zhdk.ch\/digital-skills\/wp-json\/wp\/v2\/tags?post=170"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}