# Lists and Loops

A list is a very important (composite) data type in Python (similar to ¬ªarray¬´ in other languages).<br>
Loops are a very common control structure for programs.<br>

In this notebook we'll learn both in reprogramming ¬ª[Weisheit und Wiederholung](https://0x0a.li/en/neuer-titel-weisheit-und-wiederholung/)¬´ by Hannes Bajohr. ([PDF](https://www.hannesbajohr.de/wp-content/uploads/2021/03/0x0a_WeisheitundWiederholung.pdf))

## Get data from the web with requests

Requests is a library for communication with websites through Python. ([Docs](https://docs.python-requests.org/en/latest/))<br>
<br>
We'll retrieve the data for the work with the requests and extract the corpus with list and string processing. Of course in this case copy & paste would be easier, so it's just for demonstration.

In [1]:
# Import the requests library.
import requests

# Url to the data used in ¬ªWeisheit und Wiederholung¬´.
url = 'https://www.worksandnights.net/blogsingle/titelpaare/'

# Request url and store the result in the variable r.
r = requests.get(url)

In [2]:
# The source code is stored in a variable called text
print(r.text[:1000])
print('\n\n...\n\n')
print(r.text[9000:10000])

<!DOCTYPE html>
<html lang="de-DE">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="profile" href="http://gmpg.org/xfn/11">
<link rel="pingback" href="https://www.worksandnights.net/worksandnights/xmlrpc.php">
<link rel="stylesheet" href="https://fonts.typotheque.com/WF-029601-009865.css" type="text/css" />
<script type="text/javascript" src="https://www.worksandnights.net/worksandnights/wp-content/themes/worksandnights/js/jquery-1.10.2.min.js"></script>



<title>Works and Nights</title>
<link rel='dns-prefetch' href='//s.w.org' />
<link rel="alternate" type="application/rss+xml" title="Works and Nights &raquo; Feed" href="https://www.worksandnights.net/feed/" />
<link rel="alternate" type="application/rss+xml" title="Works and Nights &raquo; Kommentar-Feed" href="https://www.worksandnights.net/comments/feed/" />
		<script type="text/javascript">
			window._wpemojiSettings = {"baseUrl":"https:\/\/s.w.org\/images\/core\/emoj

In [3]:
r.text[-4000:]

'ntergang. Orig.:\xa0Decline and Fall. A:\xa0Evelyn Waugh. ED: 1928.<br />\nVernunft und Revolution. Orig.: Reason and Revolution. A: Herbert Marcuse. ED: 1941.<br />\nVerstand und Gef√ºhl. Orig.: Sense and Sensibility. A: Jane Austen. ED: 1811.<br />\nVertrauen und Gewalt. A: Jan Philipp Reemtsma. ED: 2008.\x08<br />\nVolksentscheid und Volksbegehren. A: Carl Schmitt. ED: 1927.</p>\n<p><span style="color: #f39655;">W</span></p>\n<p><strong>Wahnsinn und Gesellschaft. Orig.: Folie et d√©raison. A: Michel Foucault. ED: 1961.<strong><br />\n<strong>Wahrheit und Methode. A: Hans-Georg Gadamer. ED: 1960.<strong><br />\n</strong></strong></strong></strong>Wahrheit und Politik. Orig.: Truth and Politics. A: Hannah Arendt. ED: 1967.<br />\nWahrheit und Wahrhaftigkeit. Orig.: Truth and Truthfulness. A: Bernard Williams. ED: 2002.<br />\nWeisheit und Mysterium. A: Jan Assmann. ED: 2000.<br />\nWeiss und Rot. A: Ren√© Schickele. ED: 1920.<br />\nWerke und Tage. Orig.: Erga kai hemerai. A: Hesiod.

<br>
First we'll remove everything from the beginning and the end that's not necessary.

In [4]:
txt = r.text
query = '<p><span style="color: #f39655;">A</span></p>'
index_start = txt.find(query) + len(query)
query = '<p><em>Vorschl√§ge und Ideen brachten ein:'
index_end = txt.rfind(query)
# Slice txt
txt = txt[index_start:index_end]
print(txt)


<p><strong>Ahnung und Gegenwart. A: Joseph von Eichendorff. ED: 1815.<br />
</strong>Alpha und Omega. Orig.: Alfa og Omega. A: Asger Jorn. ED: 1964.<strong><br />
</strong>Aktualit√§t und Geschichtlichkeit. A: Peter B√ºrger. ED: 1977.<br />
Analog und Digital. A: Otl Aicher. ED: 1991.<br />
Anarchismus und Sozialismus. Orig.: Anarchisme et Socialisme. A: Georgi Walentinowitsch Plechanow. ED: 1894<br />
Angst und Vernunft. A: Eric Voegelin. ED: 2018.<span style="color: #1a171b;"><br />
</span>Aufrichtigkeit und Authentizit√§t. √ú: Das Ende der Aufrichtigkeit. Orig.: Sincerity and Authenticity. A: Lionel Trilling. ED: 1972.<br />
Asche und Diamant. Orig.: Popiol i diament. A: Jerzy Andrzejewski. ED: 1947.<br />
Ausdrucksbewegung und Gestaltungskraft. A: Ludwig Klages: ED: 1913.</p>
<p><span style="color: #f39655;">B</span></p>
<p>Bild und Text. Orig.: Picture and Text. A: Henry James. ED: 1893<br />
Brot und Salz. A: Anna Seghers. ED: 1957<br />
Brot und Spiele. A: Siegfried Lenz. ED: 1

## List & Loop

Next we'll split the string into a list of single lines and remove all the lines that do not contain a title. First a recap.

In [5]:
s = 'The quick brown fox jumps over the lazy dog.' # string
s = s.lower().split() # split returns a list
print(type(s))
print(s)

<class 'list'>
['the', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog.']


<br>
We can loop/ <b>iterate</b> a list with <code>for</code>:

In [6]:
for item in s:
    print(item)

the
quick
brown
fox
jumps
over
the
lazy
dog.


<br>Syntax:
```python
for variable_name_of_your_choice in iterable_object:
    # code block
    # defined with indent
    # variable_name_of_your_choice is accesible here
    
# outside of the loop
```

In [7]:
for number in [1, 4, 2]:
    print(number)
    
print('outside of the loop')

1
4
2
outside of the loop


In [8]:
animals = ['üê¢', 'ü¶ì', 'üê´', 'üêº', 'üê§']

for animal in animals:
    print(animal)

üê¢
ü¶ì
üê´
üêº
üê§


<br>
It's possible to loop over a list and store the result in a new list:

In [9]:
l = 'The quick brown fox jumps over the lazy dog.'.split()
print(l)
l = [word.upper() for word in l]
print(l)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog.']
['THE', 'QUICK', 'BROWN', 'FOX', 'JUMPS', 'OVER', 'THE', 'LAZY', 'DOG.']


<br>We'll use that to reduce the list from the web to actual titles. (Currently it also contains the uppercase letters.)

In [10]:
# As an example we'll create a new list with all the elements
# of s that are not 'the'
s = [item for item in s if not item == 'the']
print(s)

['quick', 'brown', 'fox', 'jumps', 'over', 'lazy', 'dog.']


In [11]:
# Split string into list
txt = txt.splitlines()

In [12]:
# Display 20 first items
txt[:20]

['',
 '<p><strong>Ahnung und Gegenwart. A: Joseph von Eichendorff. ED: 1815.<br />',
 '</strong>Alpha und Omega. Orig.: Alfa og Omega. A: Asger Jorn. ED: 1964.<strong><br />',
 '</strong>Aktualit√§t und Geschichtlichkeit. A: Peter B√ºrger. ED: 1977.<br />',
 'Analog und Digital. A: Otl Aicher. ED: 1991.<br />',
 'Anarchismus und Sozialismus. Orig.: Anarchisme et Socialisme. A: Georgi Walentinowitsch Plechanow. ED: 1894. \x08\x08<br />',
 'Angst und Vernunft. A: Eric Voegelin. ED: 2018.<span style="color: #1a171b;"><br />',
 '</span>Aufrichtigkeit und Authentizit√§t. √ú: Das Ende der Aufrichtigkeit. Orig.: Sincerity and Authenticity. A: Lionel Trilling. ED: 1972.<br />',
 'Asche und Diamant. Orig.: Popiol i diament. A: Jerzy Andrzejewski. ED: 1947.<br />',
 'Ausdrucksbewegung und Gestaltungskraft. A: Ludwig Klages: ED: 1913.</p>',
 '<p><span style="color: #f39655;">B</span></p>',
 '<p>Bild und Text. Orig.: Picture and Text. A: Henry James. ED: 1893.\x08<br />',
 'Brot und Salz. A: Anna 

In [13]:
# Remove lines that start with <p><span style="color: #f39655;
txt = [line for line in txt if not line.startswith('<p><span style="color: #f39655;')]

In [14]:
txt[:20]

['',
 '<p><strong>Ahnung und Gegenwart. A: Joseph von Eichendorff. ED: 1815.<br />',
 '</strong>Alpha und Omega. Orig.: Alfa og Omega. A: Asger Jorn. ED: 1964.<strong><br />',
 '</strong>Aktualit√§t und Geschichtlichkeit. A: Peter B√ºrger. ED: 1977.<br />',
 'Analog und Digital. A: Otl Aicher. ED: 1991.<br />',
 'Anarchismus und Sozialismus. Orig.: Anarchisme et Socialisme. A: Georgi Walentinowitsch Plechanow. ED: 1894. \x08\x08<br />',
 'Angst und Vernunft. A: Eric Voegelin. ED: 2018.<span style="color: #1a171b;"><br />',
 '</span>Aufrichtigkeit und Authentizit√§t. √ú: Das Ende der Aufrichtigkeit. Orig.: Sincerity and Authenticity. A: Lionel Trilling. ED: 1972.<br />',
 'Asche und Diamant. Orig.: Popiol i diament. A: Jerzy Andrzejewski. ED: 1947.<br />',
 'Ausdrucksbewegung und Gestaltungskraft. A: Ludwig Klages: ED: 1913.</p>',
 '<p>Bild und Text. Orig.: Picture and Text. A: Henry James. ED: 1893.\x08<br />',
 'Brot und Salz. A: Anna Seghers. ED: 1957.\x08<br />',
 'Brot und Spiele. 

### Enumerate

Enumerate iterates over an iterable and returns the corresponding index to every item.

In [14]:
l = ['one', 2, 'three', 4.0, [5, 5.0, 'five']] # A list can contain different types of data.

print('index'.ljust(8), 'item\n')
for index, item in enumerate(l):
    print(str(index).ljust(8), item)

index    item

0        one
1        2
2        three
3        4.0
4        [5, 5.0, 'five']


In [20]:
# Loop through the list with enumerate() and remove unwanted parts. 
for index, line in enumerate(txt):
    line = line.replace('<p>', '').replace('</p>', '')
    line = line.replace('<strong>', '').replace('</strong>', '')
    line = line.replace('<span>', '').replace('</span>', '')
    line = line.replace('<br />', '')
    
    # Store the modified strings in the list again.
    txt[index] = line

In [21]:
txt[:20]

['',
 'Ahnung und Gegenwart. A: Joseph von Eichendorff. ED: 1815.',
 'Alpha und Omega. Orig.: Alfa og Omega. A: Asger Jorn. ED: 1964.',
 'Aktualit√§t und Geschichtlichkeit. A: Peter B√ºrger. ED: 1977.',
 'Analog und Digital. A: Otl Aicher. ED: 1991.',
 'Anarchismus und Sozialismus. Orig.: Anarchisme et Socialisme. A: Georgi Walentinowitsch Plechanow. ED: 1894. \x08\x08',
 'Angst und Vernunft. A: Eric Voegelin. ED: 2018.<span style="color: #1a171b;">',
 'Aufrichtigkeit und Authentizit√§t. √ú: Das Ende der Aufrichtigkeit. Orig.: Sincerity and Authenticity. A: Lionel Trilling. ED: 1972.',
 'Asche und Diamant. Orig.: Popiol i diament. A: Jerzy Andrzejewski. ED: 1947.',
 'Ausdrucksbewegung und Gestaltungskraft. A: Ludwig Klages: ED: 1913.',
 'Bild und Text. Orig.: Picture and Text. A: Henry James. ED: 1893.\x08',
 'Brot und Salz. A: Anna Seghers. ED: 1957.\x08',
 'Brot und Spiele. A: Siegfried Lenz. ED: 1959.',
 'Christ und Antichrist. Orig.: Christos i Antichrist. A: Dmitrij S. Merezkovski

In [22]:
# Remove empty lines
txt = [line for line in txt if not line == '']

# Loop through list and split each line at the first dot
txt = [line[:line.find('.')] for line in txt]

In [23]:
txt

['Ahnung und Gegenwart',
 'Alpha und Omega',
 'Aktualit√§t und Geschichtlichkeit',
 'Analog und Digital',
 'Anarchismus und Sozialismus',
 'Angst und Vernunft',
 'Aufrichtigkeit und Authentizit√§t',
 'Asche und Diamant',
 'Ausdrucksbewegung und Gestaltungskraft',
 'Bild und Text',
 'Brot und Salz',
 'Brot und Spiele',
 'Christ und Antichrist',
 'Demokratie und Erziehung',
 'Denken und Sein',
 'Dichtung und Wahrheit',
 'Differenz und Wiederholung',
 'Diskurs und Verantwortung',
 'Doge und Dogaresse',
 'Emaillen und Kameen',
 'Endzeit und Zeitenende',
 'Engagement und Distanzierung',
 'Erde und Feuer',
 'Erfahrungen und Widerspr√ºche',
 'Erkenntnis und Interesse',
 'Erkenntnis und Irrtum',
 'Erkenntnis und Leben',
 'Erfahrung und Natur',
 'Erkl√§ren und Verstehen',
 'Erz√§hlkunst und Gesellschaft',
 'Fabeln und Erz√§hlungen',
 'Faktizit√§t und Geltung',
 'Feuer und Blut',
 'Fleisch und Stein',
 'Flucht und Verwandlung',
 'Frauen und T√∂chter',
 'Freiheit und Kultur',
 'Freiheit und Leben

<br>
Of course this requires well formalized data, which the data from the website is, except of "Steinzeit und Sternzeit: A: Jan Assmann. ED: 2011.", where there is a ":" instead of a ".", which becomes visible through the code below:

In [16]:
for line in txt:
    if ':' in line:
        print(line)

Steinzeit und Sternzeit: A: Jan Assmann


In [24]:
# Search for the index of that element
index = txt.index('Steinzeit und Sternzeit: A: Jan Assmann')
print(index)
print(txt[index])

171
Steinzeit und Sternzeit: A: Jan Assmann


In [25]:
# Replace that element manually
txt[index] = 'Steinzeit und Sternzeit'
print(txt[index])

Steinzeit und Sternzeit


In [26]:
txt[:20]

['Ahnung und Gegenwart',
 'Alpha und Omega',
 'Aktualit√§t und Geschichtlichkeit',
 'Analog und Digital',
 'Anarchismus und Sozialismus',
 'Angst und Vernunft',
 'Aufrichtigkeit und Authentizit√§t',
 'Asche und Diamant',
 'Ausdrucksbewegung und Gestaltungskraft',
 'Bild und Text',
 'Brot und Salz',
 'Brot und Spiele',
 'Christ und Antichrist',
 'Demokratie und Erziehung',
 'Denken und Sein',
 'Dichtung und Wahrheit',
 'Differenz und Wiederholung',
 'Diskurs und Verantwortung',
 'Doge und Dogaresse',
 'Emaillen und Kameen']

In [20]:
print(len(txt))

207


In [28]:
# Join the titles to one string, then split into one list
txt = ' '.join(txt)
txt = txt.split()
txt[:20]

['Kritik',
 'und',
 'Klinik',
 'Stern',
 'und',
 'Ambo√ü',
 'Masse',
 'und',
 'Macht',
 'Ja',
 'und',
 'Nein',
 'Soziologie',
 'und',
 'Sozialkritik',
 'Wahrheit',
 'und',
 'Politik',
 'M√∂rder',
 'und']

## Set

**Set** is the another data type for storing collections of data (like **list**). A set is like a list except it can contain only one occurence of each item. A set is created with `{}` and comma-separated values.

In [22]:
data = {4, 29, 'two words', 4} # a collection of type set
print(data)
print(type(data))

{'two words', 4, 29}
<class 'set'>


The 4 appears two times in the creation but only once in the object. Furthermore the items in a set are **unordered**.

<br>
A set can be created by transforming a sequence of data into a set with the <code>set()</code> method.

In [23]:
example = '''The quick brown fox jumps over the lazy dog. The lazy programmer jumps over the fire fox.'''.split()

print('list:', example)
print(len(example), 'items\n')

# Transform the list into a set:
example = set(example)
print('set:', example)
print(len(example), 'items')

list: ['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog.', 'The', 'lazy', 'programmer', 'jumps', 'over', 'the', 'fire', 'fox.']
17 items

set: {'The', 'fire', 'fox', 'over', 'quick', 'fox.', 'brown', 'programmer', 'dog.', 'lazy', 'the', 'jumps'}
12 items


<br>
Items in a set don't have an index. Instead we have to iterate over them.

In [24]:
for item in example:
    print(item)

The
fire
fox
over
quick
fox.
brown
programmer
dog.
lazy
the
jumps


In [25]:
# Add an item.
example.add('squirrel')

# Remove an item.
example.remove('fox.')

### Remove duplicates with set

In [29]:
# Convert list to set, which removes duplicates
txt = set(txt)
# Remove 'und'
txt.remove('und')

# Convert set to list again
txt = list(txt)
print(txt)

['Fleisch', 'Diskurs', 'Digital', 'Stoff', 'Kinder', 'Jesuitentum', 'Repr√§sentation', 'Ich', 'Leute', 'Zweckbegriff', 'K√∂pfe', 'Simulacra', 'Soziologie', 'Gewalt', 'Krise', 'Gomorra', 'Tabu', 'Luftkrieg', 'Moderne', 'Vorurteil', 'Systemrationalit√§t', 'Ahnung', 'Leidenschaft', 'M√∂rder', 'Antichrist', 'Subjektivit√§t', 'Menschenbildung', 'Verantwortung', 'Reflexionen', 'Natur', 'Staatsb√ºrger', 'Wahnsinn', 'Engagement', 'Zeit', 'Er', 'Verbrechen', 'Eigensinn', 'Gef√ºhl', 'Licht', 'Ambo√ü', 'Geschichtswissenschaft', 'Wort', 'Drang', 'Krieg', 'Gestalt', 'Sein', 'Welt', 'Heil', 'Marxismus', 'Legalit√§t', 'Himmel', 'Schimpf', 'Zeitenende', 'Idee', 'Kulturkritik', 'Ficken', 'Doge', 'Freiheit', 'Analog', 'Irrtum', 'Omega', 'Wiederholung', 'Schwarz', 'Kalk√ºl', 'Klassenbewusstsein', 'Utopie', 'Notwendigkeit', 'Schwert', 'Zauberei', 'S√º√ü', 'Gesetz', 'Geister', 'Gro√ü', 'Begriff', 'Endzeit', 'Nicht-Sinn', 'Realit√§t', 'Reinheit', 'Wei√ü', 'Verwandlung', 'Du', 'Triumph', '√úberwachen', 'Simu

In [23]:
print(len(txt))

325


In [28]:
# Test combinations with a nested loop
t = ['a', 'b', 'c']

for c in t:
    for d in t:
        if c != d:
            print(c, 'und', d)

a und b
a und c
b und a
b und c
c und a
c und b


In [30]:
# Create an empty list
pairs = []

# Loop through list and combine every word with all 
# words except itself.
for a in txt:
    for b in txt:
        if a != b:
            pairs.append(a + ' und ' + b)

In [31]:
len(pairs)

105300

In [32]:
pairs[:15]

['Fleisch und Diskurs',
 'Fleisch und Digital',
 'Fleisch und Stoff',
 'Fleisch und Kinder',
 'Fleisch und Jesuitentum',
 'Fleisch und Repr√§sentation',
 'Fleisch und Ich',
 'Fleisch und Leute',
 'Fleisch und Zweckbegriff',
 'Fleisch und K√∂pfe',
 'Fleisch und Simulacra',
 'Fleisch und Soziologie',
 'Fleisch und Gewalt',
 'Fleisch und Krise',
 'Fleisch und Gomorra']

## Sort a list

Sorting a list is done **in place**. This means that the list itself will be changed and it's not possible to get back the old order.

In [32]:
l = ['pike', 'trout', 'perch', 'catfish']
l.sort()
l

['catfish', 'perch', 'pike', 'trout']

In [33]:
l.sort(reverse=True)
l

['trout', 'pike', 'perch', 'catfish']

In [34]:
# Sort by length
l.sort(key=len)
l

['pike', 'trout', 'perch', 'catfish']

In [35]:
l.sort(key=len, reverse=True)
l

['catfish', 'trout', 'perch', 'pike']

In [36]:
l.reverse()
l

['pike', 'perch', 'trout', 'catfish']

### Sort the title by length

In [33]:
pairs.sort(key=len)
excerpt = '\n'.join(pairs[:50])
print(excerpt)
print('''
...

''')
excerpt = '\n'.join(pairs[len(pairs)//2:len(pairs)//2+50])
print(excerpt)
print('''
...

''')
excerpt = '\n'.join(pairs[-50:])
print(excerpt)

Er und Du
Er und Ja
Du und Er
Du und Ja
Ja und Er
Ja und Du
Ich und Er
Ich und Du
Ich und Ja
Er und Ich
Er und S√º√ü
Er und Rot
Er und Ruf
S√º√ü und Er
S√º√ü und Du
S√º√ü und Ja
Du und Ich
Du und S√º√ü
Du und Rot
Du und Ruf
Rot und Er
Rot und Du
Rot und Ja
Ruf und Er
Ruf und Du
Ruf und Ja
Ja und Ich
Ja und S√º√ü
Ja und Rot
Ja und Ruf
Ich und S√º√ü
Ich und Rot
Ich und Ruf
Tabu und Er
Tabu und Du
Tabu und Ja
Zeit und Er
Zeit und Du
Zeit und Ja
Er und Tabu
Er und Zeit
Er und Wort
Er und Sein
Er und Welt
Er und Heil
Er und Idee
Er und Doge
Er und Gro√ü
Er und Wei√ü
Er und Katz

...


Ged√§chtnis und Sturm
Ged√§chtnis und Sodom
Ged√§chtnis und Macht
Ged√§chtnis und Feuer
Ged√§chtnis und W√∂lfe
Ged√§chtnis und Werke
Ged√§chtnis und Kraft
Ged√§chtnis und Moral
Ged√§chtnis und V√§ter
Ged√§chtnis und Scham
Ged√§chtnis und Grell
Ged√§chtnis und W√ºrde
Ged√§chtnis und Alpha
Ged√§chtnis und Stolz
Ged√§chtnis und Stein
Ged√§chtnis und Masse
Ged√§chtnis und klein
Ged√§chtnis und Leben
Ged√§chtnis un