<div dir="ltr"><div><div>Ja nevim, skoly nemam, a nebudu se poustet do polemiky o lazy objektech, od toho jsou tu jini.<br><br></div>Jenom nahodim jednu vec. Kdysi jsem resil neco podobneho, ale misto sort() jsem pouzil sorted() a parametr "key". Ten umoznuje ohodnotit kazdou polozku nejakou hodnotou a potom setridit podle techto hodnot. <br><br></div><div>Ty jsi schopny z puvotniho radku a offsetu spocitat nejake cislo. Napr. pro "ema ma maso" spocitas "ord('e') * 10^100 + ord('m') * 10^90 + ord('a') * 10^80 + ord(' ') * 10 * 70, ...<br><br></div><div>Proste z toho stringu odvodis nejakou hodnotu, ktera umozni razeni. A sorted() ti podle ni ochodne seradi, pro kazdou polozku se ta hodnota "key" bude pocitat jenom jednou (narozdil od "cmp"). Pokud ty polozky budou lazy, jak uz psali ostatni, mas myslim problem vyreseny.<br><br></div><div>HTH<br><br></div><div>   Jirka<br><br></div><div>P.S. Takhle jsem kdysi tridil sitove rozsahy podle prvni IP adresy (first_ip() prevadi IP adresy na cisla):<br><br>def first_ip(IPy_obj):<br>    '''returns IP of the network address of an IPy object as an integer,<br>    useful for sorting (see behaviour of "key" argument for sort())/<br>    It's needed as IPy objects are sorted by length by default.<br>    '''<br>    return IPy_obj.net().int()<br><br>def sort_networks(ip_list):<br>    nets = sorted(ip_list, key=first_ip)<br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-06-16 10:42 GMT+02:00 Petr Přikryl <span dir="ltr"><<a href="mailto:prikryl@atlas.cz" target="_blank">prikryl@atlas.cz</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><p style="padding:0 0 0 0;margin:0 0 0 0">Zdravím,</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Doporučil bych ještě jeden úhel pohledu -- před rozhodnutím o způsobu implementaci. Neznám detaily řešeného problému, takže spíš obecně. Já vím, že je to jasné, ale někdy si neškodí zopaovat zásady ;)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">U každého řešeného problému lze analyzovat složitost -- časovou a paměťovou. Nejdříve je nutné rozhodnout, jaká z nich je u řešeného problému důležitější, případně jestli někde existují limity (velikost pamět, počet procesorů, praktická doba řešení). Nakonec se to vždy plácne jen tak (pokud je to malý problém a nemá cenu se tím zabývat), nebo se hledá kompromis -- optimalizuje se. Ale před optimalizací je nutné zvolit správný přístup.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Mnohé implementační počiny vycházejí z naivního přístupu, který se pak těžko převrací do něčeho použitelného. Buď se každá část navrhne správně už od začátku, nebo se to musí dát snadno přepsat. Pokud něco z toho není splněno, jde to do kopru.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Mnohá řešení tratí na tom, že se od začátku upneme na nějaký konkrétní způsob řešení (konkrétní způsob implementace). Často používáme "Nic mi neříkejte, já na to přijdu sám!" místo toho, abychom použili prozkoumané (i když nám zatím neznámé) techniky.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Když to shrnu:</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Nemístné šetření prostorem většinou sníží rychlost řešení.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Nemístné plýtvání prostorem většinou dále nezvýší rychlost řešení.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Neexistuje jediné nejlepší řešení pro všechny situace. Vždy je to kompromis.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">- Mohou existovat rozpoznatelné situace, kdy je výhodnější jedno z více známých řešení. Celkové řešení může být například zdvojené s tím, že se to lepší vybírá dynamicky.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">(Vezměte si například "hloupý" SQL serve s SQL dotazovacím jazykem. Tam se napřelo už tolik úsilí, že stěží sami přijdete na něco lepšího při optimalizaci dotazu.)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Pokud je nutné řadit, pak nejlepší sekvenční algoritmus má teoretickou časovou složitost O(n log n). Tolikrát se budou muset transformovat data, pokud nebudou uložena. Příprava před řazením může věci urychlit.</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Nechtěl jsem napsat vyčerpávající odpověď ;)</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">Mějte se fajn,</p>


<p style="padding:0 0 0 0;margin:0 0 0 0">    Petr</p>


<p style="padding:0 0 0 0;margin:0 0 0 0"> </p>


<p style="padding:0 0 0 0;margin:0 0 0 0">______________________________________________________________<br>

> Od: "Lumír Balhar" <<a href="mailto:frenzy.madness@gmail.com" target="_blank">frenzy.madness@gmail.com</a>><br>

> Komu: <<a href="mailto:python@py.cz" target="_blank">python@py.cz</a>><br>

> Datum: 15.06.2015 22:36<br>

> Předmět: [python] Paměťově náročné řazení<br>

></p><div class="HOEnZb"><div class="h5">


<p style="padding:0 0 0 0;margin:0 0 0 0">Ahoj všem.<br>

<br>

Řeším s kamarádem jeden jeho projekt, jehož součástí je i Burrows-Wheelerova transformace, která se používá před kompresí dat společně s Move to Front transformací pro snížení entropie vstupních dat a tím zvýšení efektivity kompresního algoritmu, kterému tyto dvě transformace předcházejí.<br>

<br>

Pochopení transformací není potřeba. U BWT se využívá tzv, buffer, který obsahuje všechny možné rotace vstupních dat, takže například pro "ema má maso" vypadá takto:<br>

<br>

 0 ema ma maso<br>

 1 ma ma masoe<br>

 2 a ma masoem<br>

 3  ma masoema<br>

 4 ma masoema <br>

 5 a masoema m<br>

 6  masoema ma<br>

 7 masoema ma <br>

 8 asoema ma m<br>

 9 soema ma ma<br>

10 oema ma mas<br>

<br>

Pro malá data je to dobré, ale pro velká nelze mít celý buffer v paměti, protože se pro každý vstupní znak navíc rozšíří o řádek i sloupec zároveň.<br>

Napsal jsem tedy pro Buffer samostatnou třídu, kde pomocí __getitem__ vygeneruji potřebný řádek posunem až ve chvíli, kdy je jeho obsah potřeba.<br>

<br>

Základní buffer jsem tím vyřešil a ušetřil hromadu paměti. Problém ale je, že v dalším kroku potřebuji tento buffer lexikograficky seřadit. Abych jej opět nemusel cpát do paměti, vytvořil jsem pole indexů, kde každý index reprezentuje jeden řádek bufferu a řadím jen toto pole (čímž získám přeskládané pořadí řádků původního bufferu), ale jako klíč používám právě obsah řádku pro daný index.<br>

<br>

Konkrétně:<br>

<br>

class Buffer():<br>

    def __init__(self, input):<br>

        self.input = input<br>

        self.indexes = [x for x in range(len(input))]<br>

<br>

    def __getitem__(self, index):<br>

        return self.input[index:] + self.input[0:index]<br>

<br>

    def sort(self):<br>

        self.indexes.sort(key=lambda x: self[x])<br>

<br>

<br>

A teď jsme se dostali k jádru problému. I když se obsah jednotlivých řádků generuje až ve chvíli, kdy jsou potřeba, a řadit by se mělo jen relativně malé pole indexů, při volání funkce .sort() se jakoby stejně celé to pole nejdříve vytvoří v paměti, seřadí a pak se seřadí to cílové pole s indexy na základě obsahu bufferu.<br>

<br>

Existuje způsob, jak implementovat takovýto řadící algoritmus pro velký objem dat, aniž bych je měl v jednu chvíli všechny v paměti?<br>

<br>

Předem díky za nakopnutí tím správným směrem.<br>

Lumír<br>

_______________________________________________<br>

Python mailing list<br>

<a href="mailto:python@py.cz" target="_blank">python@py.cz</a><br>

<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>

<br>

Visit: <a href="http://www.py.cz" target="_blank">http://www.py.cz</a></p>


</div></div><br>_______________________________________________<br>

Python mailing list<br>

<a href="mailto:python@py.cz">python@py.cz</a><br>

<a href="http://www.py.cz/mailman/listinfo/python" rel="noreferrer" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>

<br>

Visit: <a href="http://www.py.cz" rel="noreferrer" target="_blank">http://www.py.cz</a><br></blockquote></div><br></div>