хеш таблица что это
Хеш-таблицы
Предисловие
Я много раз заглядывал на просторы интернета, нашел много интересных статей о хеш-таблицах, но вразумительного и полного описания того, как они реализованы, так и не нашел. В связи с этим мне просто нетерпелось написать пост на данную, столь интересную, тему.
Возможно, она не столь полезна для опытных программистов, но будет интересна для студентов технических ВУЗов и начинающих программистов-самоучек.
Мотивация использовать хеш-таблицы
Для наглядности рассмотрим стандартные контейнеры и асимптотику их наиболее часто используемых методов.
Контейнер \ операция | insert | remove | find |
---|---|---|---|
Array | O(N) | O(N) | O(N) |
List | O(1) | O(1) | O(N) |
Sorted array | O(N) | O(N) | O(logN) |
Бинарное дерево поиска | O(logN) | O(logN) | O(logN) |
Хеш-таблица | O(1) | O(1) | O(1) |
Все данные при условии хорошо выполненных контейнерах, хорошо подобранных хеш-функциях
Из этой таблицы очень хорошо понятно, почему же стоит использовать хеш-таблицы. Но тогда возникает противоположный вопрос: почему же тогда ими не пользуются постоянно?
Ответ очень прост: как и всегда, невозможно получить все сразу, а именно: и скорость, и память. Хеш-таблицы тяжеловесные, и, хоть они и быстро отвечают на вопросы основных операций, пользоваться ими все время очень затратно.
Понятие хеш-таблицы
Хеш-таблица — это контейнер, который используют, если хотят быстро выполнять операции вставки/удаления/нахождения. В языке C++ хеш-таблицы скрываются под флагом unoredered_set и unordered_map. В Python вы можете использовать стандартную коллекцию set — это тоже хеш-таблица.
Реализация у нее, возможно, и не очевидная, но довольно простая, а главное — как же круто использовать хеш-таблицы, а для этого лучше научиться, как они устроены.
Для начала объяснение в нескольких словах. Мы определяем функцию хеширования, которая по каждому входящему элементу будет определять натуральное число. А уже дальше по этому натуральному числу мы будем класть элемент в (допустим) массив. Тогда имея такую функцию мы можем за O(1) обработать элемент.
Теперь стало понятно, почему же это именно хеш-таблица.
Проблема коллизии
Естественно, возникает вопрос, почему невозможно такое, что мы попадем дважды в одну ячейку массива, ведь представить функцию, которая ставит в сравнение каждому элементу совершенно различные натуральные числа просто невозможно. Именно так возникает проблема коллизии, или проблемы, когда хеш-функция выдает одинаковое натуральное число для разных элементов.
Существует несколько решений данной проблемы: метод цепочек и метод двойного хеширования. В данной статье я постараюсь рассказать о втором методе, как о более красивом и, возможно, более сложном.
Решения проблемы коллизии методом двойного хеширования
Мы будем (как несложно догадаться из названия) использовать две хеш-функции, возвращающие взаимопростые натуральные числа.
Одна хеш-функция (при входе g) будет возвращать натуральное число s, которое будет для нас начальным. То есть первое, что мы сделаем, попробуем поставить элемент g на позицию s в нашем массиве. Но что, если это место уже занято? Именно здесь нам пригодится вторая хеш-функция, которая будет возвращать t — шаг, с которым мы будем в дальнейшем искать место, куда бы поставить элемент g.
Мы будем рассматривать сначала элемент s, потом s + t, затем s + 2*t и т.д. Естественно, чтобы не выйти за границы массива, мы обязаны смотреть на номер элемента по модулю (остатку от деления на размер массива).
Наконец мы объяснили все самые важные моменты, можно перейти к непосредственному написанию кода, где уже можно будет рассмотреть все оставшиеся нюансы. Ну а строгое математическое доказательство корректности использования двойного хеширования можно найти тут.
Реализация хеш-таблицы
Для наглядности будем реализовывать хеш-таблицу, хранящую строки.
Начнем с определения самих хеш-функций, реализуем их методом Горнера. Важным параметром корректности хеш-функции является то, что возвращаемое значение должно быть взаимопросто с размером таблицы. Для уменьшения дублирования кода, будем использовать две структуры, ссылающиеся на реализацию самой хеш-функции.
Чтобы идти дальше, нам необходимо разобраться с проблемой: что же будет, если мы удалим элемент из таблицы? Так вот, его нужно пометить флагом deleted, но просто удалять его безвозвратно нельзя. Ведь если мы так сделаем, то при попытке найти элемент (значение хеш-функции которого совпадет с ее значением у нашего удаленного элемента) мы сразу наткнемся на пустую ячейку. А это значит, что такого элемента и не было никогда, хотя, он лежит, просто где-то дальше в массиве. Это основная сложность использования данного метода решения коллизий.
Помня о данной проблеме построим наш класс.
На данном этапе мы уже более-менее поняли, что у нас будет храниться в таблице. Переходим к реализации служебных методов.
Из необходимых методов осталось еще реализовать динамическое увеличение, расширение массива — метод Resize.
Увеличиваем размер мы стандартно вдвое.
Немаловажным является поддержание асимптотики O(1) стандартных операций. Но что же может повлиять на скорость работы? Наши удаленные элементы (deleted). Ведь, как мы помним, мы ничего не можем с ними сделать, но и окончательно обнулить их не можем. Так что они тянутся за нами огромным балластом. Для ускорения работы нашей хеш-таблицы воспользуемся рехешом (как мы помним, мы уже выделяли под это очень странные переменные).
Теперь воспользуемся ими, если процент реальных элементов массива стал меньше 50, мы производим Rehash, а именно делаем то же самое, что и при увеличении таблицы (resize), но не увеличиваем. Возможно, это звучит глуповато, но попробую сейчас объяснить. Мы вызовем наши хеш-функции от всех элементов, переместим их в новых массив. Но с deleted-элементами это не произойдет, мы не будем их перемещать, и они удалятся вместе со старой таблицей.
Но к чему слова, код все разъяснит:
Ну теперь мы уже точно на финальной, хоть и длинной, и полной колючих кустарников, прямой. Нам необходимо реализовать вставку (Add), удаление (Remove) и поиск (Find) элемента.
Начнем с самого простого — метод Find элемент по значению.
Далее мы реализуем удаление элемента — Remove. Как мы это делаем? Находим элемент (как в методе Find), а затем удаляем, то есть просто меняем значение state на false, но сам Node мы не удаляем.
Ну и последним мы реализуем метод Add. В нем есть несколько очень важных нюансов. Именно здесь мы будем проверять на необходимость рехеша.
Помимо этого в данном методе есть еще одна часть, поддерживающая правильную асимптотику. Это запоминание первого подходящего для вставки элемента (даже если он deleted). Именно туда мы вставим элемент, если в нашей хеш-таблицы нет такого же. Если ни одного deleted-элемента на нашем пути нет, мы создаем новый Node с нашим вставляемым значением.
Хеш-таблица
Определение: |
Хеш-табли́ца (англ. hash-table) — структура данных, реализующая интерфейс ассоциативного массива. В отличие от деревьев поиска, реализующих тот же интерфейс, обеспечивают меньшее время отклика в среднем. Представляет собой эффективную структуру данных для реализации словарей, а именно, она позволяет хранить пары (ключ, значение) и выполнять три операции: операцию добавления новой пары, операцию поиска и операцию удаления пары по ключу. |
Содержание
Введение [ править ]
Количество коллизий зависит от хеш-функции; чем лучше используемая хеш-функция, тем меньше вероятность их возникновения.
что в общем случае [math] \gt \dfrac<1><2>[/math]
Способ разрешения коллизий — важная составляющая любой хеш-таблицы.
Если мы поделим число хранимых элементов на размер массива [math]H[/math] (число возможных значений хеш-функции), то узнаем коэффициент заполнения хеш-таблицы (англ. load factor). От этого параметра зависит среднее время выполнения операций.
Хеширование [ править ]
Хеширование (англ. hashing) — класс методов поиска, идея которого состоит в вычислении хеш-кода, однозначно определяемого элементом с помощью хеш-функции, и использовании его, как основы для поиска (индексирование в памяти по хеш-коду выполняется за [math]O(1)[/math] ). В общем случае, однозначного соответствия между исходными данными и хеш-кодом нет в силу того, что количество значений хеш-функций меньше, чем вариантов исходных данных, поэтому существуют элементы, имеющие одинаковые хеш-коды — так называемые коллизии, но если два элемента имеют разный хеш-код, то они гарантированно различаются. Вероятность возникновения коллизий играет немаловажную роль в оценке качества хеш-функций. Для того чтобы коллизии не замедляли работу с таблицей существуют методы для борьбы с ними.
Виды хеширования [ править ]
Статическое — фиксированное количество элементов. Один раз заполняем хеш-таблицу и осуществляем только проверку на наличие в ней нужных элементов,
Динамическое — добавляем, удаляем и смотрим на наличие нужных элементов.
Свойства хеш-таблицы [ править ]
Хеширование в современных языках программирования [ править ]
Почти во всех современных языках присутствуют классы, реализующие хеширование. Рассмотрим некоторые из них.
Хэш-таблицы
В этой статье вы познакомитесь с хэш-таблицами и увидите примеры их реализации в Cи, C++, Java и Python.
Хэш-таблица — это структура данных, в которой все элементы хранятся в виде пары ключ-значение, где:
Хэширование (хэш-функция)
В хэш-таблице обработка новых индексов производится при помощи ключей. А элементы, связанные с этим ключом, сохраняются в индексе. Этот процесс называется хэшированием.
Пусть k — ключ, а h(x) — хэш-функция.
Коллизии
Когда хэш-функция генерирует один индекс для нескольких ключей, возникает конфликт (неизвестно, какое значение нужно сохранить в этом индексе). Это называется коллизией хэш-таблицы.
Есть несколько методов борьбы с коллизиями:
1. Метод цепочек
Суть этого метода проста: если хэш-функция выделяет один индекс сразу двум элементам, то храниться они будут в одном и том же индексе, но уже с помощью двусвязного списка.
Псевдокод операций
2. Открытая адресация
Существует несколько видов открытой адресации:
a) Линейное зондирование
Линейное зондирование решает проблему коллизий с помощью проверки следующей ячейки.
Проблема линейного зондирования заключается в том, что заполняется кластер соседних ячеек. Это приводит к тому, что при вставке нового элемента в хэш-таблицу необходимо проводить полный обход кластера. В результате время выполнения операций с хэш-таблицами увеличивается.
b) Квадратичное зондирование
Работает оно так же, как и линейное — но есть отличие. Оно заключается в том, что расстояние между соседними ячейками больше (больше одного). Это возможно благодаря следующему отношению:
c) Двойное хэширование
h(k, i) = (h1(k) + ih2(k)) mod m
«Хорошие» хэш-функции
«Хорошие» хэш-функции не уберегут вас от коллизий, но, по крайней мере, сократят их количество.
Ниже мы рассмотрим различные методы определения «качества» хэш-функций.
1. Метод деления
Если k — ключ, а m — размер хэш-таблицы, то хэш-функция h() вычисляется следующим образом:
2. Метод умножения
3. Универсальное хеширование
В универсальном хешировании хеш-функция выбирается случайным образом и не зависит от ключей.
Что такое хеш-таблицы, и как они работают
Хеш-таблица (hash table) — это специальная структура данных для хранения пар ключей и их значений. По сути это ассоциативный массив, в котором ключ представлен в виде хеш-функции.
Пожалуй, главное свойство hash-таблиц — все три операции: вставка, поиск и удаление — в среднем выполняются за время O(1), среднее время поиска по ней также равно O(1) и O(n) в худшем случае.
Простое представление хеш-таблиц
Чтобы разобраться, что такое хеш-таблицы, представьте, что вас попросили создать библиотеку и заполнить ее книгами. Но вы не хотите заполнять шкафы в произвольном порядке.
Первое, что приходит в голову — разместить все книги в алфавитном порядке и записать все в некий справочник. В этом случае не придется искать нужную книгу по всей библиотеке, а только по справочнику.
А можно сделать еще удобнее. Если изначально отталкиваться от названия книги или имени автора, то лучше использовать некий алгоритм хеширования, который обрабатывает входящее значение и выдает номер шкафа и полки для нужной книги.
Зная этот алгоритм хэширования, вы быстро найдете нужную книгу по ее названию.
Учтите, что хеш-функция должна иметь следующие свойства:
Борьба с коллизиями (они же столкновения)
В идеальном случае, когда заранее известны все пары ключ-значение, достаточно легко реализовать идеальную хеш-таблицу, в которой время поиска будет постоянным (используется идеальная хеш-функция, которая определяет положения в таблице по целым значениям и без столкновений).
Но в большинстве случаев приходится бороться с коллизиями. Обычно применяются методы цепочек и открытой индексации.
Метод цепочек
Этот метод часто называют открытым хешированием. Его суть проста — элементы с одинаковым хешем попадают в одну ячейку в виде [https://ru.wikipedia.org/wiki/%D0%A1%D0%B2%D1%8F%D0%B7%D0%BD%D1%8B%D0%B9_%D1%81%D0%BF%D0%B8%D1%81%D0%BE%D0%BA связного списка].
То есть, если ячейка с хешем уже занята, но новый ключ отличается от уже имеющегося, то новый элемент вставляется в список в виде пары ключ-значение.
В C++ метод цепочек реализуется так:
Проверка ячейки и создание списка
Открытая индексация (или закрытое хеширование)
Второй распространенный метод — открытая индексация. Это значит, что пары ключ-значение хранятся непосредственно в хеш-таблице. А алгоритм вставки проверяет ячейки в некотором порядке, пока не будет найдена пустая ячейка. Порядок вычисляется на лету.
Самая простая в реализации последовательность проб — линейное пробирование (или линейное исследование). Здесь все просто — в случае коллизии, следующие ячейки проверяются линейно, пока не будет найдена пустая ячейка.
А алгоритм поиска ищет ячейки в том же порядке, что и при вставке, пока не найдет нужный элемент или пустую ячейку, которая говорит о том, что ключ отсутствует. В случае, если таблица будет заполнена, ее придется динамически расширять.
Метод линейного пробирования для открытой индексации на C++:
Проверка ячеек и вставка значения
Самое главное
Хеширование и хеш-таблицы применяются для более удобного хранения пар ключ-значение. Если нужна максимальная эффективность, то используйте хеш-таблицы со списками будет намного быстрее, чем обычная таблица.
Этот текст был написан несколько лет назад. С тех пор упомянутые здесь инструменты и софт могли получить обновления. Пожалуйста, проверяйте их актуальность.
Все, что вы хотели знать о хэш-таблицах
Я хочу вернуться на шаг назад и поговорить о хэш-таблицах. Теперь я использую их все время. Вчера вечером я объяснял человеку принцип их работы после встречи с группой пользователей и понял, что я, так же как и мой слушатель, кое-что о них не понимаю. Хэш-таблицы играют очень важную роль в PowerShell, поэтому будет полезно получить о них полное представление.
Оригинал этой статьи впервые был опубликован в блоге автора @KevinMarquette. Группа разработчиков PowerShell благодарит Кевина за то, что он поделился с нами этими материалами. Ознакомьтесь с его блогом на веб-сайте PowerShellExplained.com.
Хэш-таблица как коллекция объектов
Я рекомендую рассматривать хэш-таблицу как коллекцию в традиционном определении термина хэш-таблицы. Это определение позволяет получить полное понимание их работы в случае последующего расширенного использования. Если изначально не понять этот момент, впоследствии можно запутаться.
Что такое массив?
Прежде чем перейти к определению хэш-таблицы, нужно сначала рассказать о массивах. В рамках этого обсуждения массив понимается как список или коллекция значений или объектов.
После передачи элементов в массив можно использовать foreach для выполнения итерации по списку или индекс для доступа к отдельным элементам в массиве.
Точно так же можно обновлять значения с помощью индекса.
Я лишь поверхностно изложил понятие массивов, но при переходе к хэш-таблицам это позволит получить о них правильное представление.
Что такое хэш-таблица?
Сначала я приведу основное техническое описание хэш-таблиц, а затем расскажу о других способах их использования в PowerShell.
Хэш-таблица представляет собой структуру данных, во многом похожую на массив, за исключением того, что каждое значение (объект) сохраняется в ней с помощью ключа. Это базовое хранилище ключей и значений. Сначала мы создаем пустую хэш-таблицу.
Обратите внимание, что для определения хэш-таблицы используются фигурные скобки вместо круглых. Затем мы добавляем элемент, используя следующий ключ:
Имя пользователя — ключ, а его возраст — это значение, которое я хочу сохранить.
Использование квадратных скобок для доступа
После добавления значений в хэш-таблицу можно перенести их обратно, используя тот же ключ (вместо числового индекса как для массива).
Кроме того, можно использовать для доступа и обновления значений другой синтаксис. Я расскажу о нем в следующем разделе. Если вы перешли на PowerShell с другого языка, скорее всего, раньше вы использовали хэш-таблицы примерно так же, как показано в этих примерах.
Создание хэш-таблиц со значениями
Пока я создал пустую хэш-таблицу для этих примеров. При создании таблицы вы можете предварительно внести в нее ключи и значения.
В качестве таблицы подстановки
Реальная ценность этого типа хэш-таблиц заключается в том, что их можно использовать в качестве таблиц подстановки. Вот простой пример.
Я бы не сказал, что это будет быстрее, однако указанный способ обеспечивает соответствие правилу Если имеет значение производительность, протестируйте ее.
Множественный выбор
Обычно хэш-таблица рассматривается как пара «ключ-значение», где вы указываете один ключ и получаете одно значение. PowerShell позволяет предоставить массив ключей, чтобы получить несколько значений.
В этом примере я использую вышеописанную хэш-таблицу подстановки и указываю три различных стиля массива для получения совпадений. Это скрытое преимущество PowerShell, о котором большинство пользователей не знает.
Итерация хэш-таблиц
Поскольку хэш-таблица представляет собой коллекцию пар «ключ-значение», итерация для них выполняется иначе, чем для массива или обычного списка элементов.
Первое, что следует заметить, — при передаче хэш-таблицы по каналу он обрабатывает ее как один объект,
Зачастую удобнее перечислить ключи и использовать их для доступа к значениям.
Далее приведен тот же пример, в котором используется цикл foreach() <. >.
Мы выполняем обход всех ключей в хэш-таблице и используем их для доступа к значениям. Это общий шаблон, используемый при работе с хэш-таблицами как с коллекциями.
GetEnumerator()
Таким образом, мы приходим к использованию GetEnumerator() для выполнения итерации нашей хэш-таблицы.
Перечислитель выдает каждую пару «ключ-значение» по очереди. Он специально разработан для такого варианта использования. Спасибо Марку Краусу за то, что напомнил мне об этом.
BadEnumeration
Попытка задать для каждого ключа одно и то же значение сервера завершится ошибкой.
Это также приведет к сбою, даже если на первый взгляд все выглядит корректно:
в этой ситуации хитрость заключается в клонировании ключей до выполнения перечисления.
Хэш-таблица как коллекция свойств
Пока что в нашу хэш-таблицу помещались объекты одинакового типа. Я использовал данные о возрасте во всех этих примерах, а в качестве ключа использовалось имя пользователя. Это отличный способ изучения данных, если в коллекции объектов у каждого объекта есть имя. Еще один распространенный способ использования хэш-таблиц в PowerShell — хранение коллекции свойств, где ключом является имя свойства. В следующем примере я расскажу об этом подробнее.
Доступ на основе свойств
Использование доступа на основе свойств меняет динамику хэш-таблиц и способ их использования в PowerShell. Вот типичный пример, в котором ключи обрабатываются как свойства.
Как и в примерах выше, в этом примере такие ключи добавляются, если только они еще не существуют в хэш-таблице. В зависимости от того, как определены ключи и какие используются значения, такой способ либо выглядит немного странным, либо идеально решает задачу. До этого момента пример списка данных о возрасте отлично подходил. Теперь нам нужен новый пример.
Внезапно оказывается, что эта хэш-таблица начинает работать как объект. Это все еще коллекция, так что все примеры по-прежнему применимы. Мы просто рассматриваем ее с другой точки зрения.
Проверка ключей и значений
В большинстве случаев можно протестировать значение примерно таким способом:
Кроме того, мы используем ContainsValue() в ситуациях, когда требуется проверить значение, не имея данных о ключе, или выполнить итерацию для всей коллекции.
Удаление и очистка ключей
Для очистки хэш-таблицы чаще всего используется ее инициализация как пустой хэш-таблицы.
Это один из тех случаев, когда использование функции создает самодокументируемый код, цель которого предельно ясна и понятна.
Все занятные вещи
Упорядоченные хэш-таблицы
Теперь при перечислении ключи и значения сохраняют этот порядок.
Строковые хэш-таблицы
При определении хэш-таблицы в одной строке можно разделять пары «ключ-значение» точкой с запятой.
Это удобно, если вы создаете их в канале.
Настраиваемые выражения в общих командах конвейера
Я поместил его в переменную, однако его можно определить как строковый и сократить name до n и expression до e в процессе работы над ним.
Настраиваемое выражение сортировки
В этом примере я выберу список пользователей и использую специальный командлет, чтобы получить дополнительную информацию исключительно в целях сортировки.
Сортировка списка хэш-таблиц
При наличии списка хэш-таблиц, которые нужно отсортировать, выясняется, что Sort-Object не обрабатывает ключи как свойства. Эту проблему можно решить с помощью настраиваемых выражений сортировки.
Сплаттинг хэш-таблиц в командлетах
Именно это мне больше всего нравится в хэш-таблицах, однако многие об этом до сих пор не знают. Идея в том, чтобы вместо указания всех свойств в одной строке командлета сначала упаковать их в хэш-таблицу. После этого можно специально присвоить хэш-таблицу функции. Ниже приведен пример создания области DHCP обычным способом.
Если сплаттинг не используется, все это необходимо определять в одной строке. При этом либо приходится прокручивать экран, либо строка разворачивается в произвольном месте. А теперь сравним это с командой, которая использует сплаттинг.
Просто подумайте, насколько легко читать данные в таком примере. Это абсолютно та же команда с теми же значениями. Второй вариант гораздо проще для понимания и использования в дальнейшей работе.
Я всегда использую сплаттинг, если команда становится слишком длинной. Когда я говорю «слишком длинной», я имею в виду, что мне приходится прокручивать экран вправо. Если я выбираю три свойства для функции, велика вероятность, что мне придется переписывать их с использованием хэш-таблицы со сплаттингом.
Сплаттинг для дополнительных параметров
Несколько операций сплаттинга
Можно выполнить сплаттинг нескольких хэш-таблиц в один командлет. Если вернуться к первоначальному примеру сплаттинга:
Я использую этот метод, когда у меня будет общий набор параметров, который передается во многие команды.
Сплаттинг для чистого кода
В сплаттинге одного параметра нет ничего плохого, если это помогает очистить код.
Сплаттинг исполняемых файлов
Не знаю, действительно ли все это имеет практическую пользу, но, по-моему, это очень интересно.
Добавление хэш-таблиц
Хэш-таблицы поддерживают оператор сложения для объединения двух хэш-таблиц.
Это эффективно только в том случае, если две хэш-таблицы не имеют общего ключа.
Вложенные хэш-таблицы
Хэш-таблицы можно использовать в качестве значений в хэш-таблице.
Это создает ту же хэш-таблицу, которая описывалась выше, и обеспечивает доступ к свойствам таким же образом.
Существует множество способов реализации структуры объектов. Ниже показан другой вариант представления вложенной хэш-таблицы.
В результате можно использовать хэш-таблицы как в качестве коллекции объектов, так и в качестве коллекции свойств. Доступ к значениям по-прежнему легко получить, даже если они вложены любым выбранным методом.
Я обычно использую свойство Dot, когда рассматриваю хэш-таблицу как свойство. Обычно в моем коде они определяются статически, и я знаю их чисто интуитивно. Если нужно обойти список или программно получить доступ к ключам, я использую квадратные скобки для ввода имени ключа.
Возможность вкладывать хэш-таблицы обеспечивает большую гибкость и дополнительные возможности.
Просмотр вложенных хэш-таблиц
Как только вы начнете вкладывать хэш-таблицы друг в друга, вам потребуются простые способы их просмотра из консоли. Если я возьму эту последнюю хэш-таблицу, я получу выходные данные, которые будут выглядеть следующим образом, поскольку это максимальная глубина просмотра:
Даже если вы не знакомы с JSON, вы сможете просмотреть то, что искали. Существует команда Format-Custom для таких структурированных данных, но мне все-таки больше нравится просмотр в JSON.
Создание объектов
В отдельных случаях требуется только наличие объекта, а использование хэш-таблицы для хранения свойств не решает задачу. Чаще всего требуется просмотр ключей как имен столбцов. pscustomobject упрощает эту задачу.
У меня уже есть подробная статья о PCSCustomObject, которую я рекомендую прочесть после этого. Она основана на большом объеме данных, которые мы получили отсюда.
Чтение и запись хэш-таблиц в файл
Сохранение в CSV-файл
Опять же, рекомендую ознакомиться с моей публикацией по использованию PCSCustomObject.
Сохранение вложенной хэш-таблицы в файл
Если нужно сохранить вложенную хэш-таблицу в файл, а затем повторно прочитать ее, я использую для этого командлеты JSON.
Обращайте внимание на хэш-таблицы с глубоким уровнем вложенности. Преобразование в формат JSON может привести к непредвиденным результатам.
Используйте параметр Depth, чтобы обеспечить развертывание всех вложенных хэш-таблиц.
Преобразование JSON в хэш-таблицу
Начиная с PowerShell версии 6, для поддержки JSON используется NewtonSoft JSON.NET, а также добавлена поддержка хэш-таблиц.
Чтение непосредственно из файла
Если у вас есть файл, который содержит хэш-таблицу, использующую синтаксис PowerShell, есть способ импортировать его напрямую.
Знаете ли вы, что манифест модуля (файл PSD1) является просто хэш-таблицей?
Ключом может быть любой объект.
Как правило, ключи — это просто строки. Таким образом, мы можем заключить в кавычки все, что угодно, и сделать это ключом.
Вы можете выполнить практически любые задачи, даже если раньше не знали, что это вообще возможно.
Однако тот факт, что вы можете что-то сделать, вовсе не значит, что это нужно делать. Последний вариант выглядит так, как будто ошибка в нем неминуема, и его неправильно поймет любой, кто читает ваш код.
Технически ваш ключ необязательно должен быть строкой, однако его проще воспринимать, если используются только строки. Но индексирование не будет нормально выполняться со сложными ключами.
Доступ к значению в хэш-таблице по ключу не всегда работает. Пример:
Использование в автоматических переменных
$PSBoundParameters
$PSBoundParameters — это автоматическая переменная, которая существует только в контексте функции. Она содержит все параметры, с которыми вызывалась функция. Это не совсем хэш-таблица, но достаточно близка к тому, чтобы ее можно было обрабатывать как хэш-таблицу.
Это предполагает удаление ключей и ее сплаттинг в другие функции. Если вы намерены писать функции прокси-сервера, ознакомьтесь со следующими сведениями.
Дополнительные сведения см. в разделе about_Automatic_Variables.
Проблема с PSBoundParameters
$PSDefaultParameterValues
Эта автоматическая переменная позволяет назначить значения по умолчанию любому командлету, не изменяя его. Взгляните на этот пример.
Я часто использую этот способ для предварительного присвоения значений, которые я часто ввожу.
Это также позволяет использовать подстановочные знаки для группового указания значений. Далее описывается несколько способов использования этой операции:
Более подробно это рассматривается в отличной статье об Автоматические значения по умолчанию, написанной Майкл Соренс.
Именованные совпадения
Это одна из моих любимых функций, о которой большинство пользователей не знает. Если используется именованное совпадение регулярного выражения, доступ к совпадению осуществляется по имени в совпадениях.
Одна из малоизвестных возможностей в Group-Object — возможность преобразовать некоторые наборы данных в хэш-таблицу.
Таким образом, в хэш-таблицу добавляются все строки, и указанное свойство используется как ключ для доступа к ним.
Копирование хэш-таблиц
Важно помнить, что хэш-таблицы являются объектами. А каждая переменная — это просто ссылка на объект. Это означает, что создание допустимой копии хэш-таблицы потребует больших усилий.
Присвоение ссылочных типов
Если есть одна хэш-таблица и она присвоена второй переменной, обе переменные указывают на одну и ту же хэш-таблицу.
Это подчеркивает, что они одинаковые, так как при изменении значений в одной из них также меняются значения в другой. Данное правило также применимо при передаче хэш-таблиц в другие функции. Если эти функции вносят изменения в данную хэш-таблицу, то оригинал также изменится.
Неполные копии, одноуровневые
Это позволит нам вносить базовые изменения в одни данные, и эти изменения не повлияют на другие данные.
Неполные копии, вложенные
Такая копия называется неполной, поскольку в нее добавляются только свойства базового уровня. Если одно из этих свойств является ссылочным типом (например, другой хэш-таблицей), то эти вложенные объекты по-прежнему будут указывать друг на друга.
Итак, вы видите, что, несмотря на то, что я клонировал хэш-таблицу, ссылка на person не была клонирована. Чтобы получить вторую хэш-таблицу, которая не связана с первой, необходимо создать полную копию.
Полные копии
Есть несколько способов создать полную копию хэш-таблицы (оставив ее хэш-таблицей). Следующая функция использует PowerShell для рекурсивного создания полной копии:
При этом не обрабатываются любые другие ссылочные типы или массивы, но это хорошая отправная точка.
В случае с очень большими хэш-таблицами функция десериализации выполняется быстрее, так как она масштабируется. Однако при использовании этого метода следует учесть несколько моментов. Из-за использования CliXml потребляется много памяти, что при клонировании огромных хэш-таблиц может вызвать проблемы. Еще один недостаток CliXml в том, что максимальная глубина вложения ограничена 48 уровнями. Это значит, что если у вас есть хэш-таблица с 48 уровнями вложенных хэш-таблиц, клонирование завершится сбоем и в результате вы ничего не получите.
Что-нибудь еще?
Я кратко охватил большое количество вопросов. Надеюсь, что при каждом прочтении вы будете находить для себя что-то новое. Хотя я рассмотрел весь спектр возможностей этой функции, есть все-таки несколько аспектов, которые в настоящее время могут быть неприменимы. Это вполне приемлемо и ожидаемо. Все зависит от того, насколько активно вы используете PowerShell.
2>